¿El declive del rendimiento de chatGPT Plus/GPT-4 durante las últimas 4-6 semanas?

Si sigues de cerca el espacio de la IA, puede que hayas leído o visto la primera conferencia para desarrolladores de OpenAI a principios de esta semana. Es difícil no quedar asombrado por lo que anunciaron: tanto desde la perspectiva del uso actual del producto como desde la de los nuevos anuncios de productos.

Esta publicación no trata sobre eso. Trata sobre el reciente declive del rendimiento durante las últimas 4-6 semanas. Esto se basa únicamente en mi experiencia personal. (Y no, no he realizado ninguna investigación científica al respecto.)

Entonces, el TL;DR:

El rendimiento de chatGPT 4.0 (versión web) es notablemente peor tanto para tareas de escritura como de programación durante las últimas 4-6 semanas.
La capacidad de razonamiento de GPT-4 Turbo parece ser peor que la de Gpt-3.5 o GPT-4.
Sigo siendo suscriptor de chatGPT plus y uso la API de OpenAI para mi chatbot.

Déjame contarte más.

El rendimiento de chatGPT 4.0 es notablemente peor tanto para tareas de escritura como de programación durante las últimas 4-6 semanas

Como alguien que usa la interfaz web de chatGPT plus a diario, puedo notar dolorosamente el problema de rendimiento, especialmente durante las últimas 4-6 semanas. ¿Cuáles son los síntomas?

Para escritura

La calidad de escritura (especialmente el tono de voz y la capacidad de seguir instrucciones detalladas) es notablemente peor
Falla repetidamente al seguir solicitudes de revisión de escritura. Se puso tan mal que comencé a pagarle a Anthropic para usar Claude Pro.
Durante el último año, desarrollé el hábito de depender extensamente de ChatGPT para escribir, corregir, etc... y me preocupaba que esto me hubiera vuelto demasiado perezoso para probar nuevas herramientas. Bueno, ya no. Ahora uso Claude Pro cada vez más para redactar, revisar contenido y otras tareas de escritura.
- También me gusta la ventana de contexto mucho más larga de Claude frente a chatGPT 4 (por ahora, hasta que GPT-4 turbo esté ampliamente disponible).
Claude todavía es bastante malo con matemáticas básicas. :P Por ejemplo, con frecuencia necesito tener una meta descripción para cada publicación de blog (para propósitos de SEO), así que a menudo escribo algo como esto: "Dame 5 meta descripciones diferentes para el contenido del blog anterior, en diferentes estilos, con el propósito de alentar a los usuarios a hacer clic y leer el contenido del blog. La meta descripción debe tener un máximo de 140 caracteres, incluidos los espacios".
- Claude me daba repetidamente meta descripciones mucho más largas, incluso después de decirle que las acortara.
- ChatGPT solía hacer bien esta tarea, pero no en las últimas 4-6 semanas.

Nota al margen: también noté que recientemente, cuando le pides a chatGPT que escriba el artículo completo por ti, se niega a hacerlo, lo cual creo que es un buen paso. Ayudará a reducir el contenido spam en línea. Anteriormente era demasiado fácil pedirle a chatGPT que escribiera un artículo de 4000 palabras sobre un tema específico. Primero te daba el esquema, pedía comentarios y luego procedía a escribir el artículo completo de 4000 palabras. Ya no lo hace.

Para programación

chatGPT (versión web) se pierde fácilmente en las tareas de programación; no parece recordar el código que escribió hace apenas unos minutos, durante la misma sesión.
Falla al seguir instrucciones detalladas para corregir un problema de programación. Por ejemplo, le di el código completo de mi aplicación y luego compartí un ejemplo de otro proyecto con una función que me gustaría incluir.
- Luego le pedí a GPT 4 que usara el ejemplo y revisara el código de mi aplicación. Su respuesta estaba tan fuera de lugar que no me fue de ninguna utilidad. Intenté redirigir a chatGPT varias veces pero aún no pudo hacerlo.
- Cuando repetí el mismo ejercicio en https://www.phind.com/, la máquina me dio exactamente lo que necesitaba hacer después de 1 intento. (Advertencia: acabo de empezar a probar Phind, así que aún no sé cómo se desempeñará frente a chatGPT para programación en general, pero la primera impresión es buena para Phind.)
- Para quienes les gustan los detalles específicos, el ejemplo que le di a chatGPT es este. Le dije que me gustaba el paso 6 en el ejemplo donde se le pedía al modelo que evaluara su respuesta para ver si respondía suficientemente la consulta del usuario. chatGPT no logró usar este ejemplo y revisar el código de mi aplicación para incluir esta función.

# Step 6: Ask the model if the response answers the initial user query well
    user_message = f"""
    Customer message: \{delimiter\}\{user_input\}\{delimiter\}
    Agent response: \{delimiter\}\{final_response\}\{delimiter\}

    Does the response sufficiently answer the question?
    """
    messages = [
        \{'role': 'system', 'content': system_message\},
        \{'role': 'user', 'content': user_message\}
    ]
    evaluation_response = get_completion_from_messages(messages)
    if debug: print("Step 6: Model evaluated the response.")

Su capacidad para depurar es notablemente peor. :(

La capacidad de razonamiento de GPT-4 Turbo parece ser peor que la de Gpt-3.5 o GPT-4

¿A qué me refiero con esto?

Bueno, al igual que muchas personas, estaba ansioso por probar GPT-4 Turbo porque es mucho más barato que GPT-4 y tiene una ventana de contexto mucho más larga. Como mencioné anteriormente, no podía usar la API de GPT-4 para mi chatbot porque es demasiado cara. Recientemente implementé un paso de auto-evaluación para el chatbot antes de que su respuesta pueda mostrarse a los usuarios. La pregunta es "¿La respuesta responde suficientemente la pregunta del usuario?"

GPT-4 Turbo falla repetidamente en este paso mientras que GPT-3.5 y GPT-4 están bien. Estoy usando exactamente el mismo código y los mismos prompts. El único cambio es el modelo de la API. Probé esto con múltiples preguntas/prompts.

Entonces, ¿qué terminé usando? Bueno, continuar con GPT-3.5 por ahora hasta que la capacidad de "razonamiento" de GPT-4 Turbo mejore o sea más confiable.

Entonces, ¿por qué comparto todo esto?

Basándome en mis limitadas experiencias reales trabajando con chatGPT y la API de OpenAI, creo que todavía hay tantas oportunidades para mejorar estos modelos y funciones. Si solo ves la conferencia para desarrolladores, puede que sientas que OpenAI está tan por delante de todos los demás que no hay posibilidad de alcanzarlos. Pero creo que la carrera sigue muy viva. Sí, OpenAI tiene una ventaja enorme porque "resolvió" el problema de distribución dado el crecimiento de boca en boca y su escala actual (100M de usuarios activos semanales). Pero si tienes un producto verdaderamente mejor, todavía tienes muy buenas posibilidades de alcanzar una escala masiva. Estas son las áreas de mejora ahora mismo para multiplicar por 10X o 100X el rendimiento del modelo según los presentadores de No priors:

1. Multimodalidad

2. Ventana de contexto larga

3. Personalización del modelo

4. Memoria: la IA recuerda lo que estaba haciendo

5. Recursión

6. AI router: modelos más pequeños/especializados siendo controlados/orquestados por el modelo principal/más grande.

Por último, aunque el tono de esta publicación puede verse como bastante negativo, sigo siendo suscriptor de chatGPT plus y sigo usando la API de OpenAI para este chatbot del blog. :)

Espero que durante las próximas semanas, cuando GPT-4 Turbo salga oficialmente y todos los problemas estén siendo resueltos por OpenAI, podamos recuperar la misma calidad de antes. También sospecho que están experimentando este bache negativo en el rendimiento porque demasiadas personas están usando o intentando usar la API/versión web.

Eso es todo de mi parte.

¿Has notado problemas de rendimiento similares con chatGPT Plus recientemente? Y si es así, ¿has encontrado una buena alternativa para tareas de programación? A mí me está gustando Phind hasta ahora, pero todavía es pronto :D

Un abrazo, Chandler

¿El declive del rendimiento de chatGPT Plus/GPT-4 durante las últimas 4-6 semanas?

El rendimiento de chatGPT 4.0 es notablemente peor tanto para tareas de escritura como de programación durante las últimas 4-6 semanas

Para escritura

Para programación

La capacidad de razonamiento de GPT-4 Turbo parece ser peor que la de Gpt-3.5 o GPT-4

Entonces, ¿por qué comparto todo esto?

Seguir leyendo

Hice trampa: Sydney ahora puede leer la narrativa en los informes 10-K

MVP del Agente S&P500 lanzado: Respondiendo preguntas financieras fundamentadas con datos de la SEC

Una mejora para mi chatbot actual

Chatbot v2.10 presentado: Elevando la experiencia del usuario con velocidad, escalabilidad y simplicidad mejoradas

Cómo salí de las arenas movedizas del código con un agente de IA

Un año después: Mis hábitos de búsqueda confirman el auge de los asistentes de IA y el futuro transformador del SEO

El rendimiento de chatGPT 4.0 es notablemente peor tanto para tareas de escritura como de programación durante las últimas 4-6 semanas

Para escritura

Para programación

La capacidad de razonamiento de GPT-4 Turbo parece ser peor que la de Gpt-3.5 o GPT-4

Entonces, ¿por qué comparto todo esto?

Seguir leyendo

Hice trampa: Sydney ahora puede leer la narrativa en los informes 10-K

MVP del Agente S&amp;P500 lanzado: Respondiendo preguntas financieras fundamentadas con datos de la SEC

Una mejora para mi chatbot actual

Chatbot v2.10 presentado: Elevando la experiencia del usuario con velocidad, escalabilidad y simplicidad mejoradas

Cómo salí de las arenas movedizas del código con un agente de IA

Un año después: Mis hábitos de búsqueda confirman el auge de los asistentes de IA y el futuro transformador del SEO

MVP del Agente S&P500 lanzado: Respondiendo preguntas financieras fundamentadas con datos de la SEC