¡CrewAI es bueno! - Mis primeras impresiones

Me topé con CrewAI hace unas semanas a través del curso "Practical Multi AI Agents and Advanced Use Cases with crewAI". Si bien inicialmente dudé en probarlo ya que ya estoy usando LangGraph para mi agente Sydney, dos cosas despertaron mi interés:

Llevo tiempo explorando formas de crear podcasts desde cero, centrándome especialmente en cómo usar la IA generativa para "razonar" sobre mis 15 años de contenido del blog en lugar de simplemente copiar y pegar publicaciones. Había probado NotebookLLM para esto (que funcionó bien, puedes ver el episodio del podcast aquí), pero quería más control sobre el flujo de la conversación y los ganchos de apertura.
Quería aprender algo nuevo y experimentar con los modelos de text-to-speech de OpenAI.

Actualización noviembre 2025: Me gradué del uso del framework de agentes y empecé a programar desde cero con Claude Code y Google Gemini CLI. Esto me dio mucho más control. Mis últimos lanzamientos son STRAŦUM (inteligencia de mercado) y DIALØGUE (generador de podcasts con IA) — que evolucionaron directamente de este experimento con CrewAI que se describe a continuación.

Después de unos 10 días jugando con CrewAI, aquí están mis observaciones clave:

1. Lo bueno

1.1 Sorprendentemente fácil de empezar

La curva de aprendizaje inicial es notablemente corta — estaba en marcha en solo unas pocas horas
Configurar herramientas personalizadas (como recuperar contenido de mi blog usando Weaviate como el vector store) fue sencillo. Convertir tu guion de podcast en salida de audio también es bastante fácil de configurar.
La capacidad de describir agentes y sus tareas en inglés simple usando archivos YAML es poderosa (¡Consejo: el autocompletado de Visual Studio Code es muy útil aquí!)

1.2 Selección de modelos flexible

Cambiar entre diferentes LLMs es tan simple como actualizar tu crew.py:

llm_openai_4o_mini = LLM(model="gpt-4o-mini", temperature=0)
llm_anthropic_35 = LLM(model="claude-3-5-sonnet-20240620", temperature=0)
llm_openai_4o = LLM(model="gpt-4o", temperature=0)
llm_gemini_15_pro = LLM(model="gemini/gemini-1.5-pro-002", temperature=0)

Luego puedes asignar modelos específicos a diferentes agentes según sus fortalezas. Por ejemplo,

@agent
	def content_researcher(self) -> Agent:
		return Agent(
			config=self.agents_config['content_researcher'],
			llm=llm_anthropic_35,
			tools=[BlogContentRetrievalTool()],
			verbose=True
		)

Todo esto significa un gran control sobre cómo quiero que se estructure y guionice mi podcast.

1.3 Text-to-Speech: Promesas y Limitaciones

Si bien la API de text-to-speech de OpenAI es impresionante en calidad, actualmente solo ofrece seis modelos de voz. Para la creación de podcasts, esto es bastante limitante — especialmente cuando intentas crear conversaciones atractivas entre múltiples presentadores. La falta de variedad de voces significa que podrías terminar con podcasts que suenan similares a otros que usan la misma tecnología. Esta es definitivamente un área donde espero ver mejoras en el futuro, ya sea a través de que OpenAI amplíe sus opciones de voz o mediante la integración con otros proveedores de text-to-speech.

También entiendo las preocupaciones de seguridad en IA, por lo que los diferentes laboratorios de IA pueden no tener prisa en proporcionar demasiados modelos de voz.

2. La Verificación de la Realidad: No es solo "Clic y Crear"

Inicialmente, me preocupaba que esto pudiera contribuir al aluvión de contenido generado por IA (o "AI Slop") que estamos viendo en línea. Después de todo, podía generar un guion de podcast de 15 minutos en unos 5 minutos. (En el curso de formación de DeepLearning.AI mencionado arriba, João en realidad pasó por un ejemplo de código de "Creación de contenido a escala".)

Sin embargo, mi perspectiva cambió después de leer/revisar realmente los primeros guiones iniciales generados.

¡Crear contenido de alta calidad todavía requiere un trabajo significativo!

2.1 Estructura de Agentes Reflexiva

Tuve que revisar la estructura del equipo de IA varias veces, añadiendo roles adicionales, especialmente el rol de un "fact_checker". Mi equipo de podcast actual incluye:

Investigador de contenido
Guionista
Verificador de hechos
Editor de guion
Productor de audio

2.2 Refinamiento Continuo

El éxito requiere:

Definir cuidadosamente los objetivos y las tareas de cada agente usando lenguaje específico de la industria. Alguien con experiencia real en la industria del podcast puede usar lenguaje específico de la industria y puede pedirle a cada agente que realice tareas muy específicas. El resultado será mucho mejor de esa manera.
Ser selectivo con el acceso a herramientas (más no siempre es mejor). Es fácil que los agentes queden atrapados en bucles continuos.
Reglas claras de delegación entre agentes
Requisitos específicos de estructura de salida
Criterios de calidad bien definidos de "Cómo se ve el buen trabajo" (¡Incluso involucré a mi hija aquí — ¡ella es la creativa! :D).

Así que de nuevo, como puedes ver, si bien usar un equipo de agentes de IA ayuda a acelerar mi trabajo significativamente (al menos 5X desde la investigación hasta el guion, la verificación de hechos, la revisión y la creación de audio), sigue dependiendo de mí crear contenido de alta calidad.

2.3 La selección de modelos importa

Los diferentes modelos de LLM tienen "personalidades" distintas y niveles variables de seguimiento de instrucciones. Así que tienes que experimentar para entender las fortalezas y debilidades de los diferentes modelos y cómo se adaptan a tus necesidades en cada paso del proceso.

Algunas observaciones:

Las respuestas de la API pueden diferir de las respuestas de la interfaz web de chat para el mismo modelo
Actualmente, prefiero los modelos de Anthropic para contenido de formato largo usando la API. Sin embargo, cuando se trata de la versión web, en realidad creo que claude-3-5-sonnet-20241022 y GPT-4o están a la par.
El o1-preview de OpenAI es mi favorito para tareas de programación

2.4 Los Comentarios y la Memoria son Decisivos

Tienes que proporcionar feedback a tu equipo de IA. Son buenos siguiendo instrucciones, pero no saben lo que quieres y no pueden leer tu mente (al menos aún no, jaja). La capacidad de entrenar a tu equipo a través del feedback es crucial.

Con CrewAI, es bastante simple entrenar a tu equipo y dar feedback, simplemente ejecutando

crewai train -n <n_iterations> <filename> (optional)

Si bien aún no he explorado completamente las funciones de memoria de CrewAI, la combinación de feedback y memoria parece increíblemente poderosa para crear una salida consistente y de alta calidad.

3. ¡Muéstrame los resultados!

Ok, ok — te escucho decir "Chandler, ya has hablado suficiente. ¡Muéstrame una muestra del guion del podcast generado por tu equipo de IA!"

Aquí hay un ejemplo completo de flujo de trabajo:

Fase de Investigación: Ve cómo el agente Investigador de Contenido analizó y extrajo información clave de mis publicaciones del blog
Resumen de Verificación de Hechos: El informe detallado de verificación del Verificador de Hechos
Borrador Inicial del Guion: La primera versión del Guionista sobre la conversación del podcast
Guion Final Pulido: La versión refinada del Editor de Guion con flujo y participación mejorados
Escucha el Resultado: La versión de audio final producida por el agente Productor de Audio

Cada enlace anterior muestra la progresión desde el contenido crudo hasta el podcast pulido, demostrando cómo los diferentes agentes contribuyen al producto final.

Si bien todavía tengo ideas sobre cómo puedo mejorar más todo el pipeline, espero que lo anterior te dé una buena idea de lo que es posible.

Reflexiones finales

CrewAI me ha impresionado con su equilibrio entre simplicidad y potencia. Si bien hace que la creación de contenido sea más accesible, no es un botón mágico — la calidad todavía requiere experiencia, planificación cuidadosa y refinamiento continuo.

¿Has experimentado con frameworks multi-agente como CrewAI o LangGraph? Me encantaría saber qué estás construyendo con ellos — no dudes en dejar un comentario o ponerte en contacto.

Un abrazo,

Chandler

Actualización enero 2026: Este experimento con CrewAI eventualmente se convirtió en DIALØGUE — una aplicación de producción completa. ¿La limitación de voces que mencioné antes? Al final cambié a Gemini TTS, que me dio 30 voces en 7 idiomas. ¡Toda una mejora respecto a las 6 voces de OpenAI! Si tienes curiosidad, échale un vistazo.

¡CrewAI es bueno! - Mis primeras impresiones

1. Lo bueno

1.1 Sorprendentemente fácil de empezar

1.2 Selección de modelos flexible

1.3 Text-to-Speech: Promesas y Limitaciones

2. La Verificación de la Realidad: No es solo "Clic y Crear"

2.1 Estructura de Agentes Reflexiva

2.2 Refinamiento Continuo

2.3 La selección de modelos importa

2.4 Los Comentarios y la Memoria son Decisivos

3. ¡Muéstrame los resultados!

Reflexiones finales

Seguir leyendo

Completé el Rediseño Más Grande de Mi Sitio en Años. Durante el Desayuno.

4 Semanas: Construyendo una Plataforma de Marketing con 10 Agentes Mientras Echaba Siestas

Hice trampa: Sydney ahora puede leer la narrativa en los informes 10-K

Menos es más

Intenté recortar mi curso para hacer un video de YouTube. Por eso lo reconstruí desde cero.

Por qué cancelé Claude Max después de 13 meses y qué voy a probar con Codex durante los próximos 30 días