Skip to content
··7 min de lectura

DIALØGUE: Construyendo un generador de podcasts con IA desde cero (y aprendiendo muchísimo en el camino)

Construí un generador de podcasts con IA que te permite dar forma al contenido antes de que se cree — porque estaba harto de que la IA me leyera Wikipedia durante mi trayecto al trabajo.

La chispa: ¿por qué construir un generador de podcasts?

Bueno, aquí está la cosa — me encantan los podcasts. Como alguien que pasa demasiado tiempo atrapado en el tráfico (¡hola, compañeros conductores!), siempre me pregunté: ¿y si pudiera generar un podcast sobre cualquier tema que me interese? No solo una voz de IA aburrida leyendo Wikipedia, sino una conversación realmente atractiva entre presentadores de IA.

Además, seamos honestos, después de construir varios proyectos más pequeños y escribir sobre mi trayectoria como programador, quería abordar algo más grande. Algo que me empujara a aprender nuevas tecnologías y, quizás, solo quizás, crear algo útil para los demás. :P

¿Qué es DIALØGUE?

DIALØGUE es una aplicación en etapa temprana (fase alfa) que genera podcasts profesionales usando IA. Le das un tema — cualquier cosa desde "las decisiones de la Fed y el impacto en el mercado en 2025" hasta "entendiendo la computación cuántica para principiantes" — y crea un podcast completo de 20+ minutos con múltiples voces de IA manteniendo una conversación real.

Esto es lo que lo diferencia de simplemente pedirle a ChatGPT que te lea un artículo:

  • Revisión interactiva del esquema: Este es el elemento clave — antes de que comience cualquier investigación o escritura, puedes revisar el esquema propuesto y darle la forma exacta que quieres
  • Contenido basado en investigación: Usa motores de búsqueda para investigar hechos e información actual
  • Diálogo natural: Claude Sonnet 4 escribe guiones conversacionales
  • Múltiples voces: Voces neurales de alta calidad con diferentes personalidades de presentador

Todo el proceso tarda unos 10 minutos desde el tema hasta el archivo de audio terminado. ¡Nada mal para algo que a los humanos les llevaría horas o días producir!

El stack tecnológico: una aventura serverless (que evolucionó)

Bien, entremos en los detalles técnicos (¡mi parte favorita!). Esto es lo que impulsa DIALØGUE:

Frontend

- Next.js 15 + React 19: Porque quería usar lo último y lo mejor

- TypeScript: Después de quemarme con errores en tiempo de ejecución demasiadas veces

- Tailwind CSS: Hace que el estilado sea mucho más fácil para alguien que no es un mago del diseño

- Supabase JS Client: Para autenticación y actualizaciones en tiempo real (esto fue un punto de inflexión)

Backend (actual — GCP)

- Cloud Run: 10+ microservicios Python en contenedores con escalado automático

- Cloud Workflows: Orquesta los flujos de trabajo pre-feedback (esquema) y post-feedback (generación)

- Cloud Storage: Almacenamiento de archivos de audio con entrega CDN

- API Gateway: Punto de entrada único con CORS y autenticación

- Supabase: Base de datos PostgreSQL con Row Level Security y Edge Functions

*Nota: Originalmente construido en AWS Lambda/Step Functions, pero migrado a GCP en julio de 2025 para mejor rendimiento y una reducción del 92% en el coste de generación de audio.*

Servicios de IA

- Claude 4.0 Sonnet: Generación de guiones con temperatura 0 para fiabilidad JSON (API directa de Anthropic)

- Perplexity AI: Investigación y verificación de datos para cada segmento

- OpenAI TTS: Voces neurales de alta calidad para conversación natural

- Moderación de contenido: Controles de seguridad integrados de Anthropic

Características principales y el recorrido del usuario

Así es como funciona desde la perspectiva del usuario:

1. Introduce un tema: Entrada de texto simple, sin complicaciones

2. La IA genera un esquema: Tarda aproximadamente 1 minuto — verás la estructura propuesta y los segmentos

3. Revisa y da forma a tu podcast: ¡Aquí es donde DIALØGUE realmente brilla! Puedes:

- Redirigir el enfoque ("Hazlo más accesible para principiantes")

- Añadir contexto que falta ("Incluye los desarrollos recientes de 2025")

- Eliminar o modificar segmentos ("Omite la jerga técnica en el segmento 3")

- Cambiar de dirección completamente si la IA malinterpretó tu intención

4. Genera el podcast completo: Una vez que apruebas el esquema, la generación tarda entre 6 y 10 minutos

5. Descarga y disfruta: Archivo MP3 listo para tu trayecto

Entre bastidores, está haciendo mucho más:

- Dividiendo el tema en segmentos

- Esperando tu aprobación antes de operaciones que consumen muchos recursos (¡sin créditos desperdiciados en contenido no deseado!)

- Investigando cada segmento con consultas específicas

- Escribiendo diálogo natural entre dos presentadores de IA

- Gestionando los errores con elegancia (y reembolsando créditos si algo va mal)

- Actualizaciones de progreso en tiempo real para que sepas qué está pasando

Lo bueno, lo desafiante y los momentos "¡ay, no!"

Lo bueno

- La función de revisión del esquema: A los usuarios les encanta poder dar forma a su podcast antes de que comience la generación. ¡Es como tener una conversación con tu productor de IA!

- Mejora del rendimiento 10x al cambiar a consultas directas de Supabase (450ms → 45ms)

- Registro de usuarios instantáneo: Se corrigió el error de demora de 3 minutos con Edge Functions atómicas (ahora < 500ms)

- Reembolsos automáticos de créditos cuando la generación falla mediante triggers de base de datos

- Actualizaciones en tiempo real que realmente funcionan (¡gracias, Supabase!)

- Reducción de costes del 92% en generación de audio tras la migración a GCP

- Arquitectura database-first limpia tras eliminar el código legacy de Lambda

Lo desafiante (¡ya resuelto!)

- El infierno de las capas de AWS Lambda: Errores de importación, límites de tamaño de 250MB (resuelto con la migración a GCP)

- Migración de seguridad JWT: Actualizado de HS256 a P-256 manteniendo compatibilidad hacia atrás

- Configuración de temperatura de la IA: Claude a 0.7 generaba JSON inválido el 30% de las veces (solucionado con temperatura 0)

- Fugas de memoria en WebSocket: Los componentes de React perdían 50MB/hora (solucionado con RealtimeManager)

- Condiciones de carrera en la base de datos: Los nuevos usuarios esperaban 3 minutos por retraso de replicación (solucionado con operaciones atómicas)

- Complejidad del sistema de créditos: Simplificado de créditos duales a un solo tipo

Los momentos "¡ay, no!"

- Esa vez que accidentalmente guardé datos críticos del flujo de trabajo en el lugar equivocado

- Cuando me di cuenta de que los misteriosos errores del navegador venían de mi propio código agotando recursos

- Descubrir vulnerabilidades de seguridad durante una auditoría de rutina (¡todas corregidas ya!)

Lo que aprendí (spoiler: muchísimo)

Este proyecto me sacó completamente de mi zona de confort, y aprendí un montón:

1. El control del usuario es crucial: La función de revisión del esquema no estaba en mi diseño original, pero se convirtió en la característica más importante. Dejar que los usuarios den forma al contenido antes de que comience la generación ahorra tiempo, créditos y frustración

2. Empieza simple, migra cuando sea necesario: Comenzamos con AWS Lambda pero llegamos a muros de complejidad — la migración a Cloud Run lo resolvió todo

3. Las consultas directas a la base de datos pueden ser más rápidas: Mi mejora de rendimiento 10x vino de eliminar capas de API innecesarias

4. Los costes de IA se acumulan: Ejecutar múltiples servicios de IA para un solo podcast requiere una gestión cuidadosa de los costes

5. La experiencia de usuario importa: Añadir indicadores de progreso y estimaciones de tiempo marcó una gran diferencia

6. La seguridad nunca está "terminada": Las auditorías regulares revelaron problemas que nunca habría imaginado

7. Infrastructure as Code tiene sus peculiaridades: Las rarezas de SAM me enseñaron mucho (¡como SSMParameterReadPolicy que añade barras adicionales!)

8. Las migraciones en la nube pueden ser sorprendentemente rápidas: Con programación en pareja con IA, migramos de AWS a GCP ¡en solo un día!

Estado actual y qué sigue

¡DIALØGUE ya está en vivo! Está en fase alfa con 2 créditos gratuitos para nuevos usuarios.

En cuanto a los precios — tengo que admitir que pasé demasiado tiempo angustiado por esto. Cada podcast me cuesta dinero real generarlo (llamadas a la API de Claude para el guion, Perplexity para la investigación, OpenAI para la síntesis de voz — se acumula rápido). Llegué a paquetes de créditos que cubren aproximadamente mis costes con un pequeño margen: Starter a $4.99 por 4 podcasts, Pro a $9.99 por 9, y Bulk a $19.99 por 18. Puede que los ajuste a medida que aprenda más sobre los patrones de uso reales, pero por ahora me parecen justos. Y si una generación falla por razones técnicas, los créditos se reembolsan automáticamente — no voy a cobrarte por mis errores :P

¿Quieres probarlo?

¡Me encantaría que lo probaras! Ve a podcast.chandlernguyen.com y crea tu primer podcast con IA. Los primeros 2 son gratis, así que no tienes nada que perder.

Aviso justo: todavía está en alfa, así que puede que las cosas fallen. Pero bueno, eso es parte de la diversión, ¿no? Si encuentras algún problema, hay una función de feedback integrada en la app (solo para usuarios registrados — tuve que añadirla después de algunos problemas de spam).

Reflexiones finales

Construir DIALØGUE ha sido uno de los proyectos más desafiantes y gratificantes que he abordado. Combinó todo lo que he estado aprendiendo — desde funciones AWS Lambda hasta componentes React y prompt engineering con IA — e incluso llevó a un inesperado viaje de migración en la nube.

¿El descubrimiento más sorprendente? Ese paso de revisión del esquema que mencioné antes. Al principio, pensé que los usuarios solo querrían introducir un tema y obtener un podcast. Pero durante las pruebas, me di cuenta de que darles control sobre la dirección antes de que comience el proceso de generación principal marca toda la diferencia. Transforma la herramienta de una caja negra en un asistente de IA colaborativo. Esa misma revelación — dirección creativa humana sobre ejecución de IA — se convirtió en la lección central cuando después construí la app nativa iOS de DIALØGUE sin saber Swift.

¿Es perfecto? Para nada. ¿Es útil? ¡Creo que sí! Al menos ha sido un increíble viaje de aprendizaje, y estoy emocionado de ver a dónde lleva desde aquí.

¿Sobre qué crearías un podcast? Tengo genuina curiosidad — mándame un mensaje o pruébalo tú mismo. Quién sabe, con la capacidad de dar forma y guiar el contenido, tu podcast generado por IA puede ser exactamente lo que estabas buscando. :P

Un abrazo,

Chandler

¿Quieres la inmersión técnica completa? Sigue el viaje completo:

Seguir leyendo

Mi Trayectoria
Conectar
Idioma
Preferencias