DIALØGUE: Construindo um Gerador de Podcast com IA do Zero (E Aprendendo Muito no Caminho)

Q: Quer Experimentar?

Adoraria que você experimentasse! Acesse podcast.chandlernguyen.com e crie seu primeiro podcast de IA. Os primeiros 2 são gratuitos, então não tem nada a perder. Aviso justo: ainda está em alpha, então as coisas podem quebrar. Mas hey, faz parte da diversão, né? Se você encontrar problemas, tem uma funcionalidade de feedback embutida no app (apenas para usuários logados — tive que adicionar isso depois de alguns problemas com spam).

A Faísca: Por Que Construir um Gerador de Podcast?

Bom, a questão é a seguinte — adoro podcasts. Como alguém que passa tempo demais no trânsito (salve, colegas de engarrafamento!), sempre me perguntei: e se eu pudesse gerar um podcast sobre qualquer assunto que me interessa? Não apenas uma voz de IA entediante lendo a Wikipedia, mas uma conversa realmente envolvente entre apresentadores de IA.

Além disso, vamos ser honestos: depois de construir vários projetos menores e escrever sobre minha jornada de programação, queria atacar algo maior. Algo que me forçasse a aprender novas tecnologias e talvez, só talvez, criar algo útil para outros. :P

O que é o DIALØGUE?

DIALØGUE é uma aplicação em estágio inicial (fase alpha) que gera podcasts profissionais usando IA. Você dá um tema — qualquer coisa, de "decisões do Fed e impacto no mercado em 2025" a "entendendo computação quântica para iniciantes" — e ela cria um podcast completo de 20+ minutos com múltiplas vozes de IA tendo uma conversa de verdade.

Veja o que o diferencia de simplesmente pedir ao ChatGPT para ler um artigo:

Revisão interativa do roteiro: Essa é a virada de jogo — antes de qualquer pesquisa ou escrita acontecer, você pode revisar a estrutura proposta e moldá-la exatamente como quiser
Conteúdo baseado em pesquisa: Usa motor de busca para pesquisar fatos e informações atuais
Diálogo natural: Claude Sonnet 4 escreve scripts conversacionais
Múltiplas vozes: Vozes neurais de alta qualidade com diferentes personalidades de apresentadores

Todo o processo leva cerca de 10 minutos do tema até o arquivo de áudio finalizado. Nada mau para algo que levaria horas ou dias para humanos produzirem!

A Stack Técnica: Uma Aventura Serverless (Que Evoluiu)

Vamos entrar nos detalhes técnicos (minha parte favorita!). Aqui está o que alimenta o DIALØGUE:

Frontend

- Next.js 15 + React 19: Porque queria usar o melhor do melhor

- TypeScript: Depois de me queimar com erros de runtime mais vezes do que gostaria de admitir

- Tailwind CSS: Deixa o estilo muito mais fácil para alguém que não é um mago de design

- Supabase JS Client: Para auth e atualizações em tempo real (isso foi um divisor de águas)

Backend (Atual - GCP)

- Cloud Run: 10+ microsserviços Python containerizados com escalabilidade automática

- Cloud Workflows: Orquestra os workflows pré-feedback (roteiro) e pós-feedback (geração)

- Cloud Storage: Armazenamento de arquivos de áudio com entrega CDN

- API Gateway: Ponto de entrada único com CORS e autenticação

- Supabase: Banco de dados PostgreSQL com Row Level Security e Edge Functions

*Nota: Originalmente construído em AWS Lambda/Step Functions, mas migrado para GCP em julho de 2025 por melhor performance e redução de 92% no custo de geração de áudio.*

Serviços de IA

- Claude 4.0 Sonnet: Geração de scripts com temperatura 0 para confiabilidade JSON (API Anthropic direta)

- Perplexity AI: Pesquisa e verificação de fatos para cada segmento

- OpenAI TTS: Vozes neurais de alta qualidade para conversa natural

- Moderação de Conteúdo: Verificações de segurança integradas da Anthropic

Funcionalidades Principais e a Jornada do Usuário

Veja como funciona da perspectiva do usuário:

1. Insira um tema: Input de texto simples, sem complicações

2. IA gera um roteiro: Leva cerca de 1 minuto — você verá a estrutura proposta e os segmentos

3. Revise e molde seu podcast: É aqui que o DIALØGUE realmente brilha! Você pode:

- Redirecionar o foco ("Torne mais amigável para iniciantes")

- Adicionar contexto ausente ("Inclua os desenvolvimentos recentes de 2025")

- Remover ou modificar segmentos ("Pule o jargão técnico no segmento 3")

- Mudar completamente a direção se a IA não entendeu sua intenção

4. Gere o podcast completo: Uma vez que você aprova o roteiro, a geração leva ~6-10 minutos

5. Baixe e aproveite: Arquivo MP3 pronto para seu trajeto

Nos bastidores, está fazendo muito mais:

- Dividindo o tema em segmentos

- Aguardando sua aprovação antes de operações que consomem recursos (sem créditos desperdiçados em conteúdo indesejado!)

- Pesquisando cada segmento com queries específicas

- Escrevendo diálogo natural entre dois apresentadores de IA

- Tratando erros de forma elegante (e reembolsando créditos quando algo dá errado)

- Atualizações de progresso em tempo real para que você saiba o que está acontecendo

O Bom, o Desafiador e os Momentos "Ai Não"

O Bom

- A funcionalidade de revisão de roteiro: Os usuários adoram poder moldar seu podcast antes do início da geração. É como ter uma conversa com seu produtor de IA!

- Melhoria de performance 10x ao mudar para queries Supabase diretas (450ms → 45ms)

- Cadastro de usuário instantâneo: Corrigido o bug de atraso de 3 minutos com Edge Functions atômicas (agora < 500ms)

- Reembolso automático de créditos quando a geração falha via triggers de banco de dados

- Atualizações em tempo real que realmente funcionam (obrigado, Supabase!)

- Redução de 92% no custo de geração de áudio após migração para GCP

- Arquitetura limpa database-first após remoção do código legado Lambda

O Desafiador (Já Resolvido!)

- Inferno das layers AWS Lambda: Erros de import, limites de tamanho de 250MB (resolvido pela migração para GCP)

- Migração de segurança JWT: Atualizado de HS256 para P-256 mantendo compatibilidade retroativa

- Configurações de temperatura da IA: Claude a 0.7 estava gerando JSON inválido 30% das vezes (corrigido com temperatura 0)

- Vazamentos de memória em WebSocket: Componentes React estavam vazando 50MB/hora (corrigido com RealtimeManager)

- Race conditions no banco de dados: Novos usuários esperavam 3 minutos por lag de replicação (corrigido com operações atômicas)

- Complexidade do sistema de créditos: Simplificado de créditos duplos para tipo único

Os Momentos "Ai Não"

- Aquela vez em que acidentalmente armazenei dados críticos de workflow no lugar errado

- Quando percebi que erros misteriosos no browser eram do meu próprio código esgotando recursos

- Descobrir vulnerabilidades de segurança durante uma auditoria de rotina (todas corrigidas agora!)

O Que Aprendi (Spoiler: Muita Coisa)

Este projeto me empurrou muito para fora da minha zona de conforto, e aprendi muito:

1. Controle do usuário é crucial: A funcionalidade de revisão de roteiro não estava no meu design original, mas se tornou a funcionalidade mais importante. Deixar os usuários moldarem o conteúdo antes do início da geração economiza tempo, créditos e frustração

2. Comece simples, migre quando necessário: Começamos com AWS Lambda mas batemos em paredes de complexidade — a migração para Cloud Run resolveu tudo

3. Queries de banco de dados diretas podem ser mais rápidas: Minha melhoria de performance 10x veio de abandonar camadas desnecessárias de API

4. Os custos de IA se acumulam: Rodar múltiplos serviços de IA para um único podcast requer gerenciamento cuidadoso de custos

5. A experiência do usuário importa: Adicionar indicadores de progresso e estimativas de tempo fez uma enorme diferença

6. Segurança nunca está "pronta": Auditorias regulares revelaram problemas que eu nunca teria pensado

7. Infrastructure as Code tem pegadinhas: As peculiaridades do SAM me ensinaram muito (como o SSMParameterReadPolicy adicionando barras extras!)

8. Migrações de cloud podem ser surpreendentemente rápidas: Com pair programming de IA, migramos de AWS para GCP em apenas um dia!

Status Atual e O Que Vem a Seguir

O DIALØGUE está agora no ar! Está na fase alpha com 2 créditos gratuitos para novos usuários.

No lado de preços — preciso admitir que passei tempo demais angustiando com isso. Cada podcast me custa dinheiro real para gerar (chamadas de API Claude para o script, Perplexity para pesquisa, OpenAI para a síntese de voz — vai somando rápido). Cheguei em pacotes de créditos que cobrem aproximadamente meus custos com uma pequena margem: Starter a US$ 4,99 por 4 podcasts, Pro a US$ 9,99 por 9, e Bulk a US$ 19,99 por 18. Posso ajustar esses valores à medida que aprendo mais sobre os padrões reais de uso, mas por agora parecem justos para mim. E se uma geração falhar por razões técnicas, os créditos são reembolsados automaticamente — não vou te cobrar pelos meus bugs :P

Quer Experimentar?

Adoraria que você experimentasse! Acesse podcast.chandlernguyen.com e crie seu primeiro podcast de IA. Os primeiros 2 são gratuitos, então não tem nada a perder.

Aviso justo: ainda está em alpha, então as coisas podem quebrar. Mas hey, faz parte da diversão, né? Se você encontrar problemas, tem uma funcionalidade de feedback embutida no app (apenas para usuários logados — tive que adicionar isso depois de alguns problemas com spam).

Considerações Finais

Construir o DIALØGUE foi um dos projetos mais desafiadores e gratificantes que já enfrentei. Combinou tudo que venho aprendendo — desde funções AWS Lambda até componentes React até engenharia de prompts de IA — e até levou a uma jornada inesperada de migração de cloud.

A descoberta mais surpreendente? Aquela etapa de revisão de roteiro que mencionei antes. Inicialmente, pensei que os usuários só queriam inserir um tema e receber um podcast. Mas nos testes, percebi que dar controle aos usuários sobre a direção antes do início do processo de geração principal faz toda a diferença. Isso transforma a ferramenta de uma caixa preta em um assistente de IA colaborativo. Essa mesma percepção — direção criativa humana sobre a execução da IA — se tornou a lição central quando depois construí o app nativo para iOS do DIALØGUE sem saber Swift.

É perfeito? Não. É útil? Acho que sim! No mínimo, foi uma jornada de aprendizado incrível, e estou animado para ver aonde isso vai.

Sobre o que você criaria um podcast? Estou genuinamente curioso — me manda uma mensagem ou experimenta você mesmo. Quem sabe, com a capacidade de moldar e guiar o conteúdo, seu podcast gerado por IA pode ser exatamente o que você estava procurando. :P

Abraços,

Chandler

Quer o mergulho técnico profundo? Acompanhe a jornada completa:

Lições de engenharia aprendidas construindo o DIALØGUE: Minha jornada da publicidade para a engenharia, e por que complexidade é o inimigo
Uma Mudança de Parâmetro de IA Me Custou $54/mês: Como uma única configuração de temperatura durante a migração AWS → GCP causou grandes ineficiências