DIALØGUE: Einen KI-gestützten Podcast-Generator von Grund auf bauen (und dabei jede Menge lernen)
Ich habe einen KI-Podcast-Generator gebaut, mit dem du die Inhalte gestalten kannst, bevor sie erstellt werden – weil ich es leid war, dass mir KI während meines Pendlerwegs Wikipedia vorliest.
Der Funke: Warum einen Podcast-Generator bauen?
Also, hier ist die Sache – ich liebe Podcasts. Als jemand, der zu viel Zeit im Verkehr verbringt (hallo, liebe Mitpendler!), habe ich mich schon immer gefragt: Was wäre, wenn ich einen Podcast zu jedem Thema generieren könnte, das mich interessiert? Nicht nur eine langweilige KI-Stimme, die Wikipedia vorliest, sondern ein echtes, ansprechendes Gespräch zwischen KI-Moderatoren.
Außerdem – mal ehrlich – nachdem ich mehrere kleinere Projekte gebaut und über meine Coding-Reise geschrieben habe, wollte ich etwas Größeres angehen. Etwas, das mich dazu bringt, neue Technologien zu lernen und vielleicht, nur vielleicht, etwas Nützliches für andere zu schaffen. :P
Was ist DIALØGUE?
DIALØGUE ist eine Frühphasen-Anwendung (Alpha-Phase), die professionelle Podcasts mit KI generiert. Du gibst ein Thema ein – von „Fed-Entscheidungen und Marktauswirkungen in 2025" bis zu „Quantencomputing für Anfänger verstehen" – und es erstellt einen vollständigen 20+-minütigen Podcast mit mehreren KI-Stimmen in einem echten Gespräch.
Hier ist, was es von ChatGPT unterscheidet, das dir einfach einen Artikel vorliest:
- Interaktive Gliederungsüberprüfung: Das ist der Game-Changer – bevor Recherche oder Schreiben beginnt, kannst du die vorgeschlagene Gliederung überprüfen und genau so gestalten, wie du es möchtest
- Recherche-basierte Inhalte: Nutzt eine Suchmaschine, um Fakten und aktuelle Informationen zu recherchieren
- Natürlicher Dialog: Claude Sonnet 4 schreibt gesprächige Skripte
- Mehrere Stimmen: Hochwertige neuronale Stimmen mit verschiedenen Moderator-Persönlichkeiten
Der gesamte Prozess dauert etwa 10 Minuten vom Thema bis zur fertigen Audiodatei. Nicht schlecht für etwas, das Menschen Stunden oder Tage kosten würde!
Der Tech Stack: Ein serverloses Abenteuer (das sich entwickelt hat)
Also, lass uns in die technischen Details eintauchen (mein Lieblingsteil!). Hier ist, was DIALØGUE antreibt:
Frontend
- Next.js 15 + React 19: Weil ich das Neueste und Beste nutzen wollte
- TypeScript: Nachdem ich einmal zu oft von Laufzeitfehlern gebissen wurde
- Tailwind CSS: Macht das Styling für jemanden, der kein Design-Wizard ist, so viel einfacher
- Supabase JS Client: Für Auth und Echtzeit-Updates (das war ein Game-Changer)
Backend (Aktuell - GCP)
- Cloud Run: 10+ containerisierte Python-Microservices mit automatischer Skalierung
- Cloud Workflows: Orchestriert Pre-Feedback- (Gliederung) und Post-Feedback- (Generierung) Workflows
- Cloud Storage: Audio-Dateispeicherung mit CDN-Lieferung
- API Gateway: Einzelner Eintrittspunkt mit CORS und Authentifizierung
- Supabase: PostgreSQL-Datenbank mit Row Level Security und Edge Functions
*Hinweis: Ursprünglich auf AWS Lambda/Step Functions gebaut, aber im Juli 2025 zu GCP migriert für bessere Leistung und 92% Kostenreduzierung bei der Audiogenerierung.*
KI-Dienste
- Claude 4.0 Sonnet: Skriptgenerierung mit Temperature 0 für JSON-Zuverlässigkeit (direkte Anthropic API)
- Perplexity AI: Recherche und Faktencheck für jedes Segment
- OpenAI TTS: Hochwertige neuronale Stimmen für natürliche Gespräche
- Content Moderation: Eingebaute Sicherheitsprüfungen von Anthropic
Hauptfunktionen und die Nutzerreise
So funktioniert es aus der Nutzerperspektive:
1. Thema eingeben: Einfache Texteingabe, nichts Ausgefallenes
2. KI generiert eine Gliederung: Dauert etwa 1 Minute – du siehst die vorgeschlagene Struktur und Segmente
3. Podcast überprüfen und gestalten: Hier glänzt DIALØGUE wirklich! Du kannst:
- Den Fokus umlenken („Mach es anfängerfreundlicher")
- Fehlenden Kontext hinzufügen („Füge die aktuellen Entwicklungen 2025 hinzu")
- Segmente entfernen oder ändern („Überspringe den technischen Jargon in Segment 3")
- Die Richtung komplett ändern, wenn die KI deine Absicht missverstanden hat
4. Den vollständigen Podcast generieren: Sobald du die Gliederung genehmigst, dauert die Generierung ca. 6-10 Minuten
5. Herunterladen und genießen: MP3-Datei bereit für deinen Pendlerweg
Hinter den Kulissen passiert noch viel mehr:
- Das Thema in Segmente aufteilen
- Warten auf deine Genehmigung vor ressourcenintensiven Operationen (keine verschwendeten Credits für unerwünschte Inhalte!)
- Jedes Segment mit spezifischen Anfragen recherchieren
- Natürlichen Dialog zwischen zwei KI-Moderatoren schreiben
- Fehler gnädig handhaben (und Credits erstatten, wenn etwas schiefläuft)
- Echtzeit-Fortschrittsupdates, damit du weißt, was passiert
Das Gute, das Herausfordernde und die „Oh Nein"-Momente
Das Gute
- Die Gliederungsüberprüfungs-Funktion: Nutzer lieben es, ihren Podcast vor Beginn der Generierung gestalten zu können. Es ist wie ein Gespräch mit deinem KI-Produzenten!
- 10x Leistungsverbesserung durch Wechsel zu direkten Supabase-Abfragen (450ms → 45ms)
- Sofortige Nutzerregistrierung: Den 3-Minuten-Verzögerungsbug mit atomaren Edge Functions behoben (jetzt < 500ms)
- Automatische Credit-Erstattungen, wenn die Generierung über Datenbank-Trigger fehlschlägt
- Echtzeit-Updates, die tatsächlich funktionieren (danke, Supabase!)
- 92% Kostenreduzierung bei der Audiogenerierung nach GCP-Migration
- Saubere datenbankzentrierte Architektur nach Entfernung von Lambda-Legacy-Code
Das Herausfordernde (Jetzt gelöst!)
- AWS Lambda Layer Hölle: Import-Fehler, 250MB Größenlimits (gelöst durch GCP-Migration)
- JWT-Sicherheitsmigration: Upgrade von HS256 zu P-256 unter Beibehaltung der Rückwärtskompatibilität
- KI-Temperatureinstellungen: Claude bei 0.7 generierte in 30% der Fälle ungültiges JSON (behoben mit Temperature 0)
- WebSocket-Speicherlecks: React-Komponenten verloren 50MB/Stunde (behoben mit RealtimeManager)
- Datenbankrennen-Bedingungen: Neue Nutzer warteten 3 Minuten aufgrund von Replikationsverzögerungen (behoben mit atomaren Operationen)
- Credit-System-Komplexität: Von doppelten Credits zu einem einzigen Typ vereinfacht
Die „Oh Nein"-Momente
- Das Mal, als ich versehentlich kritische Workflow-Daten am falschen Ort gespeichert habe
- Als ich feststellte, dass mysteriöse Browser-Fehler von meinem eigenen Code kamen, der Ressourcen erschöpfte
- Als ich während einer routinemäßigen Prüfung Sicherheitsschwachstellen entdeckte (alle jetzt behoben!)
Was ich gelernt habe (Spoiler: Eine Menge)
Dieses Projekt hat mich weit aus meiner Komfortzone gebracht und ich habe tonnenweise gelernt:
1. Nutzerkontrolle ist entscheidend: Die Gliederungsüberprüfungs-Funktion war nicht in meinem ursprünglichen Design, wurde aber zur wichtigsten Funktion. Nutzern zu erlauben, Inhalte vor Beginn der Generierung zu gestalten, spart Zeit, Credits und Frustration
2. Einfach anfangen, bei Bedarf migrieren: Wir begannen mit AWS Lambda, stießen aber auf Komplexitätswände – die Migration zu Cloud Run löste alles
3. Direkte Datenbankabfragen können schneller sein: Meine 10x Leistungsverbesserung kam durch das Entfernen unnötiger API-Schichten
4. KI-Kosten summieren sich: Das Ausführen mehrerer KI-Dienste für einen einzigen Podcast erfordert sorgfältiges Kostenmanagement
5. Nutzererfahrung zählt: Das Hinzufügen von Fortschrittsanzeigen und Zeitschätzungen machte einen enormen Unterschied
6. Sicherheit ist nie „fertig": Regelmäßige Prüfungen enthüllten Probleme, die ich nie erwartet hätte
7. Infrastructure as Code hat Tücken: SAMs Eigenheiten haben mir viel beigebracht (wie SSMParameterReadPolicy, das zusätzliche Schrägstriche hinzufügt!)
8. Cloud-Migrationen können überraschend schnell gehen: Mit KI-Pair-Programming haben wir von AWS zu GCP an einem einzigen Tag migriert!
Aktueller Status und was als Nächstes kommt
DIALØGUE ist jetzt live! Es ist in der Alpha-Phase mit 2 kostenlosen Credits für neue Nutzer.
Was die Preisgestaltung betrifft – ich muss zugeben, ich habe viel zu lange darüber nachgedacht. Jeder Podcast kostet mich echtes Geld (Claude API-Aufrufe für das Skript, Perplexity für Recherche, OpenAI für die Sprachsynthese – das summiert sich schnell). Ich habe mich für Credit-Pakete entschieden, die meine Kosten mit einer kleinen Marge abdecken: Starter für 4,99 Dollar für 4 Podcasts, Pro für 9,99 Dollar für 9 und Bulk für 19,99 Dollar für 18. Ich werde diese möglicherweise anpassen, wenn ich mehr über die tatsächlichen Nutzungsmuster erfahre, aber im Moment fühlen sie sich fair an. Und wenn eine Generierung aus technischen Gründen fehlschlägt, werden Credits automatisch erstattet – ich werde dich nicht für meine Bugs belasten :P
Möchtest du es ausprobieren?
Ich würde mich freuen, wenn du es ausprobierst! Geh zu podcast.chandlernguyen.com und erstelle deinen ersten KI-Podcast. Die ersten 2 sind kostenlos, also hast du nichts zu verlieren.
Faire Warnung: Es ist noch in der Alpha-Phase, also können Dinge kaputt gehen. Aber hey, das ist ein Teil des Spaßes, oder? Wenn du auf Probleme stößt, gibt es eine Feedback-Funktion direkt in der App (nur für eingeloggte Nutzer – ich musste das hinzufügen, nachdem es einige Spam-Probleme gab).
Abschließende Gedanken
Der Aufbau von DIALØGUE war eines der herausforderndsten und lohnendsten Projekte, die ich angegangen bin. Es hat alles kombiniert, was ich gelernt habe – von AWS Lambda-Funktionen über React-Komponenten bis hin zu KI-Prompt-Engineering – und hat sogar zu einer unerwarteten Cloud-Migrationsreise geführt.
Die überraschendste Entdeckung? Der Gliederungsüberprüfungsschritt, den ich oben erwähnt habe. Anfangs dachte ich, Nutzer wollten einfach ein Thema eingeben und einen Podcast bekommen. Aber beim Testen stellte ich fest, dass die Kontrolle über die Richtung vor dem Start des Hauptgenerierungsprozesses den Unterschied macht. Es verwandelt das Tool von einer Black Box in einen kollaborativen KI-Assistenten. Diese gleiche Erkenntnis – menschliche kreative Führung über KI-Ausführung – wurde zur zentralen Lektion, als ich später DIALØGUEs native iOS-App gebaut habe, ohne Swift zu kennen.
Ist es perfekt? Nein. Ist es nützlich? Ich denke schon! Zumindest war es eine unglaubliche Lernreise, und ich bin gespannt, wohin es geht.
Worüber würdest du einen Podcast erstellen? Ich bin wirklich neugierig – schick mir eine Nachricht oder probiere es selbst aus. Wer weiß, mit der Möglichkeit, die Inhalte zu gestalten und zu leiten, könnte dein KI-generierter Podcast genau das sein, was du suchst. :P
Viele Grüße,
Chandler
Willst du die technischen Details? Folge der vollständigen Reise:
- Engineering-Lektionen beim Aufbau von DIALØGUE: Meine Reise von der Werbung zum Engineering und warum Komplexität der Feind ist
- Eine KI-Parameteränderung kostete mich 54 Dollar/Monat: Wie eine einzige Temperatureinstellung während der AWS-→-GCP-Migration erhebliche Ineffizienzen verursachte





