Skip to content
··7 मिनट पढ़ने का समय

DIALØGUE: एक AI-Powered Podcast Generator को खरोंच से बनाना (और रास्ते में ढेर सारा सीखना)

मैंने एक AI podcast generator बनाया जो आपको content बनने से पहले उसे आकार देने देता है — क्योंकि मैं commute के दौरान AI को Wikipedia पढ़ते सुनते-सुनते थक गया था।

शुरुआत: Podcast Generator क्यों बनाएं?

बात यह है — मुझे podcasts से प्यार है। एक ऐसे इंसान के रूप में जो traffic में बहुत ज़्यादा समय बिताता है (नमस्ते, fellow commuters!), मैंने हमेशा सोचा: क्या होगा अगर मैं किसी भी topic पर podcast generate कर सकूँ जिसके बारे में मैं curious हूँ? सिर्फ Wikipedia पढ़ती एक boring AI आवाज़ नहीं, बल्कि AI hosts के बीच एक असली engaging conversation।

और सच बताऊँ, कई छोटे projects बनाने और अपनी coding journey के बारे में लिखने के बाद, मैं कुछ बड़ा tackle करना चाहता था। कुछ ऐसा जो मुझे नई technologies सीखने पर मजबूर करे और शायद, बस शायद, दूसरों के लिए भी useful हो। :P

DIALØGUE क्या है?

DIALØGUE एक early-stage application (alpha phase) है जो AI का उपयोग करके professional podcasts generate करता है। आप इसे एक topic दीजिए — "Fed के फैसले और 2025 में market impact" से लेकर "beginners के लिए quantum computing को समझना" तक — और यह multiple AI voices के बीच असली conversation के साथ एक पूरा 20+ मिनट का podcast बनाता है।

यह बात इसे सिर्फ ChatGPT से article पढ़वाने से अलग बनाती है:

  • Interactive outline review: यह game-changer है — किसी भी research या writing से पहले, आपको proposed outline review करने और उसे ठीक वैसा आकार देने का मौका मिलता है जैसा आप चाहते हैं
  • Research-based content: facts और current information research करने के लिए search engine का उपयोग
  • Natural dialogue: Claude Sonnet 4 conversational scripts लिखता है
  • Multiple voices: विभिन्न host personalities के साथ high-quality neural voices

पूरी process topic से finished audio file तक लगभग 10 मिनट लेती है। उस काम के लिए बुरा नहीं जो इंसानों को घंटों या दिन लगाएगा!

Tech Stack: एक Serverless Adventure (जो विकसित हुई)

चलिए technical details में जाते हैं (मेरा पसंदीदा हिस्सा!)। DIALØGUE को power देने वाली यह stack है:

Frontend

- Next.js 15 + React 19: क्योंकि मैं latest और greatest use करना चाहता था

- TypeScript: Runtime errors से एक बार बहुत कड़वा अनुभव होने के बाद

- Tailwind CSS: किसी ऐसे व्यक्ति के लिए styling को बहुत आसान बनाती है जो design wizard नहीं है

- Supabase JS Client: Auth और real-time updates के लिए (यह game-changer था)

Backend (Current - GCP)

- Cloud Run: Automatic scaling के साथ 10+ containerized Python microservices

- Cloud Workflows: Pre-feedback (outline) और post-feedback (generation) workflows को orchestrate करता है

- Cloud Storage: CDN delivery के साथ audio file storage

- API Gateway: CORS और authentication के साथ single entry point

- Supabase: Row Level Security और Edge Functions के साथ PostgreSQL database

*Note: Originally AWS Lambda/Step Functions पर बनाया था, लेकिन July 2025 में बेहतर performance और audio generation में 92% cost reduction के लिए GCP में migrate किया।*

AI Services

- Claude 4.0 Sonnet: JSON reliability के लिए temperature 0 के साथ script generation (direct Anthropic API)

- Perplexity AI: प्रत्येक segment के लिए research और fact-checking

- OpenAI TTS: Natural conversation के लिए high-quality neural voices

- Content Moderation: Anthropic की built-in safety checks

Key Features और User Journey

यह user के नज़रिए से कैसे काम करता है:

1. Topic enter करें: Simple text input, कोई fancy नहीं

2. AI outline generate करता है: लगभग 1 मिनट — आप proposed structure और segments देखेंगे

3. Podcast review करें और shape दें: यहाँ DIALØGUE वाकई चमकता है! आप कर सकते हैं:

- Focus redirect करें ("इसे और beginner-friendly बनाओ")

- Missing context जोड़ें ("2025 के recent developments include करो")

- Segments remove या modify करें ("segment 3 में technical jargon skip करो")

- अगर AI ने आपका intent गलत समझा तो पूरी दिशा बदलें

4. Full podcast generate करें: Outline approve करने के बाद, generation में ~6-10 मिनट लगते हैं

5. Download करें और enjoy करें: MP3 file आपके commute के लिए तैयार

पीछे scenes में यह बहुत कुछ करता है:

- Topic को segments में तोड़ता है

- Resource-intensive operations से पहले आपकी approval का इंतज़ार करता है (unwanted content पर credits बर्बाद नहीं!)

- हर segment को specific queries से research करता है

- दो AI hosts के बीच natural dialogue लिखता है

- Errors को gracefully handle करता है (और अगर कुछ गलत हो तो credits refund करता है)

- Real-time progress updates ताकि आप जान सकें क्या हो रहा है

अच्छा, चुनौतीपूर्ण, और "ओह नहीं" के पल

अच्छा

- Outline review feature: Users podcast को generation शुरू होने से पहले shape करना पसंद करते हैं। यह ऐसा है जैसे आपके AI producer के साथ conversation हो!

- 10x performance improvement direct Supabase queries पर switch करने से (450ms → 45ms)

- Instant user signup: Atomic Edge Functions के साथ 3-मिनट की delay bug fix (अब < 500ms)

- Generation fail होने पर Automatic credit refunds database triggers के ज़रिए

- Real-time updates जो actually काम करते हैं (धन्यवाद, Supabase!)

- GCP migration के बाद audio generation में 92% cost reduction

- Lambda legacy code हटाने के बाद Clean database-first architecture

चुनौतीपूर्ण (अब Solved!)

- AWS Lambda layer hell: Import errors, 250MB size limits (GCP migration से solve)

- JWT security migration: Backward compatibility बनाए रखते हुए HS256 से P-256 में upgrade

- AI temperature settings: Claude at 0.7, 30% time invalid JSON generate कर रहा था (temperature 0 से fix)

- WebSocket memory leaks: React components 50MB/hour leak कर रहे थे (RealtimeManager से fix)

- Database race conditions: New users replication lag की वजह से 3 मिनट wait कर रहे थे (atomic operations से fix)

- Credit system complexity: Dual credits से single type में simplify

"ओह नहीं" के पल

- वह समय जब मैंने गलती से critical workflow data गलत जगह store कर दी

- जब मुझे एहसास हुआ कि mysterious browser errors मेरे अपने code से थे जो resources exhaust कर रहा था

- Routine audit के दौरान security vulnerabilities discover करना (अब सब fix!)

मैंने क्या सीखा (Spoiler: बहुत कुछ)

यह project मुझे मेरे comfort zone से काफी बाहर ले गया, और मैंने बहुत कुछ सीखा:

1. User control ज़रूरी है: Outline review feature मेरे original design में नहीं था, लेकिन यह सबसे important feature बन गया। Users को generation शुरू होने से पहले content shape करने देना समय, credits और frustration बचाता है

2. Simple से शुरू करें, ज़रूरत पड़ने पर migrate करें: हमने AWS Lambda से शुरुआत की लेकिन complexity की दीवार से टकरा गए — Cloud Run पर migration ने सब कुछ solve किया

3. Direct database queries तेज़ हो सकती हैं: मेरा 10x performance improvement unnecessary API layers हटाने से आया

4. AI costs बढ़ जाते हैं: एक single podcast के लिए multiple AI services चलाने में careful cost management ज़रूरी है

5. User experience मायने रखता है: Progress indicators और time estimates जोड़ने से बहुत फर्क पड़ा

6. Security कभी "done" नहीं होती: Regular audits ने ऐसे issues reveal किए जो मैंने कभी सोचे नहीं थे

7. Infrastructure as Code में gotchas हैं: SAM की quirks ने बहुत कुछ सिखाया (जैसे SSMParameterReadPolicy extra slashes जोड़ना!)

8. Cloud migrations surprisingly fast हो सकते हैं: AI pair programming के साथ, हमने एक ही दिन में AWS से GCP migrate किया!

Current Status और आगे क्या

DIALØGUE अब live है! यह alpha phase में है, new users के लिए 2 free credits के साथ।

Pricing के बारे में — मुझे स्वीकार करना होगा, मैंने इस पर बहुत ज़्यादा समय सोचते हुए बिताया। हर podcast generate करने में मुझे असली पैसे लगते हैं (script के लिए Claude API calls, research के लिए Perplexity, voice synthesis के लिए OpenAI — यह जल्दी जुड़ जाता है)। मैं credit packs पर आया जो roughly मेरी costs cover करते हैं थोड़े margin के साथ: Starter $4.99 में 4 podcasts, Pro $9.99 में 9, और Bulk $19.99 में 18। मैं इन्हें actual usage patterns सीखने के साथ adjust कर सकता हूँ, लेकिन अभी यह मुझे fair लगते हैं। और अगर technical कारणों से generation fail हो, तो credits automatically refund हो जाते हैं — मैं आपको अपने bugs के लिए charge नहीं करूँगा :P

Try करना चाहते हैं?

मुझे खुशी होगी अगर आप try करें! podcast.chandlernguyen.com पर जाइए और अपना पहला AI podcast बनाइए। पहले 2 free हैं, इसलिए खोने के लिए कुछ नहीं।

Fair warning: यह अभी भी alpha में है, इसलिए चीज़ें टूट सकती हैं। लेकिन यही मज़ा है, है ना? अगर आपको कोई issue आए, तो app में एक feedback feature built-in है (सिर्फ logged-in users के लिए — कुछ spam issues के बाद यह जोड़ना पड़ा)।

Final Thoughts

DIALØGUE बनाना सबसे challenging और rewarding projects में से एक रहा है जो मैंने tackle किए हैं। इसने सब कुछ combine किया जो मैं सीख रहा था — AWS Lambda functions से React components तक AI prompt engineering तक — और एक unexpected cloud migration journey की ओर भी ले गया।

सबसे surprising discovery? वह outline review step जिसका मैंने ज़िक्र किया। शुरुआत में, मुझे लगा कि users बस topic input करके podcast चाहेंगे। लेकिन testing में, मैंने realize किया कि main generation process शुरू होने से पहले users को direction पर control देना सब कुछ बदल देता है। यह tool को एक black box से collaborative AI assistant में बदल देता है। वही insight — AI execution के ऊपर human creative direction — बाद में central lesson बनी जब मैंने Swift जाने बिना DIALØGUE का native iOS app बनाया

क्या यह perfect है? नहीं। क्या यह useful है? मुझे लगता है हाँ! कम से कम, यह एक incredible learning journey रही है, और मैं excited हूँ देखने के लिए कि यह कहाँ जाती है।

आप किस चीज़ के बारे में podcast बनाएंगे? मुझे genuinely curiosity है — मुझे message करें या खुद try करें। कौन जानता है, content को shape और guide करने की ability के साथ, आपका AI-generated podcast वही हो सकता है जो आप ढूंढ रहे हैं। :P

शुभकामनाओं सहित,

Chandler

Technical deep-dive चाहते हैं? पूरी journey follow करें:

पढ़ना जारी रखें

मेरा सफ़र
जुड़ें
भाषा
सेटिंग्स