DIALØGUE：从零构建 AI 播客生成器（一路上学到超多）

起点：为什么要做播客生成器？

事情是这样的——我非常爱听播客。作为一个花很多时间在路上的人（通勤党你懂的！），我一直在想：如果我能针对任何自己好奇的话题即时生成一档播客会怎样？不是那种无聊 AI 声音念维基条目，而是两个 AI 主持人进行真正有互动的对话。

另外说实话，在做过几个更小项目、也写了不少关于自己编程旅程的文章后，我很想做一件更大的事。一个能逼我学新技术，也许还能对别人有用的东西。 :P

DIALØGUE 是什么？

DIALØGUE 是一个早期应用（alpha 阶段），能用 AI 生成专业播客。你给它一个主题——从“2025 年美联储决策与市场影响”到“面向初学者理解量子计算”——它会生成一档完整的 20+ 分钟播客，包含多个 AI 声音，进行真实对谈。

它和“让 ChatGPT 念一篇文章给你听”的区别在于：

可交互大纲审阅：这是 game-changer——在任何研究或写作开始前，你可以先审阅提议大纲，并按你想要的方向塑形
基于研究的内容：用搜索引擎补充事实和最新信息
自然对话：由 Claude Sonnet 4 写出对话式脚本
多角色声音：高质量神经语音 + 不同主持人个性

从主题到成品音频大约 10 分钟。对本来要人类花几小时甚至几天完成的流程来说，这已经很不错了。

技术栈：一场 Serverless 冒险（并且持续进化）

好，来讲技术细节（我最爱这部分！）。DIALØGUE 当前由这些东西驱动：

Frontend

- Next.js 15 + React 19：因为我想用最新栈

- TypeScript：被 runtime error 烧过太多次后，我就不想回头了

- Tailwind CSS：对不是设计大神的人来说，样式效率高很多

- Supabase JS Client：认证 + 实时更新（这个真的改变游戏）

Backend（当前 - GCP）

- Cloud Run：10+ 个容器化 Python 微服务，自动扩缩容

- Cloud Workflows：编排 pre-feedback（大纲）与 post-feedback（生成）两段流程

- Cloud Storage：音频文件存储 + CDN 分发

- API Gateway：单入口，处理 CORS 与认证

- Supabase：PostgreSQL + Row Level Security + Edge Functions

注：最初基于 AWS Lambda/Step Functions 搭建，后于 2025 年 7 月迁移到 GCP，以获得更好性能，并将音频生成成本降低 92%。

AI Services

- Claude 4.0 Sonnet：脚本生成（temperature 设为 0 以保证 JSON 可靠性，直连 Anthropic API）

- Perplexity AI：每个片段的研究与事实核对

- OpenAI TTS：高质量神经语音，生成自然对谈

- 内容安全检查：Anthropic 内建 safety checks

核心功能与用户旅程

从用户视角，流程是这样的：

1. 输入主题：就是一个简单文本框，不花哨

2. AI 生成大纲：约 1 分钟——你会看到建议结构与分段

3. 审阅并塑形你的播客：这一步是 DIALØGUE 的亮点！你可以：

- 调整焦点（“更适合初学者一点”）

- 增补上下文（“加上 2025 年最新进展”）

- 删除或修改片段（“第 3 段少一点技术黑话”）

- 如果 AI 误解你的意图，甚至可以彻底改方向

4. 生成完整播客：你确认大纲后，生成约需 6-10 分钟

5. 下载收听：MP3 文件可直接带走通勤听

幕后它在做更多事情：

- 把主题拆成多个 segments

- 在高资源消耗步骤前等待你的确认（不浪费 credits 在你不想要的内容上）

- 用针对性查询研究每个片段

- 为两位 AI 主持人写自然对话

- 做优雅错误处理（出错时自动返还 credits）

- 实时进度更新，让你知道系统正在做什么

好的、难的、以及“糟了”时刻

好的部分

- 大纲审阅功能：用户很喜欢在生成前先塑形。就像和你的 AI 制片人先开会！

- 改成直连 Supabase 查询后，性能提升 10 倍（450ms → 45ms）

- 注册秒级完成：通过原子 Edge Functions 修复 3 分钟延迟 bug（现在 < 500ms）

- 生成失败时，通过数据库触发器 自动退还 credits

- 真正可用的实时更新（谢谢 Supabase！）

- GCP 迁移后，音频生成 成本下降 92%

- 清理 Lambda 遗留后形成 干净的 database-first 架构

难的部分（现在都已解决）

- AWS Lambda layer 地狱：导入错误、250MB 大小限制（迁到 GCP 后解决）

- JWT 安全迁移：从 HS256 升级到 P-256，同时维持向后兼容

- AI temperature 设置：Claude 在 0.7 时有 30% 概率返回无效 JSON（改为 0 后解决）

- WebSocket 内存泄漏：React 组件每小时泄漏 50MB（用 RealtimeManager 修复）

- 数据库竞态：新用户因复制延迟要等 3 分钟（用原子操作修复）

- 积分系统复杂度：从双积分简化成单积分

“糟了”时刻

- 有次我把关键工作流数据存到了错误位置

- 发现神秘浏览器错误其实是我自己代码把资源耗尽

- 在例行审计里发现安全漏洞（现在都修完了）

我学到的（剧透：很多）

这个项目把我推出舒适区很多，我确实学到了大量东西：

1. 用户控制权极其关键：大纲审阅不是初版设计重点，但最终成了最关键功能。让用户在生成前先塑形，能同时节省时间、credits 和挫败感

2. 先简单起步，必要时再迁移：我们从 AWS Lambda 起步，但最终撞上复杂度天花板——迁到 Cloud Run 后问题整体解决

3. 直连数据库可能更快：那次 10 倍性能提升来自去掉不必要 API 层

4. AI 成本会快速累积：单次播客要串多家 AI 服务，成本管理必须精细

5. 用户体验很重要：加入进度提示和时间预估后，体感差异非常大

6. 安全永远没有“做完”：定期审计会暴露你原本根本想不到的问题

7. Infrastructure as Code 有坑点：SAM 的一些怪癖让我学到不少（比如 SSMParameterReadPolicy 会多加斜杠！）

8. 云迁移可以比想象快：借助 AI pair programming，我们一天就完成了 AWS → GCP 迁移！

当前状态与下一步

DIALØGUE 现在已经上线！当前在 alpha 阶段，新用户有 2 个免费 credits。

定价这块我得承认，我纠结了非常久。每生成一档播客都要我真实付费（Claude 生成脚本、Perplexity 做研究、OpenAI 做语音合成——叠加起来很快）。目前我把 credit packs 设在大致覆盖成本并留一点边际：Starter $4.99（4 期）、Pro $9.99（9 期）、Bulk $19.99（18 期）。后续会根据真实使用数据继续调。至少目前我觉得这个区间公平。并且如果因技术故障导致生成失败，credits 会自动退还——我不会让你为我的 bug 买单 :P

想试试吗？

欢迎你来试！去 podcast.chandlernguyen.com 创建你的第一档 AI 播客。前 2 次免费，基本零门槛。

提前说明：它仍在 alpha，偶尔会坏。但这本来也是乐趣一部分，对吧？如果你遇到问题，应用内有反馈入口（仅登录用户可见——这是我经历过垃圾信息攻击后加的）。

最后的话

做 DIALØGUE 是我做过最有挑战、也最有成就感的项目之一。它把我这几年在学的东西全部串起来——从 AWS Lambda 到 React 组件到 AI prompt engineering，甚至还带来了意料之外的云迁移旅程。

最让我意外的发现？就是上面反复提到的大纲审阅步骤。最初我以为用户只想“输入主题，直接出播客”。但测试后我发现：在主生成流程前给用户方向控制，差别巨大。它把工具从黑箱变成了协作式 AI 助手。后来我在不懂 Swift 的前提下构建 DIALØGUE 原生 iOS 应用时，这个洞察也再次被验证：人类创意方向叠加 AI 执行，才是核心模式。

它完美吗？并不。它有用吗？我觉得有！至少它是一段非常扎实的学习旅程，我也很期待它接下来会走到哪里。

如果是你，你会想做一档什么主题的播客？我真的很好奇——欢迎给我留言，或者直接自己上手试。谁知道呢，在你可以主动塑形和引导内容的前提下，这档 AI 生成播客可能正好就是你在找的东西。 :P

致敬，

Chandler

想看技术深挖？ 这里是完整旅程：

构建 DIALØGUE 的工程经验总结：我从广告到工程的路径，以及为什么复杂度是敌人
One AI Parameter Change Cost Me $54/Month：一次 AWS → GCP 迁移里一个 temperature 参数如何制造大额低效成本