Skip to content
··阅读时间2分钟

DIALØGUE:从零构建 AI 播客生成器(一路上学到超多)

我做了一个 AI 播客生成器,让你在内容真正生成前就能先塑形——因为我已经受够了通勤时听 AI 给我念“维基百科”。

起点:为什么要做播客生成器?

事情是这样的——我非常爱听播客。作为一个花很多时间在路上的人(通勤党你懂的!),我一直在想:如果我能针对任何自己好奇的话题即时生成一档播客会怎样?不是那种无聊 AI 声音念维基条目,而是两个 AI 主持人进行真正有互动的对话。

另外说实话,在做过几个更小项目、也写了不少关于自己编程旅程的文章后,我很想做一件更大的事。一个能逼我学新技术,也许还能对别人有用的东西。 :P

DIALØGUE 是什么?

DIALØGUE 是一个早期应用(alpha 阶段),能用 AI 生成专业播客。你给它一个主题——从“2025 年美联储决策与市场影响”到“面向初学者理解量子计算”——它会生成一档完整的 20+ 分钟播客,包含多个 AI 声音,进行真实对谈。

它和“让 ChatGPT 念一篇文章给你听”的区别在于:

  • 可交互大纲审阅:这是 game-changer——在任何研究或写作开始前,你可以先审阅提议大纲,并按你想要的方向塑形
  • 基于研究的内容:用搜索引擎补充事实和最新信息
  • 自然对话:由 Claude Sonnet 4 写出对话式脚本
  • 多角色声音:高质量神经语音 + 不同主持人个性

从主题到成品音频大约 10 分钟。对本来要人类花几小时甚至几天完成的流程来说,这已经很不错了。

技术栈:一场 Serverless 冒险(并且持续进化)

好,来讲技术细节(我最爱这部分!)。DIALØGUE 当前由这些东西驱动:

Frontend

- Next.js 15 + React 19:因为我想用最新栈

- TypeScript:被 runtime error 烧过太多次后,我就不想回头了

- Tailwind CSS:对不是设计大神的人来说,样式效率高很多

- Supabase JS Client:认证 + 实时更新(这个真的改变游戏)

Backend(当前 - GCP)

- Cloud Run:10+ 个容器化 Python 微服务,自动扩缩容

- Cloud Workflows:编排 pre-feedback(大纲)与 post-feedback(生成)两段流程

- Cloud Storage:音频文件存储 + CDN 分发

- API Gateway:单入口,处理 CORS 与认证

- Supabase:PostgreSQL + Row Level Security + Edge Functions

注:最初基于 AWS Lambda/Step Functions 搭建,后于 2025 年 7 月迁移到 GCP,以获得更好性能,并将音频生成成本降低 92%。

AI Services

- Claude 4.0 Sonnet:脚本生成(temperature 设为 0 以保证 JSON 可靠性,直连 Anthropic API)

- Perplexity AI:每个片段的研究与事实核对

- OpenAI TTS:高质量神经语音,生成自然对谈

- 内容安全检查:Anthropic 内建 safety checks

核心功能与用户旅程

从用户视角,流程是这样的:

1. 输入主题:就是一个简单文本框,不花哨

2. AI 生成大纲:约 1 分钟——你会看到建议结构与分段

3. 审阅并塑形你的播客:这一步是 DIALØGUE 的亮点!你可以:

- 调整焦点(“更适合初学者一点”)

- 增补上下文(“加上 2025 年最新进展”)

- 删除或修改片段(“第 3 段少一点技术黑话”)

- 如果 AI 误解你的意图,甚至可以彻底改方向

4. 生成完整播客:你确认大纲后,生成约需 6-10 分钟

5. 下载收听:MP3 文件可直接带走通勤听

幕后它在做更多事情:

- 把主题拆成多个 segments

- 在高资源消耗步骤前等待你的确认(不浪费 credits 在你不想要的内容上)

- 用针对性查询研究每个片段

- 为两位 AI 主持人写自然对话

- 做优雅错误处理(出错时自动返还 credits)

- 实时进度更新,让你知道系统正在做什么

好的、难的、以及“糟了”时刻

好的部分

- 大纲审阅功能:用户很喜欢在生成前先塑形。就像和你的 AI 制片人先开会!

- 改成直连 Supabase 查询后,性能提升 10 倍(450ms → 45ms)

- 注册秒级完成:通过原子 Edge Functions 修复 3 分钟延迟 bug(现在 < 500ms)

- 生成失败时,通过数据库触发器 自动退还 credits

- 真正可用的实时更新(谢谢 Supabase!)

- GCP 迁移后,音频生成 成本下降 92%

- 清理 Lambda 遗留后形成 干净的 database-first 架构

难的部分(现在都已解决)

- AWS Lambda layer 地狱:导入错误、250MB 大小限制(迁到 GCP 后解决)

- JWT 安全迁移:从 HS256 升级到 P-256,同时维持向后兼容

- AI temperature 设置:Claude 在 0.7 时有 30% 概率返回无效 JSON(改为 0 后解决)

- WebSocket 内存泄漏:React 组件每小时泄漏 50MB(用 RealtimeManager 修复)

- 数据库竞态:新用户因复制延迟要等 3 分钟(用原子操作修复)

- 积分系统复杂度:从双积分简化成单积分

“糟了”时刻

- 有次我把关键工作流数据存到了错误位置

- 发现神秘浏览器错误其实是我自己代码把资源耗尽

- 在例行审计里发现安全漏洞(现在都修完了)

我学到的(剧透:很多)

这个项目把我推出舒适区很多,我确实学到了大量东西:

1. 用户控制权极其关键:大纲审阅不是初版设计重点,但最终成了最关键功能。让用户在生成前先塑形,能同时节省时间、credits 和挫败感

2. 先简单起步,必要时再迁移:我们从 AWS Lambda 起步,但最终撞上复杂度天花板——迁到 Cloud Run 后问题整体解决

3. 直连数据库可能更快:那次 10 倍性能提升来自去掉不必要 API 层

4. AI 成本会快速累积:单次播客要串多家 AI 服务,成本管理必须精细

5. 用户体验很重要:加入进度提示和时间预估后,体感差异非常大

6. 安全永远没有“做完”:定期审计会暴露你原本根本想不到的问题

7. Infrastructure as Code 有坑点:SAM 的一些怪癖让我学到不少(比如 SSMParameterReadPolicy 会多加斜杠!)

8. 云迁移可以比想象快:借助 AI pair programming,我们一天就完成了 AWS → GCP 迁移!

当前状态与下一步

DIALØGUE 现在已经 上线!当前在 alpha 阶段,新用户有 2 个免费 credits。

定价这块我得承认,我纠结了非常久。每生成一档播客都要我真实付费(Claude 生成脚本、Perplexity 做研究、OpenAI 做语音合成——叠加起来很快)。目前我把 credit packs 设在大致覆盖成本并留一点边际:Starter $4.99(4 期)、Pro $9.99(9 期)、Bulk $19.99(18 期)。后续会根据真实使用数据继续调。至少目前我觉得这个区间公平。并且如果因技术故障导致生成失败,credits 会自动退还——我不会让你为我的 bug 买单 :P

想试试吗?

欢迎你来试!去 podcast.chandlernguyen.com 创建你的第一档 AI 播客。前 2 次免费,基本零门槛。

提前说明:它仍在 alpha,偶尔会坏。但这本来也是乐趣一部分,对吧?如果你遇到问题,应用内有反馈入口(仅登录用户可见——这是我经历过垃圾信息攻击后加的)。

最后的话

做 DIALØGUE 是我做过最有挑战、也最有成就感的项目之一。它把我这几年在学的东西全部串起来——从 AWS Lambda 到 React 组件到 AI prompt engineering,甚至还带来了意料之外的云迁移旅程。

最让我意外的发现?就是上面反复提到的大纲审阅步骤。最初我以为用户只想“输入主题,直接出播客”。但测试后我发现:在主生成流程前给用户方向控制,差别巨大。它把工具从黑箱变成了协作式 AI 助手。后来我 在不懂 Swift 的前提下构建 DIALØGUE 原生 iOS 应用 时,这个洞察也再次被验证:人类创意方向叠加 AI 执行,才是核心模式。

它完美吗?并不。它有用吗?我觉得有!至少它是一段非常扎实的学习旅程,我也很期待它接下来会走到哪里。

如果是你,你会想做一档什么主题的播客?我真的很好奇——欢迎给我留言,或者直接自己上手试。谁知道呢,在你可以主动塑形和引导内容的前提下,这档 AI 生成播客可能正好就是你在找的东西。 :P

致敬,

Chandler

想看技术深挖? 这里是完整旅程:

继续阅读

我的旅程
联系
语言
偏好设置