我用并行AI智能体在4天内翻译了390万词

一个月前，我在48小时内为DIALØGUE添加了5种语言，并写了一篇关于规划文档如何成为AI快速执行秘诀的文章。

那次是为一个只有大约400个UI字符串的单体应用添加5种语言。

这周，我尝试了一件大得多的事：将我整个博客——493篇横跨17年的文章——本地化为10种语言。越南语、印度尼西亚语、西班牙语、法语、葡萄牙语、德语、日语、韩语、简体中文和粤语。

约4900个翻译文件。约390万词。4天。

这不是一个关于AI神奇魔力的故事。这是一个关于当你把数千个翻译任务交给并行AI智能体时，实际发生了什么的故事——哪些编排方式有效，哪些错误在你读到输出结果之前根本看不出来，以及当机器大规模写作时，质量控制这件事有多令人不安。

规模问题

我的博客要追溯到2007年。有些文章只是300词的新加坡搜索营销动态。有些则是5000词的长文，深度分析美中关系或海外华人移居指南。这个档案里什么都有：Yahoo SEM分析、书评、AI产品发布。

手动将493篇文章翻译成9种语言，需要专业翻译团队几周，甚至几个月的时间。费用介于"令人不舒服"和"得把房子再抵押一次"之间。

但我已经搭建好了i18n基础架构——next-intl路由、支持语言感知的组件、非英语页面的ISR——作为更大规模国际化推进的一部分。技术栈已经就绪，我只缺内容。

第1天：越南语与初次经验

我从越南语开始，因为这是私人感情——越南语是我的母语。我可以阅读每一篇翻译稿，立刻判断是否有哪里听起来不对劲。

Claude Code在一次会话中翻译了全部493篇文章。流程看起来很清晰：

读取英文MDX文件
翻译内容，保留所有frontmatter结构
保持URL、代码块和技术术语不变
将翻译后的文件写入 content/blog/vi/YYYY/MM/DD/slug.mdx
以越南语对应的"Cheers, Chandler"结尾

第一轮QA就发现了一个模式，这个模式后来困扰了每一种语言：URL和结束语。智能体会"翻译"内部博客链接（把 /blog/2024/... 改成根本不存在的越南语slug），把"Chandler"替换成越南语名字变体，偶尔还会把frontmatter中的 slug 字段整个丢掉。

我整理了一份QA清单：

文件数量与源文件一致（493）
没有空文件或占位文件
所有frontmatter都有 slug、title、date、categories
没有被改写的内部URL
结束语符合目标语言的惯例
对于CJK语言：确认实际存在原生文字

这份清单成为了每个后续语言的基础框架。

第2天：并行智能体的突破

越南语完成、QA清单经过验证之后，我需要提速。Claude Code在这类工作中的杀手级特性是并行子智能体调度——你可以同时启动多个独立智能体，让它们各自处理不同的文件。

以下是西班牙语的编排方式：

正在调度30个翻译智能体...
├── 智能体 1: 2007-2008年文章（42篇）
├── 智能体 2: 2009年文章（38篇）
├── 智能体 3: 2010-2011年文章（35篇）
├── ...
├── 智能体 28: 2025年11-12月文章（12篇）
├── 智能体 29: 2026年1月文章（8篇）
└── 智能体 30: 2026年2月文章（9篇）

每个智能体获得一批文章、风格指南、QA清单和结束语规范。它们并行运行，各自写入文件，互不干扰——因为每个智能体处理的是不同的文件。

西班牙语：在一次会话中翻译了493篇文章。 然后是法语、葡萄牙语、德语、日语。

大约12小时内完成了五种语言。这就是让人感觉像是未来的部分——看着终端里涌现出30个同时运行的进度指示器，每个智能体都在梳理过去十年的博文，而你则在做晚饭。

以下是粤语（zh-HK）翻译会话的模拟还原——从规划到调度再到QA的全过程：

Claude Code

编排模式

逐渐形成的模式如下：

提前创建所有目录 — 如果目标目录不存在，智能体会静默失败
按年份范围分批 — 普通文章每个智能体10-15篇，超过3000词的文章每个智能体2-3篇
每次调度都附上风格指南 — 智能体之间没有共享记忆，所以每个都需要完整的上下文
每个语言完成后立即运行QA — 文件数量、空文件、frontmatter损坏、URL被改写、结束语一致性
用有针对性的清理智能体修复遗漏 — 总有5-15篇文章被跳过或格式损坏

韩语灾难

韩语本应是例行操作，和其他7种语言一样的流程：调度智能体、等待、QA、修复遗漏。

结果，它成了所有语言中翻译质量最差的一次。

72%的韩语文章根本不是翻译——它们是摘要。 智能体把350多篇文章压缩成了2-3段的概要，所有细节、所有个性、所有层次感全部消失。一篇4000词分析Ray Dalio《原则》的文章，变成了200词的概述。一篇详细的SEM教程变成了"本文探讨搜索引擎营销策略。"

UI字符串文件（messages/ko.json）更糟糕。韩文和英文混杂其中，还有损坏的字符，比如"Ch및ler"而不是"Chandler"。및这个字符在韩文里是"和"的意思——不知怎的，模型在词中间替换了它。

我不得不从零开始重做整个语言。每一篇文章。第二次尝试时，我加入了更严格的指令，要求保留完整内容、与源文章篇幅匹配，结果干净了很多。

教训：并行执行会放大错误。 如果你的提示词有一个细微的缺陷，30个智能体会以30倍的速度犯同一个错误。QA不是可选项——它是"完成"和"灾难"之间唯一可靠的防线。

中文问题：43次提交才搞定

简体中文（zh）是最耗费心力的语言。不是因为质量问题——翻译质量是好的——而是493篇文章经过43次独立提交，说明会话一直在触及用量上限。

Claude Code运行在Anthropic的API上，存在用量上限。即使是Max套餐加Sonnet 4.6，调度数十个并行智能体的长时间会话最终也会触发5小时冷却期。对于中文来说，这意味着分波次翻译：大约翻译50篇，触达上限，等待，继续，再触达上限。

中文翻译也需要最多的QA，因为CJK内容有其独特的失败模式：

脚本混用（日文汉字混入简体中文）
过于正式的语气，读起来像政府公文而不是博客
使用西式标点而不是中文标点（，与 , 以及。与 .）
翻译了不该翻译的名字（"Claude"在中文里就是"Claude"，而不是"克劳德"）

粤语语气问题

当我添加带粤语语气的繁体中文（zh-HK）时，我面临了完全不同的挑战。翻译需要使用粤语特有的语气词——嘅（所有格）、咗（过去时）、喺（在/于）、啲（一些）、冇（没有）——并保持粤语书写中那种随意、口语化的腔调。

标准普通话翻译在香港读起来像官方文件。"本网站提供中文版本"是正确的普通话，但粤语读者期待的是"呢個網站有中文版本"。意思相同，语气天壤之别。

挑战不在于翻译的准确性，而在于语气的真实性。模型可以生成语法正确的粤语，但除非你明确指示它使用口语语气词和粤普混用的表达方式，否则它默认会用普通话的语气。

我对粤语的QA检查包括用grep扫描每个文件，确认粤语特有语气词的存在。493篇中493篇通过。但我仍然不得不手动重写整个 messages/zh-HK.json UI字符串文件，因为第一版大约70%是英文——智能体跳过了大部分翻译。

我对OpenAI Codex的尝试

大约在翻译德语的过程中，我触达了Claude Code的用量上限，决定趁等待期间试试OpenAI的Codex。我有一个月的ChatGPT Plus免费试用，其中包含Codex访问权限。

好的方面： Codex能生成质量不错的规划文档。它对代码库的初步分析和提出的翻译方案结构清晰、合理。响应速度很快，而且能严格按照指令执行——有时甚至显得太过字面，这反倒成了一个特点。

不好的方面： 我使用的版本（gpt-5.2-codex）无法运行并行子智能体。它按顺序处理文章——一篇接一篇。对于493篇文章来说，这根本不可行。它也是以短促的方式运作，完成5-10篇后就停下来等待反馈。每次我都得说"继续"才能进行下一批。

当gpt-5.3-codex在会话中途上线时，我切换了过去。效果更好，但依然没有并行执行能力。这个根本性的架构差异——Claude Code可以调度30多个独立智能体同时运行，而Codex作为单一的顺序进程工作——使得Claude Code在批量内容任务上的速度快出不止一个量级。

坦诚的比较： Codex适合专注的单文件工作，响应及时，执行指令到位。但对于我所需要的那种大规模并行执行——9种语言共4437个文件——Claude Code的智能体架构完全不在同一个层级。

拯救一切的清单

每种语言都经过相同的QA流程：

✓ 文件数量：493/493
✓ 空文件：0
✓ 过小文件（<100字节）：0
✓ 缺失slug：0
✓ URL被改写：0
✓ 损坏的frontmatter：0
✓ 错误的结束语：0
✓ 原生文字存在：493/493

对于CJK语言，我额外添加了：

✓ 粤语语气词（嘅/咗/喺/啲/冇）：493/493
✓ 无混合脚本污染：通过
✓ 中文标点：通过

没有这份清单，我可能会把韩语摘要版发布到生产环境，会把70%是英文的粤语UI发布上去，会把内部链接指向不存在的翻译slug的博文也发布出去。

这份清单不是官僚主义。当你的生产流水线生成了数千个你根本读不完的文件时，它是唯一可靠的质量保证。

最终数字


语言数	11（英语 + 10种翻译）
翻译文章数	493篇 × 10种语言 ≈ 4900个文件
总词数	约390万词
日历天数	4天（2月24日至27日）
UI字符串文件	10个语言JSON文件（各约475个键）
邮件模板	10种语言
旅程数据	里程碑和学习路径通过JSONB翻译
触达用量上限次数	数不清了
完整重做的语言	1个（韩语）

我真正学到的东西

1. 风格指南就是一切。 粤语的语气、韩语的正式程度、葡萄牙语的"Abraço"结束语——这些不是装饰。它们是"翻译了"和"本地化了"之间的差距。没有风格指南，你得到的是语法正确但读起来像政府表格的内容。

2. 并行智能体是力量倍增器，也是风险倍增器。 当30个智能体正确执行时，你能在一小时内完成一种语言。当30个智能体犯同一个错误时，你会得到350篇被截断的文章，然后全部重做。

3. 规模之下，QA不是可选项。 你不可能手动审阅4437篇翻译文章。但你可以自动化结构检查，捕捉最常见的失败：文件缺失、frontmatter损坏、URL被改写、结束语错误、内容被截断。

4. 最难的部分不是翻译——而是语气。 任何大语言模型都能翻译文字。但让翻译听起来像是写出原文的那个人——保留那份温度、随意、智识上的好奇心——跨越9种语言、17年不断演变的写作风格，这需要明确的指令和反复的打磨。

5. 用量上限是真实的约束。 即使是最高套餐，长时间的并行智能体会话也会触及限制。提前规划好中断。把工作结构化，确保你能从中断的地方继续。

6. 用真实读者来测试。 我自己能QA越南语翻译。对于韩语或日语，我依赖结构检查，信任模型。这是一个已知的缺口。如果你对不懂的语言的质量认真对待，找母语读者抽样检查。

值得吗？

我的博客现在能以读者的母语触达11个语言区的用户。胡志明市的越南营销专业人士可以用越南语阅读我2011年对新加坡搜索市场的分析。日本的AI研究人员可以用日语阅读我2024年关于构建Sydney的文章。香港的粤语读者看到的内容，读起来像是专门为他们写的，而不是对着他们翻译的。

每一篇翻译都完美吗？不是。这种规模的机器翻译有粗糙的边角。有些比喻没法自然落地，有些文化引用需要超越逐字替换的本地化处理。

但另一种选择，是让493篇文章只存在于英语，只对全球互联网用户中大约20%的人可及。现在，它可以触达超过60%的用户。

四天。390万词。基础设施已经就位。我用英语写的每一篇新文章，都会作为部署流程的一部分，被翻译成10种语言。

真正的问题不是AI翻译是否完美。而是完美是否是可及性的敌人。

致敬， Chandler

我用并行AI智能体在4天内翻译了390万词

规模问题

第1天：越南语与初次经验

第2天：并行智能体的突破

编排模式

韩语灾难

中文问题：43次提交才搞定

粤语语气问题

我对OpenAI Codex的尝试

拯救一切的清单

最终数字

我真正学到的东西

值得吗？

继续阅读

迁移之后会发生什么：8 天的复利回报

我如何用 Claude Code 在 4 天内重建整个博客后端

我为什么在 13 个月后取消了 Claude Max，以及接下来 30 天我准备如何用 Codex 做测试

用了两周 Codex 之后，我准备放弃每月 200 美元的 Claude Code 订阅

发布 DIALØGUE 让我学到的多语言 AI 产品真相

三年之后：生成式AI到底对SEO做了什么