我“作弊”了：Sydney 现在能读懂 10-K 年报里的叙事内容

更新（2026）： 这个功能已下线。Sydney 不再提供 S&P 500 或 10-K 分析能力。现在 Sydney 聚焦于博客内容与产品。体验当前 Sydney →

距离 Sydney 的 MVP 版本上线大约一个月后，我很兴奋地想分享：Sydney 现在能深入读取过去十年 “美股七巨头” 年报（10-K）中的 文字叙事内容 了！（Apple、Amazon、Alphabet、Facebook/Meta、Microsoft、Nvidia、Tesla。）
之前 Sydney 只能回答覆盖整个 S&P 500 的财务事实和数字，还无法理解年报中的叙事段落。这个升级背后花了不少策略权衡：chunk size、embedding 维度、以及向量库里年报总体体量之间的平衡。
所以，是的，这一版里我确实“小小作弊”了一下 :P

我是这样做出来的：

聚焦范围：不再覆盖全部 500 家 S&P 500 公司，而是先把 7 家关键玩家放进向量库。
只收 10-K：只纳入过去 10 年的年报（10-K），跳过季报（10-Q）。结果是向量库里接近 700,000 个 data objects。如果把季报也加进来，规模会暴涨（月度成本也会跟着涨）。
文本 embedding：我选用了 OpenAI 的 “text-embedding-3-small”，维度 512。
- 为什么不用 “text-embedding-3-large”？成本差距超过 10 倍！而且在当前配置下，混合检索质量已经够好。
- 为什么不用 1024 或 1536 维？还是成本问题。512 维能把月度向量库成本维持在可接受范围。
专门新增一个工具：我给 Sydney 增加了一个专门处理这 7 家公司年报叙事内容的工具。所以如果你要看整个 S&P 500 的硬数字，仍然可以通过另一个独立工具拿到。

有了这个新工具，Sydney 现在可以回答类似：

“Nvidia 去年在年报里怎么讨论芯片架构？”
“Apple 在 2022 年有没有点名 iPhone 的关键竞争对手？”
“过去 5 年 Microsoft 如何描述 Azure 的竞争态势？”

所有回答都直接基于 10-K 原文内容。

所以来试试吧，也欢迎告诉我你的看法？你最想看哪家公司 10-K 的叙事内容？

致敬，

Chandler

后续发展： 大约同一时期我也开始探索多 agent 框架——CrewAI 给我留下了深刻印象，用于播客生成，后来一路演化成了 DIALØGUE。

我“作弊”了：Sydney 现在能读懂 10-K 年报里的叙事内容

继续阅读

Less Is More

CrewAI 很不错！——我的第一印象

S&P500 Agent MVP 上线：基于 SEC 数据回答金融问题

对我当前聊天机器人的一次升级

Chatbot v2.10 发布：通过更快速度、更强扩展性与更简体验提升用户感受

我如何借助 AI Agent 从“编码流沙”中爬出来