我“作弊”了:Sydney 现在能读懂 10-K 年报里的叙事内容
我把 Sydney 扩展到能读取 Big Tech 过去 10 年年报里的叙事内容,但策略上只覆盖了 7 家公司——下面是我如何在成本与能力之间做平衡。
更新(2026): 这个功能已下线。Sydney 不再提供 S&P 500 或 10-K 分析能力。现在 Sydney 聚焦于博客内容与产品。 体验当前 Sydney →
距离 Sydney 的 MVP 版本 上线大约一个月后,我很兴奋地想分享:Sydney 现在能深入读取过去十年 “美股七巨头” 年报(10-K)中的 文字叙事内容 了!(Apple、Amazon、Alphabet、Facebook/Meta、Microsoft、Nvidia、Tesla。)
之前 Sydney 只能回答覆盖整个 S&P 500 的财务事实和数字,还无法理解年报中的叙事段落。这个升级背后花了不少策略权衡:chunk size、embedding 维度、以及向量库里年报总体体量之间的平衡。
所以,是的,这一版里我确实“小小作弊”了一下 :P
我是这样做出来的:
- 聚焦范围:不再覆盖全部 500 家 S&P 500 公司,而是先把 7 家关键玩家放进向量库。
- 只收 10-K:只纳入过去 10 年的年报(10-K),跳过季报(10-Q)。结果是向量库里接近 700,000 个 data objects。如果把季报也加进来,规模会暴涨(月度成本也会跟着涨)。
- 文本 embedding:我选用了 OpenAI 的 “text-embedding-3-small”,维度 512。
- 为什么不用 “text-embedding-3-large”?成本差距超过 10 倍!而且在当前配置下,混合检索质量已经够好。
- 为什么不用 1024 或 1536 维?还是成本问题。512 维能把月度向量库成本维持在可接受范围。
- 专门新增一个工具:我给 Sydney 增加了一个专门处理这 7 家公司年报叙事内容的工具。所以如果你要看整个 S&P 500 的硬数字,仍然可以通过另一个独立工具拿到。
有了这个新工具,Sydney 现在可以回答类似:
- “Nvidia 去年在年报里怎么讨论芯片架构?”
- “Apple 在 2022 年有没有点名 iPhone 的关键竞争对手?”
- “过去 5 年 Microsoft 如何描述 Azure 的竞争态势?”
所有回答都直接基于 10-K 原文内容。
所以 来试试吧,也欢迎告诉我你的看法?你最想看哪家公司 10-K 的叙事内容?
致敬,
Chandler
后续发展: 大约同一时期我也开始探索多 agent 框架——CrewAI 给我留下了深刻印象,用于播客生成,后来一路演化成了 DIALØGUE。





