Tôi gian lận: Sydney giờ có thể đọc phần narrative trong báo cáo 10-K
Tôi mở rộng Sydney để đọc 10 năm nội dung narrative từ báo cáo thường niên của Big Tech bằng cách chiến lược giới hạn phạm vi ở 7 công ty — đây là cách tôi cân bằng chi phí và khả năng.
Cập nhật (2026): Tính năng này đã được khai tử. Sydney không còn khả năng phân tích S&P 500 hay 10-K. Sydney giờ tập trung vào nội dung blog và sản phẩm. Thử Sydney hiện tại →
Khoảng một tháng sau khi ra mắt phiên bản MVP của Sydney, tôi vui mừng chia sẻ Sydney giờ có thể đào sâu vào nội dung văn bản của báo cáo thường niên (10-K) của "Magnificent 7" công ty công nghệ trong thập kỷ qua! (Đó là Apple, Amazon, Alphabet, Facebook/Meta, Microsoft, Nvidia và Tesla.) Trước đó, Sydney chỉ giới hạn trả lời về số liệu tài chính cho toàn bộ S&P 500, nhưng không thể diễn giải phần narrative của báo cáo. Nâng cấp này cần chiến lược, cân bằng chunk size, embedding dimension, và khối lượng báo cáo đưa vào vector store. Nên vâng, tôi đã "gian lận" một chút trong phiên bản này :P.
Đây là cách tôi làm:
- Phạm vi tập trung: Thay vì bao phủ tất cả 500 công ty S&P 500, tôi chỉ thêm bảy công ty chủ chốt vào vector store.
- Chỉ báo cáo 10K: Tôi chỉ bao gồm báo cáo thường niên (10K) trong 10 năm qua, bỏ qua báo cáo quý (10Q). Kết quả? Gần 700.000 data objects trong vector store. Nếu thêm báo cáo quý, con số sẽ tăng vọt (và chi phí hàng tháng sẽ tăng tương ứng).
- Text embedding: Tôi chọn mô hình "text-embedding-3-small" từ OpenAI, với 512 dimension.
- Tại sao không dùng "text-embedding-3-large"? Chênh lệch chi phí hơn mười lần! Và chất lượng hybrid search có vẻ đủ tốt với thiết lập hiện tại.
- Tại sao không dùng 1024 hay 1536 dimension? Lại là chi phí. 512 dimension giữ chi phí vector store hàng tháng ở mức hợp lý.
- Tool mới riêng cho nhiệm vụ này: Tôi trang bị cho Sydney một tool riêng cho nội dung narrative của báo cáo thường niên bảy công ty này. Nên nếu bạn muốn số liệu cứng cho toàn bộ S&P 500, bạn vẫn có thể lấy qua tool riêng.
Với tool mới, Sydney giờ có thể trả lời câu hỏi như:
- "Nvidia thảo luận gì về kiến trúc chip năm ngoái?"
- "Apple có xác định đối thủ iPhone nào trong 2022 không?"
- "Microsoft mô tả cạnh tranh Azure thế nào trong 5 năm qua?"
Tất cả câu trả lời được grounded trong nội dung trực tiếp từ báo cáo 10K.
Vậy hãy dùng thử và cho tôi biết bạn nghĩ gì? Bạn tò mò nhất về phần narrative 10-K của công ty nào?
Thân mến,
Chandler
Tiếp theo: Khoảng thời gian này tôi cũng bắt đầu khám phá multi-agent framework — CrewAI ấn tượng với tôi cho việc tạo podcast, cuối cùng trở thành DIALØGUE.





