Skip to content
··3 मिनट पढ़ने का समय

S&P500 Agent MVP Launch: SEC Data से Grounded Financial Questions का जवाब देना

मैंने एक AI agent बनाया जो 10 साल के SEC data का उपयोग करके financial questions का जवाब देता है — और आखिरकार अपनी streaming challenges solve कीं ताकि यह real-time और verifiable हो।

Update (2026): S&P 500 Agent retire हो गया है। यह post historical purposes के लिए original MVP launch को document करती है। Sydney अब blog content और Chandler के products पर focus करती है। Current Sydney को try करें →


नमस्ते,

मुझे खुशी से share करना है कि S&P500 Agent पर अपने struggle के बारे में मेरी last post के बाद से, MVP version ready है! :D मुझे बताएं कि यह minimum viable product क्या कर सकता है और यह कैसे बना।

यह MVP क्या कर सकता है?

  1. एक दशक के Data में Dive: Agent का database SEC EDGAR को submit किए गए company facts के पिछले 10 साल शामिल करता है।
  2. Reliable Answers: क्योंकि यह SEC को submit किए गए actual facts से grounded है, आप answers की quality पर trust कर सकते हैं।
  3. Fact-Check Friendly: Agent हमेशा अपने final answer में reference data शामिल करता है।
  4. Tricky Questions Handle करता है: यह semi-complex queries tackle कर सकता है जैसे "Apple और Microsoft के revenue की 2020-2022 के बीच तुलना करें?" या "Microsoft का operating margin 2020 से 2022 तक कैसे बदला?" ये semi-complex क्यों हैं? Agent को इन broad questions को छोटे questions में "reason" करके break down करना होगा।
  5. Up-to-Date (Almost): Cut-off date August 2024 है।
  6. HTML streaming: Streaming काम करती है! Yay! :D जैसा कि निकला, DRF और React natively streaming support करते हैं, इसलिए langgraph के साथ, हमारे पास एक responsive conversation flow है।

Hood के नीचे एक झलक

अगर आप अभी भी पढ़ रहे हैं, तो शायद आप और जानना चाहते हैं कि मैंने यह MVP कैसे बनाया।

  1. Slimmed Down Data: Full 10-K या 10-Q reports के बजाय, मैं SEC को submit किए "Facts" use कर रहा हूँ। इसका मतलब है कि database significantly smaller है — 2GB से कम!
  "AccruedRoyaltiesCurrent": \{
    "label": "Accrued Royalties, Current"
  \},
  "AdditionalPaidInCapitalCommonStock": {
    "label": "Additional Paid in Capital, Common Stock"

इसका यह भी मतलब है कि मुझे large scale, fast vector store की ज़रूरत नहीं है, जो बहुत expensive है ($600-$700/month की range में)।

2. Cloud SQL PostgreSQL as main database: मैं Cloud SQL PostgreSQL को main database के रूप में use कर रहा हूँ। चूँकि मैं पहले से GCP से Cloud Run CI/CD use कर रहा था, Google के offerings के साथ stick करना sense बनता था।

3. React Meets Django: यह React frontend और Django Rest Framework (DRF) backend को Cloud SQL database के साथ successfully deploy करने का मेरा पहला rodeo है।

4. Smart Agent: Agent Langgraph का उपयोग करके built है। इसके दो main tools हैं: Google Search और एक Financial Question Answering tool।

5. SQL queries कैसे generate होती हैं?

Companies जब SEC को financial facts submit करती हैं, तो वे financial concepts/terminologies use करती हैं जो normal लोगों को intuitive नहीं हैं।

उदाहरण के लिए, "revenue" को multiple facts से represent किया जा सकता है:

  • Revenue
  • Revenue from Contract with Customer, Excluding Assessed Tax
  • Revenue from related Parties
  • Deferred Revenue
  • आदि...

इसलिए मैं most relevant facts या labels find करने और इन्हें LLM model को वापस भेजने के लिए Weaviate के साथ hybrid search use करता हूँ।

6. Break Down Testing Key है

Production में final deployment से पहले, मैंने process को steps में break down किया और प्रत्येक को test किया।

आगे क्या है?

  1. Cold start problem fix करें: अभी, पहला question answer करने में थोड़ा time लगता है।
  2. Users को interim steps दिखाएं: Complex questions के जवाब देते समय, agent को final answer generate करने में time लगता है।
  3. 10-K/10-Q text content से Enrich करें: ज़्यादा relevant textual content शामिल करने की plan है।

MVP version को try करें और बताएं क्या लगा! क्या आपने financial data या SEC filings के साथ कुछ बनाने की कोशिश की है? मुझे आपके experience के बारे में सुनना अच्छा लगेगा — नीचे comment drop करें या directly email करें (chandler@chandlernguyen.com)।

शुभकामनाओं सहित, Chandler

पढ़ना जारी रखें

मेरा सफ़र
जुड़ें
भाषा
सेटिंग्स