一個禮拜嘅回顧:我用 Google Gen App Builder 嘅經驗同學到嘅嘢
我花咗一個禮拜測試 Google 嘅 Gen App Builder,發現改善 chatbot 回覆嘅關鍵:畀佢非結構化數據,再用 ChatGPT 幫手整理 450+ 篇 blog post 做啱格式。
呢篇文章寫於2023年,部分內容可能已經有變化。
2026年2月更新
Google Gen App Builder chatbot 已經唔再喺呢個網站運行。 我下面講嘅嗰啲問題——唔識綜合內容、回覆過時——正正就係推動我自己砌一個嘅原因。經過好多次迭代(Google agent、OpenAI API、LangChain、Weaviate),我最終做咗 Sydney,一個 AI 助手,終於做到我一直想要嘅嘢:綜合 486 篇 blog post,用我嘅語氣回答。
以下為 2023 年 9 月原文,保留作參考。
上個禮拜,我好快咁喺個 blog 上面用 Google Gen App Builder 部署咗一個 chatbot。雖然我好鍾意成個過程幾快幾易(加上免費 credit——真係正),但個 chatbot 有幾個地方可以改善,對我嚟講最大嘅問題係點樣令個 chatbot 可以「綜合」多篇文章嘅內容,而唔係單純將用戶嘅問題同舊內容做配對。我唔知呢個期望係咪太高,但係呢,我想試吓。
以下係我玩咗一段時間之後學到嘅嘢:
1. 將你嘅內容以非結構化數據加入 bot 確實有幫助
我講嘅係咩意思呢?除咗畀 Google 嘅爬蟲索引你嘅網站之外,你仲可以用「Data store」將所有內容加入個 bot。
Data store 建立之後,你可以喺 Agent settings 入面將新 store 加入 chatbot
做完之後,我發現個 chatbot 嘅答案好咗好多。佢似乎「知道」多咗啲內容。
Google 提供咗指南喺呢度,睇「Unstructured data store」同「Upload with metadata」。
但係⋯⋯我點樣將 450+ 篇 blog post 轉換成要求嘅格式,包括 JSON Line 檔案呢?:P
2. 用 ChatGPT 幫手做 data cleaning 同準備
我唔係一個技術人員(好啦,暫時未係 :D),所以我只能夠將 blog 內容從 WordPress 匯出做 .XML 檔案。我要靠 ChatGPT 幫我寫 code 去清理同準備數據做啱格式。
我鍾意 ChatGPT 呢方面,因為有咗「custom instructions」,ChatGPT 對我嘅情況有基本了解,可以提供好詳細嘅 step-by-step 指南。
第一次我試用 ChatGPT 將 .XML 檔案轉做 .HTML 同 .JSON Line 格式嗰陣,我係咁寫嘅:「The blog uses wordpress. I can export all published posts from this blog using WordPress. I need to prepare the data so that it can be used to train a large language model. What should I do to prepare this data?」
跟住所有步驟做完之後,用 ChatGPT 提供嘅相關 script 上載數據去 Gen App Builder,我遇到好多 error。基本上數據唔係 Google 預期嘅格式,所以佢冇辦法 ingest/integrate 啲數據。
所以我學到一個好有價值嘅教訓。我應該一開始就將成份 Google Gen App Builder 文檔畀 ChatGPT 睇。
畀 ChatGPT 睇實際嘅文檔指南
我直接「copy and paste」成份 Google Cloud 嘅文檔指南畀 ChatGPT,叫佢幫我寫 Python code 將數據從 .XML 轉做要求嘅 .HTML 同 .JSON line 格式。今次因為 ChatGPT 理解最終格式同 template,佢生成嘅 code 好好多,上載嗰陣冇乜 error。
3. 基本嘅 Python 知識確實有幫助
我喺 Python 方面真係超級新手,所以大部分實際 coding 都要靠 ChatGPT。不過,基本嘅 Python 知識會好有幫助,因為你知道要叫 ChatGPT 做咩。佢超勁嘅,但佢唔知你唔知嘅嘢同你嘅開發環境。
例如,ChatGPT 生成嘅 Python code 成日漏咗「shebang」行。因為我知道呢樣嘢,我會叫 ChatGPT 加返嗰行喺 code 入面。同埋當 ChatGPT 叫你用 command line 做嘢,你大概知道點解。
4. 2023年10月更新
自從我發佈呢篇文章之後,我成功用 OpenAI API 砌咗自己嘅 chatbot。個 chatbot 可以畀你同我 blog 上面所有嘅歷史內容互動,直到 2023 年 9 月底。佢最大嘅優勢係可以綜合同一個話題嘅多篇文章嘅內容,呢個係現成方案最大嘅問題。你可以直接喺呢度試吓個 chatbot,或者睇吓我篇文章「我點樣喺零 coding 經驗嘅情況下砌咗自己嘅 Chatbot:學到嘅嘢」。
我就講到呢度。你試過用 Gen AI 砌 chatbot 未?好想聽吓你嘅經驗 :)
祝好,
Chandler








