Skip to content
··閱讀時間3分鐘

我點樣一個人做 Full-Time 嘅同時 Build 咗 7 個 Module 嘅 Course

一個人。七個 modules。三個鐘 video。十五個 templates。18 種 layout type 嘅 custom slide pipeline。Professional voice clone。全部喺做緊 VP 嘅 full-time job 期間完成。呢個就係 AI-first operating model 用喺自己身上嘅樣。

我不斷同人講 AI-first operating model 可以令一個細 team produce 到以前需要大好多 team 先做到嘅 level。然後我諗,可能我應該 prove 吓。

所以呢個就係我點樣 build「AI-Native Media Operations: From Workflow to Operating Model」嘅故事 — 一個 7-module、~3 小時嘅 video course,有 15 個 templates、companion guides、50 頁 deep-dive PDF、同 executive resources — 全部喺做 VP full-time job 嘅同時完成。

我 share 呢啲唔係為咗 impress 邊個,係因為 production process 本身就係 course 教嘅 operating model 嘅 case study。同時因為我覺得人哋 underestimate 一個人加啱嘅 AI tools 可以做到幾多 — 但同時亦 overestimate 有幾 easy。


Pipeline

Course production pipeline 有四個 phases。每一個都係 AI-augmented,每一個都需要喺特定 points 有 real human judgment。

Phase 1:Content & Slides

我用 Markdown 寫 course content — 每個 module 一個 file,用特定 format:**On screen:** 係 audience 睇到嘅嘢,**Speaker notes:** 係 voiceover script,**Companion notes:** 係比 video 更加深入嘅 written companion。

Slide rendering 用咗我 build 嘅 custom pipeline:Markdown → 18 種唔同嘅 layout types(title、flow-diagram、stat-callout、two-column、checklist、before-after、timeline、同其他)→ 用 warm editorial design system render 嘅 HTML。

AI handle 咗乜嘢: 由我嘅 outlines draft initial slide content、suggest layout types、generate CSS 同 rendering code。

邊度需要 human judgment: 每一個 content decision。Include 邊啲 frameworks、cut 邊啲。點 sequence 個 argument。乜嘢 slide 放唔落應該去 companion guide。Design system 本身 — 揀 warm light mode 而唔係 dark-mode default、color palette、font pairing。

Phase 2:Voice

Narration 用 ElevenLabs Professional Voice Clone — 我嘅真聲,由我錄嘅 samples clone 出嚟嘅。唔係 generic AI 聲。係我嘅聲,由我寫嘅 speaker notes generate 嘅。

Pipeline generate audio 帶 word-level timestamps,Phase 3 用嚟 sync slide transitions 同 narration。有 progressive reveals 嘅 slides(bullet lists、checklists、flow diagrams)一個 fragment 一個 fragment 前進,timed 到講緊嘅 words。

AI handle 咗乜嘢: 所有 audio generation、word-level timestamp extraction、fallback 嘅 silence detection。

邊度需要 human judgment: 寫 speaker notes。每個 voiceover script 都經過 multiple revisions — 唔係因為 AI generate 唔到,係因為「technically correct」同「聽落好似我真係會咁講」係兩樣嘢。我仲要 tune voice settings:stability、similarity、style、speed。頭幾次試聽落好 robotic。要好多次 iteration 先搵到聽落 natural 嘅 settings。

Phase 3:Video Assembly

每個 rendered slide 嘅 screenshots + 對應 audio segments → assemble 成 final MP4 videos。Fragment sync system 喺 natural word boundaries split audio,令 progressive reveals 感覺 timed to narration,唔係 arbitrarily chopped。

AI handle 咗乜嘢: 成個 assembly pipeline — screenshot capture、word boundaries 嘅 audio splitting、ffmpeg assembly、silence padding。

邊度需要 human judgment: Review final videos。Catch 到 fragment timing 唔啱嘅 slides。Identify 需要 voiceover smoothing 嘅 transitions。淨係 last round 就有大約 29 個 transition fixes across 7 個 modules。

Phase 4:Materials

十五個 templates、50 頁 deep-dive guide、每個 module 嘅 companion guides、executive resources(board presentation template、delegation guide、ROI worksheet、executive briefs)。

AI handle 咗乜嘢: 大部分 templates 嘅 first drafts、companion guide structure、formatting。

邊度需要 human judgment: 所有 content decisions。Workflow Audit template 唔係 generic AI output — 係用 20 年觀察 teams 做 workflow audit 做錯嚟 design 嘅。ROI Worksheet 入面有我自己 products 嘅 real cost data 因為我唔想 invent numbers。每個 template 都經過 multiple revision passes。


實際用咗幾多 Time

我冇 exact hour count 因為我係喺幾個月嘅 evenings 同 weekends 做,同時做 full-time VP。但 rough breakdown 係:

  • Content writing 同 revision: 最多 time。幾個星期。Course content 經過 multiple review cycles — external reviewers 嘅 feedback significantly 改變咗 Modules 6 同 7 嘅 structure。
  • Slide pipeline development: Rendering system、layout types 同 design system 需要時間 build — 但 future courses 可以 reuse。
  • Audio generation: Voice settings tune 好之後好快。每個 module generation + spot-checking 大約一兩個鐘。
  • Video assembly: 大部分 automated。Bottleneck 係 review time 唔係 generation time。
  • Templates 同 materials: 成套嘢幾日。

如果我請 production team — designer、video editor、voice talent、template designer — 會 cost 幾萬蚊美金同幾個月 coordination。而家只係 API credits 同我嘅 time。


60/40 Split

上個月嘅 blog post 我寫咗 60/40 principle:AI 帶你去到大約 60%,剩低 40% 係 human refinement。Build 呢個 course confirm 咗呢件事。

AI handle production — rendering、audio generation、video assembly、first drafts。呢個係 60%。Human handle judgment — content decisions、design taste、quality review、revision after revision。呢個係 40%。

40% 先係所有 value 所在。冇佢,呢個會係一個 technically complete 但 experientially hollow 嘅 AI-generated course。有佢,每一個 slide 都有存在嘅原因,每個 speaker note 聽落好似我真係會喺 meeting 入面講嘅嘢,每個 template 都係 design 嚟畀人禮拜一朝早真係用嘅。


點解我要講呢啲

因為 course 教嘅係 AI-first operating model,我覺得 fair 嘅係 show 到我 practice what I teach。

我喺 course 入面 disclose 咗 production method — Module 1 有個 transparency slide exactly 講 course 點做嘅。Voice 係 PVC。Slides 係 custom pipeline。Companions 同 Claude co-written。我冇收埋呢啲嘢。

如果一個人做緊 VP full-time job 可以 produce 一個 7-module course,你嘅 20 人 team 用同一個 operating model 可以做到 dramatically 更多。Tools 一樣。Leverage 更大。

呢個就係 thesis。呢個 course 就係 proof。


我會點做唔同

  • 先做 design system,唔好先做 content。 我喺 production 中途先 design slide system,搞到要 retrofit 之前嘅 modules。下次:先 design system,然後寫 fit 佢嘅 content。
  • External review 早啲做。 Reshape Modules 6-7 嘅 reviewer feedback 嚟得太遲。如果 Module 3 之後就收到,成個 course 會 tighter。
  • Speaker notes 難過 slides。 我 underestimate 咗 voiceover scripts 需要幾多 revision。「寫得清楚」同「寫嚟講」係唔同嘅 skills。

就係咁。如果你諗緊 build course、knowledge product、或者任何 content-heavy project — tools 喺度。Operating model work。記住 budget 嗰 40% 就得。

Cheers, Chandler

繼續閱讀

產品我嘅旅程
聯繫
語言
偏好設定