Skip to content
··阅读时间1分钟

我如何在全职工作期间独自制作了7个模块的课程

一个人。七个模块。三小时视频。十五个模板。十八种布局类型的自定义幻灯片流水线。专业语音克隆。所有这些都在保持VP全职工作的同时完成。这就是AI-first运营模式应用到自己身上时的样子。

我一直跟别人说,AI-first运营模式能让小团队达到过去需要大得多的团队才能实现的产出水平。然后我意识到,也许我应该亲自证明这一点。

以下是我制作"AI-Native Media Operations: From Workflow to Operating Model"的故事——一门7个模块、约3小时视频的课程,附带15个模板、伴读指南、一份50页的深度PDF指南和高管资源——所有这些都是在全职担任VP期间完成的。

我分享这些不是为了给谁留下深刻印象,而是因为制作过程本身就是课程所教授的运营模式的案例研究。同时,我认为人们低估了一个人加上合适的AI工具能做到什么——同时也高估了这件事有多容易。


流水线

课程制作流水线分为四个阶段。每个阶段都有AI增强,每个阶段都有需要真正人类判断的关键节点。

第一阶段:内容与幻灯片

我用Markdown写课程内容——每个模块一个文件,采用特定格式:**On screen:**是观众看到的内容,**Speaker notes:**是配音脚本,**Companion notes:**是比视频更深入的伴读指南。

幻灯片渲染使用我自建的流水线:Markdown → 18种布局类型(标题、流程图、数据亮点、双栏、清单、前后对比、时间线等) → 以温暖的编辑风格设计系统渲染的HTML。

AI负责的部分: 从大纲起草初始幻灯片内容、建议布局类型、生成CSS和渲染代码。

需要人类判断的部分: 所有内容决策。选择纳入哪些框架、删掉哪些。论证的顺序编排。判断什么对幻灯片来说太多了、应该放到伴读指南里。设计系统本身——选择温暖的浅色模式而非默认的暗色模式、配色方案、字体搭配。

第二阶段:语音

旁白使用ElevenLabs的Professional Voice Clone——从我录制的样本中克隆的我的真实声音。不是通用的AI语音。是从我写的讲稿中生成的我的声音。

流水线生成带有词级时间戳的音频,第三阶段用这些时间戳将幻灯片切换与旁白同步。带有渐进展示的幻灯片(要点列表、清单、流程图)会逐个片段推进,与正在说的话同步。

AI负责的部分: 所有音频生成、词级时间戳提取、作为后备的静音检测。

需要人类判断的部分: 讲稿的撰写。每份配音脚本都经历了多次修改——不是因为AI生成不了,而是因为"技术上正确"和"听起来像是我真的会说的话"是两回事。我还需要调整语音参数:稳定性、相似度、风格、速度。最初的尝试听起来很机械。找到自然的设置经过了好几轮迭代。

第三阶段:视频组装

每张渲染好的幻灯片截图 + 对应的音频片段 → 组装成最终的MP4视频。片段同步系统在自然的词边界处分割音频,这样渐进展示是配合旁白的节奏推进的,而不是被任意切断。

AI负责的部分: 整条组装流水线——截图捕获、在词边界处分割音频、ffmpeg组装、静音填充。

需要人类判断的部分: 审看最终视频。找出片段时序感觉不对的幻灯片。识别需要配音平滑处理的转场。仅在最后一轮中,7个模块就有大约29处转场修正。

第四阶段:教材

15个模板、50页深度指南、每个模块的伴读指南、高管资源(董事会演示模板、授权指南、ROI工作表、高管简报)。

AI负责的部分: 大多数模板的初稿、伴读指南结构、格式排版。

需要人类判断的部分: 所有内容决策。Workflow Audit模板不是一个泛泛的AI输出——它是基于20年来观察团队做工作流审计时常犯错误的经验设计的。ROI工作表包含了我自己产品的真实成本数据,因为我不想编造数字。每个模板都经过了多轮修改。


实际花了多少时间

我没有精确的小时数,因为这是在数个月里利用晚间和周末完成的,同时保持VP的全职工作。大致的分配如下:

  • 内容撰写和修改: 花时间最多。好几周。课程内容经历了多轮审核——外部审稿人的反馈显著改变了模块6和7的结构。
  • 幻灯片流水线开发: 渲染系统、布局类型和设计系统的构建花了不少时间——但它们可以复用于未来的课程。
  • 音频生成: 语音设置调好之后就很快了。每个模块生成加抽查大约1-2小时。
  • 视频组装: 基本自动化。瓶颈是审看时间,不是生成时间。
  • 模板和教材: 全套大约几天时间。

如果我请了制作团队——设计师、视频编辑、配音演员、模板设计师——这会花费数万美元和数月的协调时间。取而代之的是,只花了API额度和我的时间。


60/40法则

上个月的博客文章中,我写过60/40原则:AI大约能完成60%,剩下的40%是人类的精细打磨。制作这门课程验证了这一点。

AI负责的是生产环节——渲染、音频生成、视频组装、初稿。这是60%。人类负责的是判断——内容决策、设计品味、质量审核、一轮又一轮的修改。这是40%。

所有的价值都在40%这边。没有它,这只会是一门技术上完整但体验上空洞的AI生成课程。有了它,每张幻灯片都有存在的理由,每段讲稿听起来都像是我在会议上真的会说的话,每个模板都是为让人在周一早上真正能用而设计的。


为什么要讲这些

因为这门课程教的是AI-first运营模式,我觉得展示自己言行一致是合理的。

我在课程中公开了制作方法——模块1有一张透明度幻灯片,准确说明了课程是如何制作的。语音是PVC。幻灯片是自定义流水线。伴读指南与Claude共同撰写。我没有隐瞒任何东西。

如果一个人能在全职担任VP的同时制作一门7个模块的课程,那你的20人团队用同样的运营模式,能做到的比你想象的多得多。工具是一样的。杠杆更大。

这就是论点。这门课程就是证明。


如果再来一次,我会改变什么

  • 先做设计系统,而不是先写内容。 我在制作过程中才设计了幻灯片系统,不得不回过头去修改早期模块。下次:先做设计系统,再写内容。
  • 更早获取外部评审。 导致模块6-7重构的审稿人反馈来得太晚了。如果模块3之后就拿到那些反馈,整门课程会更紧凑。
  • 讲稿比幻灯片更难写。 我低估了配音脚本需要多少轮修改。"写得清楚"和"写给口语表达用"是不同的技能。

以上就是我想说的。如果你在考虑制作一门课程、知识产品或任何内容密集型项目——工具已经在那里了,运营模式是可行的。只是别忘了为那40%留好预算。

Cheers, Chandler

继续阅读

产品我的旅程
联系
语言
偏好设置