フルタイムで働きながら7モジュールのコースを一人で作った方法
一人。7モジュール。3時間の動画。15のテンプレート。18のレイアウトタイプを持つカスタムスライドパイプライン。プロフェッショナルボイスクローン。すべてVPとしてのフルタイムの仕事を続けながら。これが、AI-firstオペレーティングモデルを自分自身に適用するとどうなるかです。
AI-firstオペレーティングモデルなら、小さなチームでもかつてはずっと大きなチームが必要だったレベルの成果を出せる——そう人に言い続けてきました。そして、自分で証明すべきだと気づきました。
これは「AI-Native Media Operations: From Workflow to Operating Model」——7モジュール、約3時間の動画コースに15のテンプレート、コンパニオンガイド、50ページの詳細PDFガイド、エグゼクティブ向けリソース付き——をVPとしてフルタイムで働きながら作った話です。
これを共有するのは誰かを感心させるためではありません。制作プロセスそのものが、コースが教えるオペレーティングモデルのケーススタディだからです。そして、一人と適切なAIツールがあれば何が可能かを過小評価している人が多い一方で、どれだけ簡単かは過大評価していると思うからです。
パイプライン
コース制作のパイプラインには4つのフェーズがあります。すべてAIで拡張されており、それぞれに本当の人間の判断が必要なポイントがありました。
フェーズ1:コンテンツ&スライド
コースの内容をMarkdownで書きました。1モジュール1ファイル、特定のフォーマットで:**On screen:**は視聴者に見せるもの、**Speaker notes:**はナレーションの台本、**Companion notes:**は動画より踏み込んだ内容を書くコンパニオンガイド用です。
スライドのレンダリングには自作のカスタムパイプラインを使っています。Markdown → 18種類のレイアウトタイプ(タイトル、フローダイアグラム、統計コールアウト、2カラム、チェックリスト、ビフォーアフター、タイムラインなど) → 温かみのあるエディトリアルデザインシステムで描画されたHTML。
AIが担当したこと: アウトラインからの初期スライドコンテンツのドラフト作成、レイアウトタイプの提案、CSSとレンダリングコードの生成。
人間の判断が必要だったこと: すべてのコンテンツ決定。どのフレームワークを含め、どれを削るか。議論の順序構成。スライドには多すぎてコンパニオンガイドに回すべき内容の判断。デザインシステムそのもの——ダークモードのデフォルトではなくウォームなライトモードを選んだこと、カラーパレット、フォントの組み合わせ。
フェーズ2:ボイス
ナレーションにはElevenLabsのProfessional Voice Cloneを使っています。録音したサンプルから私の実際の声をクローンしたものです。汎用的なAI音声ではありません。私が書いたスピーカーノートから生成された、私の声です。
パイプラインは単語レベルのタイムスタンプ付きで音声を生成し、フェーズ3がこれを使ってスライドの切り替えをナレーションに同期させます。プログレッシブリビール(箇条書き、チェックリスト、フローダイアグラム)のあるスライドは、話されている言葉に合わせてフラグメントごとに進みます。
AIが担当したこと: すべての音声生成、単語レベルのタイムスタンプ抽出、フォールバックとしての無音検出。
人間の判断が必要だったこと: スピーカーノートの執筆。すべてのナレーション台本を何度も推敲しました。AIが生成できなかったからではなく、「技術的に正しい」と「自分が実際に言いそうな言い方」は違うものだからです。また、音声設定のチューニングも必要でした。安定性、類似度、スタイル、速度。最初の試みはロボットのように聞こえました。自然に聞こえる設定を見つけるまで何度もイテレーションしました。
フェーズ3:動画のアセンブル
レンダリングされた各スライドのスクリーンショット+対応する音声セグメント → 最終的なMP4動画として組み立てます。フラグメント同期システムが自然な単語の区切りで音声を分割するため、プログレッシブリビールがナレーションに合わせてタイミングよく進みます。任意のタイミングでぶつ切りにされるのではなく。
AIが担当したこと: アセンブルパイプライン全体——スクリーンショット取得、単語境界での音声分割、ffmpegによる組み立て、無音パディング。
人間の判断が必要だったこと: 最終動画のレビュー。フラグメントのタイミングが不自然なスライドを見つけること。ナレーションのスムージングが必要なトランジションの特定。最後のラウンドだけで7モジュール全体で約29のトランジション修正が必要でした。
フェーズ4:教材
15のテンプレート、50ページの詳細ガイド、各モジュールのコンパニオンガイド、エグゼクティブ向けリソース(取締役会プレゼンテーションテンプレート、委任ガイド、ROIワークシート、エグゼクティブブリーフ)。
AIが担当したこと: ほとんどのテンプレートの初稿、コンパニオンガイドの構成、フォーマット。
人間の判断が必要だったこと: すべてのコンテンツ決定。Workflow Auditテンプレートは汎用的なAIの出力ではありません。チームがワークフロー監査をしてうまくいかなかった20年の経験から設計したものです。ROIワークシートには、数字を作り上げたくなかったので、自分のプロダクトの実際のコストデータを含めています。すべてのテンプレートが何度も推敲されました。
実際にかかったもの(時間)
正確な時間は分かりません。数ヶ月にわたって夜と週末にフルタイムのVP業務と並行して作業していたからです。ただ、おおまかな内訳はこうです:
- コンテンツの執筆と推敲: 最も時間がかかりました。数週間。コースの内容は何度もレビューサイクルを経ました。外部レビュアーからのフィードバックでモジュール6と7の構成は大きく変わりました。
- スライドパイプラインの開発: レンダリングシステム、レイアウトタイプ、デザインシステムの構築には時間がかかりましたが、将来のコースで再利用できます。
- 音声生成: 音声設定のチューニングが終われば速いです。1モジュールにつき生成+スポットチェックで1〜2時間。
- 動画のアセンブル: ほぼ自動化されています。ボトルネックは生成時間ではなくレビュー時間でした。
- テンプレートと教材: フルセットで数日。
もし制作チームを雇っていたら——デザイナー、動画編集者、声優、テンプレートデザイナー——数万ドルのコストと何ヶ月ものコーディネーションが必要だったでしょう。代わりに必要だったのは、APIのクレジットと私の時間だけでした。
60/40の法則
先月のブログ記事で、60/40の原則について書きました。AIは約60%まで持っていってくれて、残りの40%は人間による磨き上げ。このコースの制作はそれを裏付けました。
AIが担当したのはプロダクション——レンダリング、音声生成、動画のアセンブル、初稿。これが60%です。人間が担当したのは判断——コンテンツの決定、デザインのテイスト、品質レビュー、何度もの推敲。これが40%です。
すべての価値は40%の側にあります。これがなければ、技術的には完成していても体験としては空っぽなAI生成コースになっていたでしょう。これがあることで、すべてのスライドには存在する理由があり、すべてのスピーカーノートは会議で自分が実際に言いそうなことに聞こえ、すべてのテンプレートは月曜の朝に実際に使えるように設計されています。
なぜこの話をしているのか
コースがAI-firstオペレーティングモデルを教えているので、自分が教えていることを実践していると示すのはフェアだと思ったからです。
制作方法はコース内で開示しています。モジュール1に透明性のスライドがあり、コースがどのように作られたかを正確に説明しています。音声はPVC。スライドはカスタムパイプライン。コンパニオンはClaudeと共同執筆。何も隠していません。
一人がVPとしてフルタイムで働きながら7モジュールのコースを制作できるなら、20人のチームは同じオペレーティングモデルで、あなたが思っている以上にはるかに多くのことができます。ツールは同じです。レバレッジはもっと大きい。
それがテーゼです。このコースがその証拠です。
次にやるなら変えること
- コンテンツではなくデザインシステムから始める。 制作の途中でスライドシステムを設計したため、初期のモジュールを後から修正する必要がありました。次は:デザインシステムが先、それからコンテンツを書く。
- 外部レビューをもっと早く。 モジュール6-7を作り直すきっかけになったレビュアーのフィードバックはプロセスの後半に来ました。モジュール3の後にそのフィードバックを得ていたら、コース全体がもっと引き締まったものになっていたでしょう。
- スピーカーノートはスライドより難しい。 ナレーション台本にどれだけ推敲が必要かを過小評価していました。「分かりやすく書く」と「話し言葉として書く」は別のスキルです。
以上です。コース、ナレッジプロダクト、その他コンテンツ量の多いプロジェクトを作ろうと考えている方へ——ツールはそこにあります。オペレーティングモデルは機能します。ただ、40%の分の予算は確保しておいてください。
Cheers, Chandler





