Skip to content
··5 Min. Lesezeit

Wie ich einen Kurs mit 7 Modulen alleine gebaut habe — neben meinem Vollzeitjob

Eine Person. Sieben Module. Drei Stunden Video. Fuenfzehn Templates. Eine massgeschneiderte Slide-Pipeline mit 18 Layout-Typen. Professioneller Voice-Clone. Alles neben meinem Vollzeitjob als VP. So sieht das AI-First Betriebsmodell aus, wenn man es auf sich selbst anwendet.

Ich sage den Leuten staendig, dass das AI-First Betriebsmodell einem kleinen Team ermoeglicht, auf einem Niveau zu produzieren, das frueher ein viel groesseres Team erfordert haette. Dann wurde mir klar, dass ich das wahrscheinlich beweisen sollte.

Hier ist also die Geschichte, wie ich "AI-Native Media Operations: From Workflow to Operating Model" gebaut habe — einen Kurs mit 7 Modulen, ca. 3 Stunden Video, 15 Templates, Begleitguides, einem 50-seitigen Deep-Dive-PDF und Executive-Ressourcen — neben meinem Vollzeitjob als VP.

Ich teile das nicht, um jemanden zu beeindrucken, sondern weil der Produktionsprozess selbst eine Fallstudie des Betriebsmodells ist, das der Kurs lehrt. Und weil ich glaube, dass Menschen unterschaetzen, was mit einer Person und den richtigen AI-Tools moeglich ist — waehrend sie gleichzeitig ueberschaetzen, wie einfach es ist.


Die Pipeline

Die Kursproduktions-Pipeline hat vier Phasen. Jede ist KI-unterstuetzt, und jede erforderte an bestimmten Stellen echtes menschliches Urteilsvermoegen.

Phase 1: Inhalte & Slides

Ich habe die Kursinhalte in Markdown geschrieben — eine Datei pro Modul, mit einem bestimmten Format: **On screen:** fuer das, was das Publikum sieht, **Speaker notes:** fuer das Voiceover-Skript, und **Companion notes:** fuer den schriftlichen Begleittext, der tiefer geht als das Video.

Das Slide-Rendering nutzt eine massgeschneiderte Pipeline, die ich gebaut habe: Markdown → 18 verschiedene Layout-Typen (Title, Flow-Diagram, Stat-Callout, Two-Column, Checklist, Before-After, Timeline und mehr) → gerendertes HTML mit einem warmen, redaktionellen Design-System.

Was KI uebernommen hat: Erste Entwuerfe der Slide-Inhalte aus meinen Gliederungen, Vorschlaege fuer Layout-Typen, Generierung des CSS und Rendering-Codes.

Was menschliches Urteilsvermoegen erforderte: Jede inhaltliche Entscheidung. Welche Frameworks aufgenommen und welche gestrichen werden. Wie die Argumentation sequenziert wird. Was zu viel fuer eine Folie ist und stattdessen in den Begleitguide gehoert. Das Design-System selbst — die Wahl des warmen Light-Mode statt des dunklen Standards, die Farbpalette, die Schriftkombination.

Phase 2: Stimme

Die Erzaehlung verwendet ElevenLabs Professional Voice Clone — meine echte Stimme, geklont aus Aufnahmen, die ich gemacht habe. Es ist keine generische KI-Stimme. Es ist meine Stimme, generiert aus den Speaker Notes, die ich geschrieben habe.

Die Pipeline generiert Audio mit Wort-Level-Timestamps, die Phase 3 nutzt, um Slide-Uebergaenge mit der Erzaehlung zu synchronisieren. Slides mit progressiven Einblendungen (Aufzaehlungen, Checklisten, Flow-Diagramme) ruecken Fragment fuer Fragment vor, getaktet zu den gesprochenen Worten.

Was KI uebernommen hat: Die gesamte Audiogenerierung, Wort-Level-Timestamp-Extraktion, Stille-Erkennung als Fallback.

Was menschliches Urteilsvermoegen erforderte: Das Schreiben der Speaker Notes. Jedes Voiceover-Skript durchlief mehrere Ueberarbeitungen — nicht weil die KI es nicht generieren konnte, sondern weil "technisch korrekt" und "klingt wie etwas, das ich tatsaechlich sagen wuerde" verschiedene Dinge sind. Ich musste auch die Stimmeinstellungen tunen: Stability, Similarity, Style, Speed. Die ersten Versuche klangen roboterhaft. Es brauchte mehrere Iterationen, um Einstellungen zu finden, die natuerlich klingen.

Phase 3: Video-Zusammenbau

Screenshots jeder gerenderten Folie + die entsprechenden Audio-Segmente → zusammengefuegt zu finalen MP4-Videos. Das Fragment-Sync-System teilt Audio an natuerlichen Wortgrenzen, damit progressive Einblendungen sich auf die Erzaehlung abgestimmt anfuehlen und nicht willkuerlich geschnitten wirken.

Was KI uebernommen hat: Die gesamte Assembly-Pipeline — Screenshot-Aufnahme, Audio-Splitting an Wortgrenzen, ffmpeg-Zusammenbau, Stille-Padding.

Was menschliches Urteilsvermoegen erforderte: Die Durchsicht der fertigen Videos. Slides erkennen, bei denen das Fragment-Timing sich falsch anfuehlte. Uebergaenge identifizieren, die Voiceover-Glaettung brauchten. Etwa 29 Uebergangs-Korrekturen ueber alle 7 Module in der letzten Runde allein.

Phase 4: Materialien

Fuenfzehn Templates, ein 50-seitiger Deep-Dive-Guide, Begleitguides fuer jedes Modul, Executive-Ressourcen (Board-Praesentation-Template, Delegations-Guide, ROI-Worksheet, Executive-Briefs).

Was KI uebernommen hat: Erste Entwuerfe der meisten Templates, Begleitguide-Struktur, Formatierung.

Was menschliches Urteilsvermoegen erforderte: Alle inhaltlichen Entscheidungen. Das Workflow-Audit-Template ist kein generischer KI-Output — es ist auf Basis von 20 Jahren Erfahrung entworfen, in denen ich Teams bei Workflow-Audits beobachtet habe und gesehen habe, was schiefgeht. Das ROI-Worksheet enthaelt echte Kostendaten aus meinen eigenen Produkten, weil ich keine Zahlen erfinden wollte. Jedes Template durchlief mehrere Ueberarbeitungsrunden.


Was es tatsaechlich gekostet hat (Zeit)

Ich habe keinen genauen Stundencount, weil ich daran abends und an Wochenenden ueber mehrere Monate gearbeitet habe, neben meiner Vollzeit-VP-Rolle. Aber hier ist die ungefaehre Aufschluesselung:

  • Inhalt schreiben und ueberarbeiten: Am meisten Zeit. Wochen. Der Kursinhalt durchlief mehrere Review-Zyklen — externes Feedback veraenderte die Struktur der Module 6 und 7 erheblich.
  • Slide-Pipeline-Entwicklung: Das Rendering-System, die Layout-Typen und das Design-System brauchten Zeit zum Aufbau — sind aber fuer zukuenftige Kurse wiederverwendbar.
  • Audiogenerierung: Schnell, sobald die Stimmeinstellungen optimiert waren. Ein bis zwei Stunden pro Modul fuer Generierung + Stichproben.
  • Video-Zusammenbau: Groesstenteils automatisiert. Die Durchsicht war der Engpass, nicht die Generierung.
  • Templates und Materialien: Mehrere Tage fuer das komplette Set.

Haette ich ein Produktionsteam engagiert — Designer, Video-Editor, Sprecher, Template-Designer — haette das Zehntausende von Dollar gekostet und Monate der Koordination erfordert. Stattdessen hat es API-Credits und meine Zeit gekostet.


Der 60/40-Split

In einem Blogpost letzten Monat habe ich ueber das 60/40-Prinzip geschrieben: KI bringt einen etwa 60% des Weges, und die restlichen 40% sind menschliche Verfeinerung. Diesen Kurs zu bauen hat das bestaetigt.

Die KI uebernahm die Produktion — Rendering, Audiogenerierung, Video-Zusammenbau, erste Entwuerfe. Das sind die 60%. Der Mensch uebernahm das Urteil — inhaltliche Entscheidungen, Design-Geschmack, Qualitaetspruefung, Ueberarbeitung um Ueberarbeitung. Das sind die 40%.

In den 40% steckt der gesamte Wert. Ohne sie waere dies ein KI-generierter Kurs, der technisch vollstaendig und erlebnismaessig hohl ist. Mit ihnen hat jede Folie einen Grund zu existieren, jede Speaker Note klingt wie etwas, das ich tatsaechlich in einem Meeting sagen wuerde, und jedes Template ist so gestaltet, dass jemand es am Montagmorgen tatsaechlich verwenden kann.


Warum ich Ihnen das erzaehle

Weil der Kurs ein AI-First Betriebsmodell lehrt, und ich denke, es ist fair zu zeigen, dass ich praktiziere, was ich lehre.

Ich habe die Produktionsmethode im Kurs selbst offengelegt — es gibt eine Transparenz-Folie in Modul 1, die genau erklaert, wie der Kurs produziert wurde. Die Stimme ist PVC. Die Slides sind eine massgeschneiderte Pipeline. Die Begleitguides wurden mit Claude co-geschrieben. Ich verstecke nichts davon.

Wenn eine Person einen Kurs mit 7 Modulen neben einem Vollzeitjob als VP produzieren kann, kann Ihr 20-koepfiges Team mit demselben Betriebsmodell dramatisch mehr leisten, als Sie denken. Die Tools sind dieselben. Der Hebel ist groesser.

Das ist die These. Dieser Kurs ist der Beweis.


Was ich anders machen wuerde

  • Mit dem Design-System anfangen, nicht mit dem Inhalt. Ich habe das Slide-System mitten in der Produktion entworfen und musste fruehere Module nachruesten. Naechstes Mal: Design-System zuerst, dann Inhalte passend dazu schreiben.
  • Frueheres externes Review. Das Reviewer-Feedback, das Module 6-7 umstrukturiert hat, kam spaet im Prozess. Haette ich dieses Feedback nach Modul 3 erhalten, waere der gesamte Kurs straffer geworden.
  • Speaker Notes sind schwieriger als Slides. Ich habe unterschaetzt, wie viel Ueberarbeitung die Voiceover-Skripte brauchen wuerden. "Klar schreiben" und "fuer gesprochenen Vortrag schreiben" sind verschiedene Faehigkeiten.

Das war's von mir. Wenn Sie darueber nachdenken, einen Kurs, ein Wissensprodukt oder ein anderes inhaltsintensives Projekt zu bauen — die Tools sind da. Das Betriebsmodell funktioniert. Planen Sie einfach die 40% ein.

Cheers, Chandler

Weiterlesen

ProdukteMein Weg
Vernetzen
Sprache
Einstellungen