Skip to content
··6 min de lecture

Comment j'ai construit un cours de 7 modules seul tout en travaillant a temps plein

Une personne. Sept modules. Trois heures de video. Quinze templates. Un pipeline de slides sur mesure avec 18 types de layouts. Voice clone professionnel. Le tout en gardant mon poste de VP a temps plein. Voici a quoi ressemble le modele operationnel AI-first quand on l'applique a soi-meme.

Je repete aux gens que le modele operationnel AI-first permet a une petite equipe de produire a un niveau qui necessitait autrefois une equipe bien plus grande. Puis j'ai realise que je devrais probablement le prouver.

Voici donc l'histoire de la creation de "AI-Native Media Operations: From Workflow to Operating Model" — un cours de 7 modules, environ 3 heures de video avec 15 templates, des guides d'accompagnement, un PDF deep-dive de 50 pages et des ressources pour dirigeants — tout en travaillant a temps plein comme VP.

Je partage cela non pas pour impressionner qui que ce soit, mais parce que le processus de production est lui-meme une etude de cas du modele operationnel que le cours enseigne. Et parce que je pense que les gens sous-estiment ce qui est possible avec une seule personne et les bons outils d'IA — tout en surestiamnt a quel point c'est facile.


Le Pipeline

Le pipeline de production du cours comprend quatre phases. Chacune est augmentee par l'IA, et chacune a necessitait un veritable jugement humain a des moments precis.

Phase 1 : Contenu et Slides

J'ai ecrit le contenu du cours en Markdown — un fichier par module, avec un format specifique : **On screen:** pour ce que l'audience voit, **Speaker notes:** pour le script de voiceover, et **Companion notes:** pour le guide ecrit qui approfondit au-dela de ce que la video peut couvrir.

Le rendu des slides utilise un pipeline sur mesure que j'ai construit : Markdown → 18 types de layouts differents (title, flow-diagram, stat-callout, two-column, checklist, before-after, timeline, et plus) → HTML rendu avec un systeme de design editorial chaleureux.

Ce que l'IA a gere : Les premiers brouillons du contenu des slides a partir de mes plans, les suggestions de types de layout, la generation du CSS et du code de rendu.

Ce qui a necessite un jugement humain : Chaque decision de contenu. Quels frameworks inclure et lesquels supprimer. Comment sequencer l'argumentation. Ce qui est trop charge pour un slide et qui appartient au guide d'accompagnement. Le systeme de design lui-meme — le choix du mode clair et chaleureux plutot que le mode sombre par defaut, la palette de couleurs, l'association typographique.

Phase 2 : Voix

La narration utilise ElevenLabs Professional Voice Clone — ma vraie voix, clonee a partir d'echantillons que j'ai enregistres. Ce n'est pas une voix IA generique. C'est ma voix, generee a partir des speaker notes que j'ai ecrites.

Le pipeline genere de l'audio avec des timestamps au niveau du mot, que la Phase 3 utilise pour synchroniser les transitions de slides avec la narration. Les slides avec des revelations progressives (listes a puces, checklists, diagrammes de flux) avancent fragment par fragment, cales sur les mots prononces.

Ce que l'IA a gere : Toute la generation audio, l'extraction des timestamps au niveau du mot, la detection de silence en dernier recours.

Ce qui a necessite un jugement humain : L'ecriture des speaker notes. Chaque script de voiceover a subi plusieurs revisions — non pas parce que l'IA ne pouvait pas le generer, mais parce que "techniquement correct" et "ca sonne comme quelque chose que je dirais vraiment" sont deux choses differentes. J'ai aussi du ajuster les parametres de voix : stability, similarity, style, speed. Les premiers essais sonnaient robotiques. Il a fallu plusieurs iterations pour trouver des reglages naturels.

Phase 3 : Assemblage video

Captures d'ecran de chaque slide rendu + les segments audio correspondants → assembles en videos MP4 finaux. Le systeme de synchronisation des fragments decoupe l'audio aux frontieres naturelles des mots pour que les revelations progressives semblent calees sur la narration, et non decoupees arbitrairement.

Ce que l'IA a gere : L'ensemble du pipeline d'assemblage — capture d'ecran, decoupage audio aux frontieres de mots, assemblage ffmpeg, remplissage de silence.

Ce qui a necessite un jugement humain : La relecture des videos finaux. Reperer les slides ou le timing des fragments semblait incorrect. Identifier les transitions qui necessitaient un lissage du voiceover. Environ 29 corrections de transitions sur les 7 modules rien que lors du dernier passage.

Phase 4 : Materiels

Quinze templates, un guide deep-dive de 50 pages, des guides d'accompagnement pour chaque module, des ressources pour dirigeants (template de presentation au conseil, guide de delegation, feuille de calcul ROI, briefs executifs).

Ce que l'IA a gere : Les premiers brouillons de la plupart des templates, la structure des guides d'accompagnement, la mise en forme.

Ce qui a necessite un jugement humain : Toutes les decisions de contenu. Le template de Workflow Audit n'est pas un output IA generique — il est concu a partir de 20 ans d'observation d'equipes qui auditent leurs workflows et s'y prennent mal. La feuille de calcul ROI inclut des donnees de couts reelles de mes propres produits parce que je ne voulais pas inventer des chiffres. Chaque template a subi plusieurs cycles de revision.


Ce que ca a reellement coute (en temps)

Je n'ai pas de decompte exact des heures parce que j'ai travaille la-dessus les soirs et les weekends sur plusieurs mois, en parallele de mon role de VP a temps plein. Mais voici la ventilation approximative :

  • Ecriture et revision du contenu : Le plus chronophage. Des semaines. Le contenu du cours a traverse plusieurs cycles de relecture — les retours de relecteurs externes ont significativement change la structure des Modules 6 et 7.
  • Developpement du pipeline de slides : Le systeme de rendu, les types de layout et le systeme de design ont pris du temps a construire — mais ils sont reutilisables pour de futurs cours.
  • Generation audio : Rapide une fois les parametres de voix ajustes. Une a deux heures par module pour la generation + la verification par echantillonnage.
  • Assemblage video : Largement automatise. Le temps de relecture etait le goulot d'etranglement, pas le temps de generation.
  • Templates et materiels : Plusieurs jours pour l'ensemble complet.

Si j'avais embauche une equipe de production — designer, monteur video, talent vocal, designer de templates — cela aurait coute des dizaines de milliers de dollars et pris des mois de coordination. A la place, cela a coute des credits d'API et mon temps.


La repartition 60/40

Dans un post le mois dernier, j'ai ecrit sur le principe 60/40 : l'IA vous emmene environ 60% du chemin, et les 40% restants sont du raffinement humain. La construction de ce cours l'a confirme.

L'IA s'est chargee de la production — rendu, generation audio, assemblage video, premiers brouillons. C'est le 60%. L'humain s'est charge du jugement — decisions de contenu, gout du design, controle qualite, revision apres revision. C'est le 40%.

Le 40% est la ou reside toute la valeur. Sans lui, ce serait un cours genere par l'IA, techniquement complet mais experientiellement creux. Avec lui, chaque slide a une raison d'exister, chaque speaker note sonne comme quelque chose que je dirais vraiment en reunion, et chaque template est concu pour que quelqu'un l'utilise reellement le lundi matin.


Pourquoi je vous raconte tout ca

Parce que le cours enseigne un modele operationnel AI-first, et je pense qu'il est juste de montrer que je pratique ce que j'enseigne.

J'ai revele la methode de production dans le cours lui-meme — il y a un slide de transparence dans le Module 1 qui explique exactement comment le cours a ete realise. La voix est du PVC. Les slides viennent d'un pipeline sur mesure. Les guides d'accompagnement ont ete co-ecrits avec Claude. Je ne cache rien de tout cela.

Si une personne peut produire un cours de 7 modules tout en travaillant a temps plein comme VP, votre equipe de 20 peut faire considerablement plus que vous ne le pensez avec le meme modele operationnel. Les outils sont les memes. L'effet de levier est plus grand.

C'est la these. Ce cours en est la preuve.


Ce que je ferais differemment

  • Commencer par le systeme de design, pas le contenu. J'ai concu le systeme de slides en cours de production et j'ai du adapter retroactivement les modules precedents. La prochaine fois : systeme de design d'abord, puis ecrire le contenu en consequence.
  • Relecture externe plus tot. Les retours des relecteurs qui ont restructure les Modules 6-7 sont arrives tard dans le processus. Si j'avais eu ces retours apres le Module 3, l'ensemble du cours aurait ete plus serre.
  • Les speaker notes sont plus difficiles que les slides. J'ai sous-estime a quel point les scripts de voiceover necessiteraient de revisions. "Ecrire clairement" et "ecrire pour une delivery orale" sont des competences differentes.

C'est tout pour moi. Si vous envisagez de construire un cours, un produit de connaissance, ou tout projet a fort contenu — les outils sont la. Le modele operationnel fonctionne. Prevoyez simplement les 40%.

Cheers, Chandler

Continuer la lecture

ProduitsMon parcours
Me suivre
Langue
Preferences