Como construi un curso de 7 modulos solo mientras trabajaba tiempo completo
Una persona. Siete modulos. Tres horas de video. Quince plantillas. Un pipeline de slides personalizado con 18 tipos de layout. Voice clone profesional. Todo mientras mantenia mi trabajo de tiempo completo como VP. Asi se ve el modelo operativo AI-first cuando lo aplicas a ti mismo.
Le sigo diciendo a la gente que el modelo operativo AI-first permite a un equipo pequeno producir a un nivel que antes requeria uno mucho mas grande. Luego me di cuenta de que probablemente deberia demostrarlo.
Asi que aqui esta la historia de como construi "AI-Native Media Operations: From Workflow to Operating Model" — un curso de 7 modulos, ~3 horas de video con 15 plantillas, guias companeras, un PDF deep-dive de 50 paginas y recursos ejecutivos — mientras trabajaba tiempo completo como VP.
Comparto esto no para impresionar a nadie, sino porque el proceso de produccion en si es un caso de estudio del modelo operativo que el curso ensena. Y porque creo que la gente subestima lo que es posible con una persona y las herramientas de IA correctas — mientras tambien sobreestima lo facil que es.
El Pipeline
El pipeline de produccion del curso tiene cuatro fases. Cada una esta aumentada por IA, y cada una requirio juicio humano real en puntos especificos.
Fase 1: Contenido y Slides
Escribi el contenido del curso en Markdown — un archivo por modulo, con un formato especifico: **On screen:** para lo que la audiencia ve, **Speaker notes:** para el guion del voiceover, y **Companion notes:** para el companero escrito que profundiza mas alla de lo que el video puede.
El renderizado de slides usa un pipeline personalizado que construi: Markdown → 18 tipos diferentes de layout (title, flow-diagram, stat-callout, two-column, checklist, before-after, timeline, y mas) → HTML renderizado con un sistema de diseno editorial calido.
Lo que manejo la IA: Borradores iniciales del contenido de slides a partir de mis esquemas, sugerencias de tipos de layout, generacion del CSS y codigo de renderizado.
Lo que requirio juicio humano: Cada decision de contenido. Que frameworks incluir y cuales cortar. Como secuenciar el argumento. Que es demasiado para un slide y pertenece a la guia companera. El sistema de diseno en si — elegir el modo claro calido en vez del modo oscuro por defecto, la paleta de colores, la combinacion de tipografias.
Fase 2: Voz
La narracion usa ElevenLabs Professional Voice Clone — mi voz real, clonada a partir de muestras que grabe. No es una voz generica de IA. Es mi voz, generada a partir de las speaker notes que escribi.
El pipeline genera audio con timestamps a nivel de palabra, que la Fase 3 usa para sincronizar las transiciones de slides con la narracion. Los slides con revelaciones progresivas (listas, checklists, diagramas de flujo) avanzan fragmento por fragmento, cronometrados con las palabras que se estan diciendo.
Lo que manejo la IA: Toda la generacion de audio, extraccion de timestamps a nivel de palabra, deteccion de silencio como respaldo.
Lo que requirio juicio humano: La escritura de las speaker notes. Cada guion de voiceover paso por multiples revisiones — no porque la IA no pudiera generarlo, sino porque "tecnicamente correcto" y "suena como algo que yo realmente diria" son cosas diferentes. Tambien tuve que ajustar la configuracion de voz: stability, similarity, style, speed. Los primeros intentos sonaban roboticos. Tomo varias iteraciones encontrar configuraciones que sonaran naturales.
Fase 3: Ensamblaje de Video
Capturas de pantalla de cada slide renderizado + los segmentos de audio correspondientes → ensamblados en videos MP4 finales. El sistema de sincronizacion de fragmentos divide el audio en limites naturales de palabras para que las revelaciones progresivas se sientan sincronizadas con la narracion, no cortadas arbitrariamente.
Lo que manejo la IA: Todo el pipeline de ensamblaje — captura de pantallas, division de audio en limites de palabras, ensamblaje con ffmpeg, relleno de silencio.
Lo que requirio juicio humano: Revisar los videos finales. Detectar slides donde el timing de fragmentos se sentia incorrecto. Identificar transiciones que necesitaban suavizado de voiceover. Aproximadamente 29 correcciones de transiciones en los 7 modulos solo en la ultima ronda.
Fase 4: Materiales
Quince plantillas, una guia deep-dive de 50 paginas, guias companeras para cada modulo, recursos ejecutivos (plantilla de presentacion al directorio, guia de delegacion, hoja de calculo de ROI, briefs ejecutivos).
Lo que manejo la IA: Primeros borradores de la mayoria de plantillas, estructura de guias companeras, formateo.
Lo que requirio juicio humano: Todas las decisiones de contenido. La plantilla de Workflow Audit no es un output generico de IA — esta disenada a partir de 20 anos de ver equipos auditar sus flujos de trabajo y hacerlo mal. La hoja de calculo de ROI incluye datos de costos reales de mis propios productos porque no queria inventar numeros. Cada plantilla paso por multiples rondas de revision.
Lo que realmente costo (tiempo)
No tengo un conteo exacto de horas porque trabaje en esto por las noches y fines de semana durante varios meses, junto con mi rol de VP a tiempo completo. Pero aqui esta el desglose aproximado:
- Escritura y revision de contenido: Lo que mas tiempo tomo. Semanas. El contenido del curso paso por multiples ciclos de revision — los revisores externos dieron feedback que cambio significativamente la estructura de los Modulos 6 y 7.
- Desarrollo del pipeline de slides: El sistema de renderizado, los tipos de layout y el sistema de diseno tomaron tiempo para construir — pero son reutilizables para futuros cursos.
- Generacion de audio: Rapido una vez que la configuracion de voz se ajusto. Una o dos horas por modulo para generacion + verificacion.
- Ensamblaje de video: Mayormente automatizado. El tiempo de revision fue el cuello de botella, no el tiempo de generacion.
- Plantillas y materiales: Varios dias para el conjunto completo.
Si hubiera contratado un equipo de produccion — disenador, editor de video, talento de voz, disenador de plantillas — hubiera costado decenas de miles de dolares y tomado meses de coordinacion. En cambio, costo creditos de API y mi tiempo.
La division 60/40
En un post del mes pasado, escribi sobre el principio 60/40: la IA te lleva aproximadamente el 60% del camino, y el 40% restante es refinamiento humano. Construir este curso lo confirmo.
La IA se encargo de la produccion — renderizado, generacion de audio, ensamblaje de video, primeros borradores. Ese es el 60%. El humano se encargo del juicio — decisiones de contenido, gusto de diseno, revision de calidad, revision tras revision. Ese es el 40%.
El 40% es donde vive todo el valor. Sin el, esto seria un curso generado por IA que es tecnicamente completo y experiencialmente vacio. Con el, cada slide tiene una razon de existir, cada speaker note suena como algo que yo realmente diria en una reunion, y cada plantilla esta disenada para que alguien la use realmente el lunes por la manana.
Por que les cuento esto
Porque el curso ensena un modelo operativo AI-first, y creo que es justo mostrar que practico lo que enseno.
Revele el metodo de produccion en el curso mismo — hay un slide de transparencia en el Modulo 1 que dice exactamente como se hizo el curso. La voz es PVC. Los slides son un pipeline personalizado. Las guias companeras fueron co-escritas con Claude. No estoy ocultando nada de esto.
Si una persona puede producir un curso de 7 modulos mientras trabaja tiempo completo como VP, tu equipo de 20 puede hacer dramaticamente mas de lo que crees con el mismo modelo operativo. Las herramientas son las mismas. El apalancamiento es mayor.
Esa es la tesis. Este curso es la prueba.
Que haria diferente
- Empezar con el sistema de diseno, no con el contenido. Disene el sistema de slides a mitad de la produccion y tuve que adaptar los modulos anteriores. La proxima vez: sistema de diseno primero, luego escribir contenido que encaje.
- Revision externa mas temprano. El feedback de los revisores que reestructuro los Modulos 6-7 llego tarde en el proceso. Si hubiera recibido ese feedback despues del Modulo 3, todo el curso habria quedado mas ajustado.
- Las speaker notes son mas dificiles que los slides. Subestime cuanta revision necesitarian los guiones de voiceover. "Escribir claro" y "escribir para entrega hablada" son habilidades diferentes.
Eso es todo de mi parte. Si estas pensando en construir un curso, un producto de conocimiento, o cualquier proyecto intensivo en contenido — las herramientas estan ahi. El modelo operativo funciona. Solo presupuesta el 40%.
Cheers, Chandler





