풀타임으로 일하면서 7개 모듈 과정을 혼자 만든 방법
한 사람. 7개 모듈. 3시간 분량의 영상. 15개 템플릿. 18개 레이아웃 타입의 커스텀 슬라이드 파이프라인. 프로페셔널 보이스 클론. 모두 VP로서 풀타임 근무를 유지하면서. 이것이 AI-first 운영 모델을 자기 자신에게 적용하면 어떤 모습인지 보여줍니다.
AI-first 운영 모델은 소규모 팀이 과거에는 훨씬 큰 팀이 필요했던 수준으로 생산할 수 있게 해준다고 계속 말해왔습니다. 그러다 직접 증명해야겠다는 생각이 들었습니다.
이것은 "AI-Native Media Operations: From Workflow to Operating Model" — 7개 모듈, 약 3시간 분량의 영상 과정에 15개 템플릿, 동반 가이드, 50페이지 심화 PDF 가이드, 임원용 자료까지 — 을 VP로 풀타임 근무하면서 만든 이야기입니다.
이것을 공유하는 이유는 누군가를 감동시키려는 것이 아닙니다. 제작 과정 자체가 이 과정이 가르치는 운영 모델의 케이스 스터디이기 때문입니다. 그리고 한 사람과 적절한 AI 도구로 무엇이 가능한지 과소평가하는 사람이 많은 한편, 얼마나 쉬운지는 과대평가한다고 생각하기 때문입니다.
파이프라인
과정 제작 파이프라인은 4단계로 구성됩니다. 모두 AI로 보강되었으며, 각 단계에서 진정한 인간의 판단이 필요한 특정 지점이 있었습니다.
1단계: 콘텐츠 & 슬라이드
과정 콘텐츠를 Markdown으로 작성했습니다. 모듈당 하나의 파일, 특정 포맷으로: **On screen:**은 시청자에게 보여주는 내용, **Speaker notes:**는 내레이션 대본, **Companion notes:**는 영상보다 더 깊이 들어가는 동반 가이드용입니다.
슬라이드 렌더링은 직접 만든 커스텀 파이프라인을 사용합니다. Markdown → 18개 레이아웃 타입(타이틀, 플로우 다이어그램, 통계 콜아웃, 2단, 체크리스트, 비포-애프터, 타임라인 등) → 따뜻한 에디토리얼 디자인 시스템으로 렌더링된 HTML.
AI가 담당한 것: 아웃라인에서 초기 슬라이드 콘텐츠 초안 작성, 레이아웃 타입 제안, CSS 및 렌더링 코드 생성.
인간의 판단이 필요했던 것: 모든 콘텐츠 결정. 어떤 프레임워크를 포함하고 어떤 것을 제외할지. 논증의 순서 구성. 슬라이드에는 과하고 동반 가이드에 넣어야 할 내용의 판단. 디자인 시스템 자체 — 다크 모드 기본값 대신 따뜻한 라이트 모드 선택, 컬러 팔레트, 폰트 조합.
2단계: 보이스
내레이션은 ElevenLabs Professional Voice Clone을 사용합니다. 제가 녹음한 샘플에서 클론한 실제 제 목소리입니다. 일반적인 AI 음성이 아닙니다. 제가 작성한 스피커 노트에서 생성된 제 목소리입니다.
파이프라인은 단어 수준 타임스탬프와 함께 오디오를 생성하며, 3단계에서 이를 사용해 슬라이드 전환을 내레이션에 동기화합니다. 점진적 공개가 있는 슬라이드(글머리 목록, 체크리스트, 플로우 다이어그램)는 말하는 단어에 맞춰 프래그먼트 단위로 진행됩니다.
AI가 담당한 것: 모든 오디오 생성, 단어 수준 타임스탬프 추출, 폴백으로서의 무음 감지.
인간의 판단이 필요했던 것: 스피커 노트 작성. 모든 내레이션 대본을 여러 차례 수정했습니다. AI가 생성할 수 없어서가 아니라, "기술적으로 올바른 것"과 "제가 실제로 말할 법한 것"은 다르기 때문입니다. 음성 설정 튜닝도 필요했습니다. 안정성, 유사도, 스타일, 속도. 첫 시도는 로봇처럼 들렸습니다. 자연스럽게 들리는 설정을 찾기까지 여러 번 반복했습니다.
3단계: 영상 조립
렌더링된 각 슬라이드의 스크린샷 + 해당 오디오 세그먼트 → 최종 MP4 영상으로 조립합니다. 프래그먼트 동기화 시스템이 자연스러운 단어 경계에서 오디오를 분할해 점진적 공개가 임의로 잘린 것이 아니라 내레이션에 맞춰 자연스럽게 진행됩니다.
AI가 담당한 것: 전체 조립 파이프라인 — 스크린샷 캡처, 단어 경계에서의 오디오 분할, ffmpeg 조립, 무음 패딩.
인간의 판단이 필요했던 것: 최종 영상 리뷰. 프래그먼트 타이밍이 부자연스러운 슬라이드 발견. 내레이션 스무딩이 필요한 전환 식별. 마지막 라운드에서만 7개 모듈 전체에서 약 29개의 전환 수정이 있었습니다.
4단계: 교재
15개 템플릿, 50페이지 심화 가이드, 각 모듈별 동반 가이드, 임원용 자료(이사회 프레젠테이션 템플릿, 위임 가이드, ROI 워크시트, 임원 브리프).
AI가 담당한 것: 대부분의 템플릿 초안, 동반 가이드 구조, 포맷팅.
인간의 판단이 필요했던 것: 모든 콘텐츠 결정. Workflow Audit 템플릿은 일반적인 AI 아웃풋이 아닙니다. 20년간 팀들이 워크플로우 감사를 하면서 잘못되는 것을 지켜본 경험에서 설계한 것입니다. ROI 워크시트에는 숫자를 꾸며내고 싶지 않아서 제 자신의 제품에서 나온 실제 비용 데이터를 포함했습니다. 모든 템플릿은 여러 차례 수정을 거쳤습니다.
실제로 들어간 비용 (시간)
정확한 시간은 모릅니다. 수개월에 걸쳐 저녁과 주말에 풀타임 VP 업무와 병행하며 작업했기 때문입니다. 하지만 대략적인 내역은 이렇습니다:
- 콘텐츠 작성 및 수정: 가장 많은 시간이 들었습니다. 몇 주. 과정 콘텐츠는 여러 리뷰 사이클을 거쳤습니다. 외부 리뷰어의 피드백으로 모듈 6과 7의 구조가 크게 바뀌었습니다.
- 슬라이드 파이프라인 개발: 렌더링 시스템, 레이아웃 타입, 디자인 시스템 구축에 시간이 걸렸지만 향후 과정에서 재사용할 수 있습니다.
- 오디오 생성: 음성 설정이 튜닝되면 빠릅니다. 모듈당 생성 + 스팟 체크에 1-2시간.
- 영상 조립: 대부분 자동화되었습니다. 병목은 생성 시간이 아니라 리뷰 시간이었습니다.
- 템플릿 및 교재: 전체 세트에 며칠.
만약 제작팀을 고용했다면 — 디자이너, 영상 편집자, 성우, 템플릿 디자이너 — 수만 달러의 비용과 수개월의 조율이 필요했을 것입니다. 대신 필요했던 것은 API 크레딧과 제 시간뿐이었습니다.
60/40 법칙
지난달 블로그 글에서 60/40 원칙에 대해 썼습니다. AI가 약 60%까지 데려다주고, 나머지 40%는 인간의 다듬기라는 것. 이 과정을 만들면서 그것이 확인되었습니다.
AI가 담당한 것은 프로덕션 — 렌더링, 오디오 생성, 영상 조립, 초안. 이것이 60%입니다. 인간이 담당한 것은 판단 — 콘텐츠 결정, 디자인 감각, 품질 리뷰, 거듭된 수정. 이것이 40%입니다.
모든 가치는 40% 쪽에 있습니다. 이것이 없었다면 기술적으로는 완성되었지만 경험적으로는 공허한 AI 생성 과정이 되었을 것입니다. 이것이 있기에 모든 슬라이드에는 존재 이유가 있고, 모든 스피커 노트는 회의에서 제가 실제로 말할 법한 것처럼 들리며, 모든 템플릿은 월요일 아침에 실제로 사용할 수 있도록 설계되었습니다.
왜 이 이야기를 하는가
과정이 AI-first 운영 모델을 가르치기 때문에, 제가 가르치는 것을 실천하고 있다는 것을 보여주는 것이 공정하다고 생각했습니다.
제작 방법은 과정 안에서 공개했습니다. 모듈 1에 투명성 슬라이드가 있어서 과정이 어떻게 만들어졌는지 정확히 설명합니다. 음성은 PVC. 슬라이드는 커스텀 파이프라인. 동반 가이드는 Claude와 공동 작성. 아무것도 숨기지 않습니다.
한 사람이 VP로 풀타임 일하면서 7개 모듈 과정을 제작할 수 있다면, 20명의 팀은 같은 운영 모델로 생각하시는 것보다 훨씬 더 많은 것을 해낼 수 있습니다. 도구는 같습니다. 레버리지는 더 큽니다.
그것이 테제입니다. 이 과정이 그 증거입니다.
다음에 한다면 바꿀 것
- 콘텐츠가 아니라 디자인 시스템부터 시작하기. 제작 중간에 슬라이드 시스템을 설계했기 때문에 초기 모듈을 나중에 수정해야 했습니다. 다음에는: 디자인 시스템 먼저, 그다음에 콘텐츠 작성.
- 외부 리뷰를 더 일찍 받기. 모듈 6-7을 재구성하게 만든 리뷰어 피드백은 과정 후반에 왔습니다. 모듈 3 이후에 그 피드백을 받았다면 전체 과정이 더 탄탄했을 것입니다.
- 스피커 노트는 슬라이드보다 어렵다. 내레이션 대본에 얼마나 많은 수정이 필요한지 과소평가했습니다. "명확하게 쓰기"와 "말하기용으로 쓰기"는 다른 기술입니다.
이상입니다. 과정, 지식 제품, 또는 콘텐츠가 많이 들어가는 프로젝트를 만들 생각이라면 — 도구는 있습니다. 운영 모델은 작동합니다. 다만 40%를 위한 예산은 확보해두십시오.
Cheers, Chandler





