Cách Mình Xây Khóa Học 7 Module Một Mình Trong Khi Làm Việc Full-Time

Mình cứ nói với mọi người rằng mô hình vận hành AI-first cho phép một team nhỏ produce ở level mà trước đây cần team lớn hơn nhiều. Rồi mình nhận ra có lẽ nên chứng minh điều đó.

Nên đây là câu chuyện mình xây "AI-Native Media Operations: From Workflow to Operating Model" — khóa học 7 module, ~3 giờ video với 15 templates, companion guides, PDF deep-dive 50 trang, và executive resources — trong khi vẫn làm full-time với vai trò VP.

Mình chia sẻ điều này không phải để gây ấn tượng, mà vì bản thân quy trình sản xuất là case study của mô hình vận hành mà khóa học dạy. Và vì mình nghĩ mọi người đánh giá thấp khả năng của một người với đúng AI tools — đồng thời đánh giá cao mức độ dễ dàng.

Pipeline

Pipeline sản xuất khóa học có bốn giai đoạn. Mỗi giai đoạn đều có AI hỗ trợ, và mỗi giai đoạn đều cần human judgment ở những điểm cụ thể.

Giai đoạn 1: Nội dung & Slide

Mình viết nội dung khóa học bằng Markdown — một file mỗi module, với format cụ thể: **On screen:** cho phần audience nhìn thấy, **Speaker notes:** cho script voiceover, và **Companion notes:** cho companion guide đi sâu hơn video.

Việc render slide dùng một pipeline tự build: Markdown → 18 loại layout khác nhau (title, flow-diagram, stat-callout, two-column, checklist, before-after, timeline, và nhiều nữa) → HTML được render với design system editorial ấm áp.

AI xử lý: Draft nội dung slide ban đầu từ outline của mình, gợi ý layout types, generate CSS và rendering code.

Cần human judgment: Mọi quyết định nội dung. Framework nào đưa vào, framework nào cắt. Cách sắp xếp lập luận. Cái gì quá nhiều cho một slide và nên để vào companion guide. Bản thân design system — chọn warm light mode thay vì dark-mode mặc định, bảng màu, cặp font.

Giai đoạn 2: Giọng nói

Phần narration dùng ElevenLabs Professional Voice Clone — giọng thật của mình, được clone từ samples mình thu âm. Không phải giọng AI generic. Là giọng mình, được generate từ speaker notes mình viết.

Pipeline tạo audio với word-level timestamps, mà Giai đoạn 3 dùng để sync chuyển slide theo lời kể. Slide có progressive reveals (bullet lists, checklists, flow diagrams) tiến từng fragment, được căn theo từ đang được nói.

AI xử lý: Toàn bộ audio generation, word-level timestamp extraction, silence detection làm fallback.

Cần human judgment: Viết speaker notes. Mỗi script voiceover đều qua nhiều lần sửa — không phải vì AI không generate được, mà vì "đúng về mặt kỹ thuật" và "nghe giống như điều mình thực sự sẽ nói" là hai chuyện khác nhau. Mình cũng phải tune voice settings: stability, similarity, style, speed. Mấy lần đầu nghe rất robotic. Phải thử nhiều lần mới tìm được settings nghe tự nhiên.

Giai đoạn 3: Lắp ráp Video

Screenshots mỗi slide đã render + audio segments tương ứng → lắp thành video MP4 hoàn chỉnh. Hệ thống fragment sync chia audio ở ranh giới từ tự nhiên để progressive reveals cảm giác đồng bộ với lời kể, không phải cắt bừa.

AI xử lý: Toàn bộ pipeline lắp ráp — screenshot capture, audio splitting tại word boundaries, ffmpeg assembly, silence padding.

Cần human judgment: Review video cuối cùng. Bắt những slide mà timing fragment cảm giác sai. Xác định transitions cần voiceover smoothing. Khoảng 29 lần sửa transition trên cả 7 module chỉ riêng vòng cuối.

Giai đoạn 4: Tài liệu

Mười lăm templates, guide deep-dive 50 trang, companion guides cho mỗi module, executive resources (template thuyết trình board, guide ủy quyền, ROI worksheet, executive briefs).

AI xử lý: Draft đầu tiên của phần lớn templates, cấu trúc companion guide, formatting.

Cần human judgment: Mọi quyết định nội dung. Template Workflow Audit không phải output AI generic — nó được thiết kế từ 20 năm quan sát các team audit workflow và làm sai. ROI Worksheet có data chi phí thực từ sản phẩm của chính mình vì mình không muốn bịa số. Mỗi template đều qua nhiều vòng sửa.

Thực Tế Tốn Bao Nhiêu (Thời Gian)

Mình không có con số giờ chính xác vì mình làm vào buổi tối và cuối tuần suốt mấy tháng, song song với vai trò VP full-time. Nhưng đây là ước lượng thô:

Viết và sửa nội dung: Tốn nhiều thời gian nhất. Hàng tuần. Nội dung khóa học qua nhiều vòng review — reviewer bên ngoài cho feedback thay đổi đáng kể cấu trúc Module 6 và 7.
Phát triển pipeline slide: Hệ thống rendering, layout types, và design system tốn thời gian build — nhưng reusable cho các khóa học sau.
Audio generation: Nhanh khi voice settings đã tune xong. Một hai giờ mỗi module cho generation + spot-checking.
Video assembly: Phần lớn tự động. Thời gian review mới là bottleneck, không phải thời gian generate.
Templates và tài liệu: Vài ngày cho bộ đầy đủ.

Nếu mình thuê team sản xuất — designer, editor video, voice talent, template designer — sẽ tốn hàng chục nghìn đô và mất mấy tháng phối hợp. Thay vào đó, chỉ tốn API credits và thời gian mình.

Tỷ Lệ 60/40

Trong blog post tháng trước, mình viết về nguyên tắc 60/40: AI đưa bạn khoảng 60% chặng đường, 40% còn lại là tinh chỉnh của con người. Xây khóa học này đã xác nhận điều đó.

AI xử lý phần sản xuất — rendering, audio generation, video assembly, draft đầu. Đó là 60%. Con người xử lý phần judgment — quyết định nội dung, taste thiết kế, quality review, sửa đi sửa lại. Đó là 40%.

40% là nơi chứa toàn bộ giá trị. Không có nó, đây sẽ là một khóa học AI generate, về mặt kỹ thuật thì đầy đủ nhưng trải nghiệm thì rỗng. Có nó, mỗi slide đều có lý do tồn tại, mỗi speaker note nghe giống điều mình thực sự sẽ nói trong meeting, và mỗi template được thiết kế để ai đó thực sự dùng được sáng thứ Hai.

Tại Sao Mình Kể Chuyện Này

Vì khóa học dạy mô hình vận hành AI-first, và mình nghĩ công bằng khi cho thấy mình thực hành những gì mình dạy.

Mình đã công khai phương pháp sản xuất ngay trong khóa học — có một slide minh bạch ở Module 1 nói rõ khóa học được làm như thế nào. Giọng nói là PVC. Slide là pipeline tự build. Companions đồng viết với Claude. Mình không giấu gì cả.

Nếu một người có thể produce khóa học 7 module trong khi làm full-time VP, team 20 người của bạn có thể làm được nhiều hơn đáng kể so với bạn nghĩ với cùng mô hình vận hành. Tools giống nhau. Đòn bẩy lớn hơn.

Đó là luận điểm. Khóa học này là bằng chứng.

Những Gì Mình Sẽ Làm Khác

Bắt đầu từ design system, không phải nội dung. Mình thiết kế hệ thống slide giữa chừng sản xuất và phải retrofit các module trước. Lần sau: design system trước, rồi mới viết nội dung cho phù hợp.
Review bên ngoài sớm hơn. Feedback reviewer thay đổi hình dạng Module 6-7 đến muộn. Nếu mình nhận feedback đó sau Module 3, toàn bộ khóa học sẽ chặt hơn.
Speaker notes khó hơn slide. Mình đánh giá thấp lượng sửa mà script voiceover cần. "Viết rõ ràng" và "viết để đọc thành tiếng" là hai kỹ năng khác nhau.

Vậy thôi từ mình. Nếu bạn đang nghĩ tới việc xây một khóa học, knowledge product, hay dự án nội dung nặng nào — tools đã có sẵn. Mô hình vận hành hoạt động. Chỉ cần dành ngân sách cho phần 40%.

Cheers, Chandler

Cách Mình Xây Khóa Học 7 Module Một Mình Trong Khi Làm Việc Full-Time

Pipeline

Giai đoạn 1: Nội dung & Slide

Giai đoạn 2: Giọng nói

Giai đoạn 3: Lắp ráp Video

Giai đoạn 4: Tài liệu

Thực Tế Tốn Bao Nhiêu (Thời Gian)

Tỷ Lệ 60/40

Tại Sao Mình Kể Chuyện Này

Những Gì Mình Sẽ Làm Khác

Đọc tiếp

Những Gì AI Vẫn Làm Sai Trong Media Operations Khi Thiếu Judgment Của Người Có Kinh Nghiệm

AI Nâng Sàn Lên Cho Tất Cả. Chiều Sâu Mới Là Cách Bạn Thắng.

Một Đội Marketing AI-Native Thực Sự Cần Những Vai Trò Gì Trong 2026

Vì Sao Tôi Hủy Claude Max Sau 13 Tháng Và Sẽ Test Điều Gì Với Codex Trong 30 Ngày Tới

Tôi Đang Hạ Gói Claude Code $200 Sau Hai Tuần Dùng Codex

Shipping DIALØGUE dạy tôi điều gì về các sản phẩm AI đa ngôn ngữ