CrewAI는 훌륭합니다! - 첫인상 정리

몇 주 전에 "Practical Multi AI Agents and Advanced Use Cases with crewAI" 강좌를 통해 CrewAI를 알게 되었습니다. 이미 에이전트 Sydney에 Langgraph를 사용하고 있어서 처음에는 시도하길 주저했지만, 두 가지가 관심을 끌었습니다:

팟캐스트를 처음부터 만드는 방법을 탐구하고 있었는데, 특히 Gen AI를 사용하여 단순히 글을 복사 붙여넣기하는 것이 아니라 15년간의 블로그 콘텐츠를 "추론"하는 방법에 초점을 맞추고 있었습니다. 이를 위해 NotebookLLM을 시도해 봤었는데(괜찮게 작동했고, 팟캐스트 에피소드는 여기에서 들으실 수 있습니다), 대화 흐름과 오프닝 훅에 대해 더 많은 제어를 원했습니다.
새로운 것을 배우고 OpenAI의 텍스트 음성 변환 모델을 실험해보고 싶었습니다.

2025년 11월 업데이트: 에이전트 프레임워크 사용을 졸업하고 Claude Code와 Google Gemini CLI로 처음부터 코딩하기 시작했습니다. 이를 통해 훨씬 더 많은 제어가 가능해졌습니다. 최신 출시 제품은 STRAŦUM(시장 인텔리전스)과 DIALØGUE(AI 팟캐스트 생성기)이며, 아래의 CrewAI 실험에서 직접적으로 발전한 것입니다.

약 10일간 CrewAI를 사용해본 후, 주요 관찰 사항은 다음과 같습니다:

1. 좋은 점

1.1 놀라울 정도로 쉬운 시작

초기 학습 곡선이 매우 짧습니다 – 몇 시간 만에 실행할 수 있었습니다
커스텀 도구 설정(예: Weaviate를 벡터 스토어로 사용하여 블로그에서 콘텐츠 검색)이 간단했습니다. 팟캐스트 스크립트를 오디오 출력으로 변환하는 것도 설정하기 꽤 쉬웠습니다.
YAML 파일을 사용하여 일반 영어로 에이전트와 작업을 설명할 수 있는 기능이 강력합니다 (프로 팁: Visual Studio Code의 자동완성이 여기서 매우 유용합니다!)

1.2 유연한 모델 선택

다른 LLM 간 전환은 crew.py를 업데이트하는 것만큼 간단합니다:

llm_openai_4o_mini = LLM(model="gpt-4o-mini", temperature=0)
llm_anthropic_35 = LLM(model="claude-3-5-sonnet-20240620", temperature=0)
llm_openai_4o = LLM(model="gpt-4o", temperature=0)
llm_gemini_15_pro = LLM(model="gemini/gemini-1.5-pro-002", temperature=0)

그런 다음 각 모델의 강점에 따라 다른 에이전트에 특정 모델을 할당할 수 있습니다. 예를 들어,

@agent
	def content_researcher(self) -> Agent:
		return Agent(
			config=self.agents_config['content_researcher'],
			llm=llm_anthropic_35,
			tools=[BlogContentRetrievalTool()],
			verbose=True
		)

이 모든 것은 팟캐스트를 어떻게 구성하고 스크립트를 작성할지에 대해 엄청난 제어력을 의미합니다.

1.3 텍스트 음성 변환: 가능성과 한계

OpenAI의 텍스트 음성 변환 API는 품질 면에서 인상적이지만, 현재 6개의 음성 모델만 제공합니다. 팟캐스트 제작의 경우 이는 상당히 제한적입니다 – 특히 여러 호스트 간의 매력적인 대화를 만들려고 할 때 더욱 그렇습니다. 음성 다양성의 부족은 같은 기술을 사용하는 다른 팟캐스트와 비슷하게 들릴 수 있음을 의미합니다. 이것은 향후 개선되기를 바라는 부분입니다. OpenAI가 음성 옵션을 확대하거나 다른 텍스트 음성 변환 제공업체와의 통합을 통해서요.

AI 안전 문제에 대해서도 이해할 수 있어서 다양한 AI 연구소들이 너무 많은 음성 모델을 제공하는 데 서두르지 않을 수 있습니다.

2. 현실 점검: 단순히 "클릭하면 만들어지는" 것이 아닙니다

처음에는 이것이 온라인에서 보이는 AI 생성 콘텐츠(또는 "AI 슬롭") 홍수에 기여할까 걱정했습니다. 결국 15분짜리 팟캐스트 스크립트를 약 5분 만에 생성할 수 있으니까요. (위의 DeepLearning.AI 교육 강좌에서 João는 실제로 "대규모 콘텐츠 제작" 코드 예제를 살펴보았습니다.)

하지만 처음 생성된 몇 개의 스크립트를 실제로 읽고/검토한 후 제 관점이 바뀌었습니다.

고품질 콘텐츠를 만들기 위해서는 여전히 상당한 작업이 필요합니다!

2.1 신중한 에이전트 구조

AI 크루의 구조를 여러 번 수정해야 했고, 특히 "fact_checker"의 역할 등 추가 역할을 넣어야 했습니다. 현재 팟캐스트 크루 구성은:

콘텐츠 리서처
스크립트 작성자
팩트 체커
스크립트 편집자
오디오 프로듀서

2.2 지속적인 개선

성공을 위해서는:

업계 특화 언어를 사용하여 각 에이전트의 목표와 작업을 신중하게 정의해야 합니다. 팟캐스트에 대한 실제 업계 경험이 있는 사람은 업계 특화 언어를 사용할 수 있고 각 에이전트에게 매우 구체적인 작업을 요청할 수 있습니다. 그렇게 하면 출력물이 훨씬 좋아집니다.
도구 접근을 선별적으로 해야 합니다 (많다고 항상 좋은 것은 아닙니다). 에이전트가 연속 루프에 빠지기 쉽습니다.
에이전트 간 명확한 위임 규칙
구체적인 출력 구조 요구사항
**"좋은 작업이란 무엇인가"**에 대한 잘 정의된 품질 기준 (여기에 제 딸도 참여시켰습니다 – 딸이 창의적인 쪽이거든요! :D).

따라서 다시 말씀드리지만, 보시다시피 AI 에이전트 크루를 사용하면 작업 속도가 크게 빨라지지만(리서치에서 스크립팅, 팩트 체크, 수정, 오디오 제작까지 최소 5배), 고품질 콘텐츠를 만드는 것은 여전히 저에게 달려있습니다.

2.3 모델 선택이 중요합니다

다른 LLM 모델은 고유한 "성격"과 다양한 수준의 지시 따르기 능력을 가지고 있습니다. 따라서 각 프로세스 단계에서 다양한 모델의 강점과 약점을 이해하고 필요에 맞는지 실험해봐야 합니다.

몇 가지 관찰 사항:

동일한 모델에 대해 API 응답이 웹 채팅 인터페이스 응답과 다를 수 있습니다
현재 API를 사용한 장문 콘텐츠에는 Anthropic 모델을 선호합니다. 하지만 웹 버전의 경우, claude-3-5-sonnet-20241022와 GPT-4o가 대등하다고 생각합니다.
OpenAI의 o1-preview는 코딩 작업에 가장 선호하는 모델입니다

2.4 피드백과 메모리가 게임 체인저입니다

AI 크루에 피드백을 제공해야 합니다. 그들은 지시를 잘 따르지만 여러분이 원하는 것을 알지 못하고 마음을 읽을 수 없습니다(적어도 아직은 하하). 피드백을 통해 크루를 훈련시키는 능력은 매우 중요합니다.

CrewAI에서는 크루를 훈련시키고 피드백을 주는 것이 매우 간단합니다. 단순히 다음을 실행하면 됩니다

crewai train -n <n_iterations> <filename> (optional)

CrewAI의 메모리 기능을 아직 완전히 탐구하지는 않았지만, 피드백과 메모리의 조합은 일관되고 고품질의 출력을 만드는 데 매우 강력해 보입니다.

3. 결과를 보여주세요!

좋아요, 좋아요 - "Chandler, 충분히 말했으니 AI 크루가 생성한 팟캐스트 스크립트 샘플을 보여달라"고 말씀하시는 것 같습니다!

다음은 전체 워크플로우 예시입니다:

리서치 단계: 콘텐츠 리서처 에이전트가 블로그 게시물에서 핵심 정보를 분석하고 추출하는 방법을 확인하세요
팩트 체크 요약: 팩트 체커의 상세한 검증 보고서
초기 스크립트 초안: 스크립트 작성자의 팟캐스트 대화 첫 번째 버전
최종 다듬어진 스크립트: 스크립트 편집자의 개선된 흐름과 참여도를 갖춘 수정 버전
결과 듣기: 오디오 프로듀서 에이전트가 제작한 최종 오디오 버전

위의 각 링크는 원시 콘텐츠에서 다듬어진 팟캐스트로의 진행 과정을 보여주며, 다양한 에이전트가 최종 제품에 어떻게 기여하는지 보여줍니다.

전체 파이프라인을 더 개선할 수 있는 방법에 대한 생각이 아직 있지만, 위의 내용이 무엇이 가능한지에 대한 좋은 감을 드리길 바랍니다.

마무리 생각

CrewAI는 단순함과 강력함의 균형으로 저를 감동시켰습니다. 콘텐츠 제작을 더 쉽게 만들어주지만 마법 버튼은 아닙니다 – 품질을 위해서는 여전히 전문 지식, 신중한 계획, 지속적인 개선이 필요합니다.

CrewAI나 Langgraph 같은 멀티 에이전트 프레임워크를 실험해 보셨나요? 무엇을 만들고 계신지 듣고 싶습니다 — 댓글을 남기시거나 연락해 주세요.

감사합니다,

Chandler

2026년 1월 업데이트: 이 CrewAI 실험은 결국 DIALØGUE라는 본격적인 프로덕션 앱이 되었습니다. 위에서 언급한 음성 제한 문제는요? 결국 Gemini TTS로 전환했는데, 7개 언어로 30개의 음성을 제공합니다. OpenAI의 6개 음성에서 상당한 업그레이드입니다! 궁금하시다면, 확인해 보세요.

CrewAI는 훌륭합니다! - 첫인상 정리

1. 좋은 점

1.1 놀라울 정도로 쉬운 시작

1.2 유연한 모델 선택

1.3 텍스트 음성 변환: 가능성과 한계

2. 현실 점검: 단순히 "클릭하면 만들어지는" 것이 아닙니다

2.1 신중한 에이전트 구조

2.2 지속적인 개선

2.3 모델 선택이 중요합니다

2.4 피드백과 메모리가 게임 체인저입니다

3. 결과를 보여주세요!

마무리 생각

계속 읽기

수년 만에 가장 큰 사이트 리디자인을 완료했습니다. 아침 식사 중에.

4주차: 낮잠 자면서 10개 에이전트 마케팅 플랫폼 구축하기

속임수를 썼습니다: Sydney가 이제 10-K 보고서의 서사를 읽을 수 있습니다

적은 것이 더 많은 것이다

코스를 잘라서 YouTube 영상으로 만들려고 했어요. 결국 처음부터 다시 만든 이유를 알려드릴게요.

13개월 만에 Claude Max를 해지한 이유, 그리고 앞으로 30일 동안 Codex로 시험해 볼 것들