CrewAI ist gut! – Meine ersten Eindrücke
Nach 10 Tagen, in denen ich KI-generierte Podcasts mit CrewAI erstellt habe, habe ich gelernt: Das Framework ist bemerkenswert einfach zu bedienen – qualitativ hochwertige Inhalte erfordern aber nach wie vor echten menschlichen Einsatz.
Ich bin vor einigen Wochen durch den Kurs „Practical Multi AI Agents and Advanced Use Cases with crewAI" auf CrewAI gestoßen. Obwohl ich zunächst zögerte, da ich für meinen Agenten Sydney bereits Langgraph verwende, weckten zwei Dinge mein Interesse:
- Ich erforsche Möglichkeiten, Podcasts von Grund auf zu erstellen – insbesondere, wie ich Gen AI nutzen kann, um über meine 15 Jahre Blog-Inhalte zu „räsonieren", anstatt Beiträge einfach zu kopieren und einzufügen. Ich hatte NotebookLLM dafür ausprobiert (was ganz okay war – die Podcast-Episode kannst du dir hier anhören), aber ich wollte mehr Kontrolle über den Gesprächsfluss und die Einstiegs-Hooks.
- Ich wollte etwas Neues lernen und mit den Text-to-Speech-Modellen von OpenAI experimentieren.
Update November 2025: Ich habe mich von Agent-Frameworks verabschiedet und fange jetzt mit Claude Code und der Google Gemini CLI von Grund auf an zu programmieren. Das gibt mir deutlich mehr Kontrolle. Meine neuesten Produkte sind STRAŦUM (Market Intelligence) und DIALØGUE (KI-Podcast-Generator) – die direkt aus diesem CrewAI-Experiment unten hervorgegangen sind.
Nach etwa 10 Tagen des Spielens mit CrewAI sind hier meine wichtigsten Beobachtungen:
1. Das Gute
1.1 Überraschend einfacher Einstieg
- Die anfängliche Lernkurve ist bemerkenswert kurz – ich war in nur wenigen Stunden startklar
- Das Einrichten benutzerdefinierter Tools (z. B. das Abrufen von Inhalten aus meinem Blog über Weaviate als Vektorspeicher) war unkompliziert. Auch die Umwandlung eines Podcast-Skripts in eine Audio-Ausgabe lässt sich problemlos einrichten.
- Die Möglichkeit, Agenten und ihre Aufgaben in einfachem Englisch über YAML-Dateien zu beschreiben, ist mächtig (Profi-Tipp: Die Autovervollständigung von Visual Studio Code ist hier sehr hilfreich!)
1.2 Flexible Modellauswahl
Das Wechseln zwischen verschiedenen LLMs ist so einfach wie das Aktualisieren deiner crew.py:
llm_openai_4o_mini = LLM(model="gpt-4o-mini", temperature=0)
llm_anthropic_35 = LLM(model="claude-3-5-sonnet-20240620", temperature=0)
llm_openai_4o = LLM(model="gpt-4o", temperature=0)
llm_gemini_15_pro = LLM(model="gemini/gemini-1.5-pro-002", temperature=0)
Du kannst dann bestimmten Agenten spezifische Modelle basierend auf ihren Stärken zuweisen. Zum Beispiel:
@agent
def content_researcher(self) -> Agent:
return Agent(
config=self.agents_config['content_researcher'],
llm=llm_anthropic_35,
tools=[BlogContentRetrievalTool()],
verbose=True
)
Das alles bedeutet eine enorme Kontrolle darüber, wie ich meinen Podcast strukturieren und skripten möchte.
1.3 Text-to-Speech: Versprechen und Grenzen
Obwohl die Text-to-Speech-API von OpenAI qualitativ beeindruckend ist, bietet sie derzeit nur sechs Sprachmodelle. Für die Podcast-Erstellung ist das ziemlich einschränkend – besonders wenn du versucht, ansprechende Gespräche zwischen mehreren Moderatoren zu gestalten. Der Mangel an Stimmvielfalt kann dazu führen, dass deine Podcasts ähnlich klingen wie andere, die dieselbe Technologie verwenden. Das ist definitiv ein Bereich, in dem ich auf Verbesserungen hoffe – entweder durch eine Erweiterung der Stimmoptionen von OpenAI oder durch die Integration anderer Text-to-Speech-Anbieter.
Ich verstehe auch die KI-Sicherheitsbedenken – daher sind die verschiedenen KI-Labs möglicherweise nicht allzu schnell dabei, zu viele Stimmmodelle anzubieten.
2. Der Realitätscheck: Es ist nicht nur „Klicken und Erstellen"
Anfangs machte ich mir Sorgen, dass dies zur Flut von KI-generierten Inhalten (oder „AI Slop") beitragen könnte, die wir online sehen. Schließlich konnte ich in etwa 5 Minuten ein 15-minütiges Podcast-Skript erstellen. (Im DeepLearning.AI-Trainingskurs oben ging João tatsächlich ein Codebeispiel für „Content creation at scale" durch.)
Meine Perspektive änderte sich jedoch, nachdem ich die ersten generierten Skripte tatsächlich gelesen/überprüft hatte.
Das Erstellen hochwertiger Inhalte erfordert nach wie vor erheblichen Aufwand!
2.1 Durchdachte Agentenstruktur
Ich musste die Struktur des KI-Crews mehrmals überarbeiten und zusätzliche Rollen hinzufügen, insbesondere die Rolle eines „fact_checkers". Mein aktuelles Podcast-Crew umfasst:
- Content Researcher
- Script Writer
- Fact Checker
- Script Editor
- Audio Producer
2.2 Kontinuierliche Verfeinerung
Erfolg erfordert:
- Sorgfältige Definition der Ziele und Aufgaben jedes Agenten unter Verwendung branchenspezifischer Sprache. Jemand mit echter Branchenerfahrung im Podcast-Bereich kann branchenspezifische Sprache verwenden und jeden Agenten bitten, sehr spezifische Aufgaben zu erfüllen. Die Ergebnisse werden dadurch deutlich besser.
- Selektiver Einsatz von Tools (mehr ist nicht immer besser). Es ist einfach für die Agenten, in endlosen Schleifen stecken zu bleiben.
- Klare Delegationsregeln zwischen den Agenten
- Spezifische Anforderungen an die Ausgabestruktur
- Klar definierte Qualitätskriterien für „Wie gute Arbeit aussieht" (Ich habe sogar meine Tochter einbezogen – sie ist die Kreative! :D).
Wie du also sehen kannst: Obwohl die Verwendung eines KI-Agenten-Crews meine Arbeit erheblich beschleunigt (mindestens 5X von der Recherche bis zur Skripterstellung, Faktenprüfung, Überarbeitung und Audioerstellung), liegt es immer noch an mir, qualitativ hochwertige Inhalte zu erstellen.
2.3 Die Modellauswahl ist entscheidend
Verschiedene LLM-Modelle haben unterschiedliche „Persönlichkeiten" und unterschiedliche Fähigkeiten, Anweisungen zu befolgen. Du musst also experimentieren, um die Stärken und Schwächen verschiedener Modelle zu verstehen und herauszufinden, wie sie deinen Anforderungen bei jedem Schritt des Prozesses gerecht werden.
Einige Beobachtungen:
- API-Antworten können von Web-Chat-Schnittstellenantworten desselben Modells abweichen
- Derzeit bevorzuge ich Anthropic-Modelle für Langform-Inhalte über die API. Was die Web-Version betrifft, denke ich allerdings, dass claude-3-5-sonnet-20241022 und GPT-4o gleichauf sind.
- OpenAIs o1-preview ist mein bevorzugtes Tool für Coding-Aufgaben
2.4 Feedback und Memory sind entscheidend
Du musst deinem KI-Crew Feedback geben. Sie sind gut darin, Anweisungen zu befolgen, aber sie wissen nicht, was du willst, und können deine Gedanken nicht lesen (zumindest noch nicht haha). Die Möglichkeit, dein Crew durch Feedback zu trainieren, ist entscheidend.
Mit CrewAI ist es ganz einfach, dein Crew zu trainieren und Feedback zu geben, indem du einfach Folgendes ausführst:
crewai train -n <n_iterations> <filename> (optional)
Obwohl ich die Memory-Funktionen von CrewAI noch nicht vollständig erkundet habe, scheint die Kombination aus Feedback und Memory unglaublich leistungsfähig zu sein, um konsistente, qualitativ hochwertige Ergebnisse zu erzielen.
3. Zeig mir die Ergebnisse!
Ok, ok – ich höre dich sagen: „Chandler, du hast genug geredet. Zeig mir ein Beispiel des Podcast-Skripts, das von deinem KI-Crew generiert wurde!"
Hier ist ein vollständiges Workflow-Beispiel:
- Research Phase: Sieh dir an, wie der Content Researcher-Agent wichtige Informationen aus meinen Blog-Beiträgen analysiert und extrahiert hat
- Fact Check Summary: Der detaillierte Verifizierungsbericht des Fact Checkers
- Initial Script Draft: Der erste Entwurf des Script Writers für das Podcast-Gespräch
- Final Polished Script: Die verfeinerte Version des Script Editors mit verbessertem Fluss und mehr Engagement
- Listen to the Result: Die endgültige Audioversion, die vom Audio Producer-Agenten erstellt wurde
Jeder Link oben zeigt den Fortschritt von rohem Inhalt bis zum fertigen Podcast und demonstriert, wie verschiedene Agenten zum Endprodukt beitragen.
Obwohl ich noch Ideen habe, wie ich die gesamte Pipeline weiter verbessern kann, hoffe ich, dass das oben Genannte dir einen guten Eindruck davon gibt, was möglich ist.
Abschließende Gedanken
CrewAI hat mich mit seiner Balance aus Einfachheit und Leistung beeindruckt. Obwohl es die Inhaltserstellung zugänglicher macht, ist es keine Wundertaste – Qualität erfordert nach wie vor Fachwissen, sorgfältige Planung und kontinuierliche Verfeinerung.
Hast du mit Multi-Agenten-Frameworks wie CrewAI oder Langgraph experimentiert? Ich würde gerne hören, was du damit baust – hinterlasse gerne einen Kommentar oder melde dich bei mir.
Viele Grüße,
Chandler
Update Januar 2026: Dieses CrewAI-Experiment ist schließlich zu DIALØGUE geworden – einer vollständigen Produktions-App. Die Stimmbeschränkung, die ich oben erwähnt habe? Ich bin letztendlich auf Gemini TTS umgestiegen, was mir 30 Stimmen in 7 Sprachen gab. Ein ziemliches Upgrade gegenüber 6 OpenAI-Stimmen! Wenn du neugierig bist, schau es dir an.





