Die Wahrheit über Text-zu-Bild-KI-Kunst: Unsere Erfahrung mit Mid Journey und Stable Diffusion
Wir verbrachten Tage damit, die Geschichte meiner Tochter mit KI-Kunsttools wie Midjourney und Stable Diffusion zu illustrieren — nur um an der Konsistenz der Figur über Szenen hinweg zu scheitern. (Hinweis: Die KI-Bildgenerierung hat sich seit diesem Beitrag von 2023 dramatisch verbessert. Tools wie Midjourney v6+, DALL-E 3 und Flux bewältigen die Figurenkonsistenz jetzt viel besser.)
Dieser Beitrag wurde 2023 geschrieben. Einige Details können sich seitdem geändert haben.
Hast du jemals versucht, Text-zu-Bild-KI-Tools zum Erstellen von Kunst zu verwenden, und kläglich gescheitert? Nun, genau das ist meiner Tochter und mir passiert.
Wie viele von euch habe ich viele Youtube-Videos gesehen und viele Online-Artikel darüber gelesen, wie einfach es ist, Kunst und vollständige Geschichten (mit Illustrationen) mit Text-zu-Bild-KI-Tools zu erstellen. Einige Influencer (einschließlich VCs) auf Podcasts schlugen sogar vor, dass sie Kinderbücher mit ihren Kindern übers Wochenende machen würden. Das klingt einfach genug, oder? Besonders da ich schon eine Weile mit Stable Diffusion (hauptsächlich über Dream Studio) gespielt habe. Also sagte ich „natürlich" meiner Tochter, dass es Spaß machen würde, zusammenzuarbeiten, um ihre Geschichte (Inner truths) in ein Buch mit Illustrationen zu verwandeln.
Nach einigen langen Tagen des Versuchens war das Ergebnis enttäuschend! Also schreibe ich diesen Beitrag mit zwei Zwecken:
- Unsere Erfahrungen zu teilen
- Von der Weisheit des Internets zu lernen, was ich tun kann, um die Situation zu verbessern und meine Tochter nicht zu enttäuschen.
Tools, die wir verwenden
Wir haben hauptsächlich Midjourney und Stable Diffusion (über Dream Studio und Outpainting) verwendet. Ich bin sicher, dass es professionelle Tools gibt, die wunderschöne Illustrationen generieren können, weil wir erstaunliche Arbeiten von Disney, Marvel und anderen Unternehmen gesehen haben. Aber der Punkt vieler Artikel oder Videos über KI-Kunst ist, dass du auch mit Massenmarkt-Tools kreieren kannst. :( Das ist übertrieben.
Es ist relativ einfach, das Gesicht der Hauptfigur zu erstellen
Mit etwas Anleitung war es für meine Tochter ziemlich einfach, das Gesicht der Hauptfigur für ihre Geschichte zu erstellen. Aus den beiden unten stehenden Bildern kannst du sehen, dass meine Tochter sehr spezifische Details über ihre Hauptfigur hat.
Das erste Bild wurde innerhalb von 20 Minuten erstellt, und das zweite innerhalb der nächsten Stunde oder so mit Midjourney. Die Beschreibung (oder der Prompt) lautet ungefähr: „Avila Abrams, ein Mädchen mit kleinen lockigen Haaren, die sehr dunkelbraun sind, grüne Augen mit einem Hauch von Blau, leichte Sommersprossen, ein lockerer weißer Pullover mit grauen Streifen, leichte Augenringe, ein leichtes Stirnrunzeln, ein scharfes v-förmiges Gesicht, und sie trägt Kopfhörer in ihren Ohren."
Das zweite Bild ist die endgültige Version, die wir gewählt haben.
Dann steckten wir fest
Mit dem Gesicht der Hauptfigur fertig wollten wir den Rest ihres Aussehens generieren und sie in die erste Szene einsetzen. Meine Tochter möchte, dass ihre Figur Avila einen lockeren weißen Pullover mit grauen Streifen und dunkelblaue Skinny Jeans trägt. Aber wir können dieses Bild nicht generieren, während ihr Gesicht gleich wie auf dem obigen Bild bleibt. Ich habe die neuesten Videos von „Tokenized AI by Christian Heidorn" gesehen, aber trotzdem haben wir Prompts versucht wie:
- /imagine [URL] description
- /imagine wide angle shot, description --seed [seed number]
- /imagine [URL] wide angle shot, full body image, description --seed [seed number]
- /imagine [URL] full body image, wide angle shot, description
- usw.
Und sie alle schlugen fehl.
Danach versuchte ich, Avilas Gesicht auf Dream Studio hochzuladen und von dort aus ihr Ganzkörperbild zu generieren, aber das scheiterte auch. Wir können die Hauptmerkmale ihres Gesichts nicht in einem vernünftigen Maße konstant halten.
Dann recherchierte ich mehr und stieß auf dieses Video von Prompt Muse. Sie sprach über eine Kombination aus „Thin Plate Motion Colab Notebook", „Out Painting" und „Dreambooth". Ich steckte bei Thin Plate Motion mit einigen Fehlern fest, die ich nicht herausfinden konnte (ich bin kein Programmierer :|). Was Out Painting betrifft, basiert es auf Stable Diffusion, aber die Schnittstelle ist sehr unhandlich. Das Ergebnis ist nach vielen Versuchen nicht das, wonach wir suchen.
Die erste Szene, die meine Tochter haben möchte, ist „Avila in einem modernen Mittelschul-Geografieklassenzimmer, die eine olivgrüne wasserdichte Jacke und dunkelblaue Skinny Jeans trägt, von ihrem Schreibtisch weggeht, eine Hand des Mädchens an einer dunklen braunen Ledertasche." Aber das sind die Ergebnisse; keine ist das, wonach wir suchen. Du kannst sehen, dass die Maschine bei bestimmten Ausgaben einen Comic-Stil verwendet, der nicht dem entspricht, was wir fordern.
Wir versuchten, zwei Bilder zusammenzufügen und zu sehen, was passiert
Dann hatte ich eine Idee, wie ich zuerst das Ganzkörperbild der Figur mit dem richtigen Kamerawinkel generieren und es dann mit einem detaillierten Klassenzimmerbild zusammenfügen könnte. Nun, uns ist es auch nicht gelungen. Das Gesicht/Aussehen der Figur unterscheidet sich so sehr. Die Maschine kann nicht mit dem Detaillierungsgrad umgehen, den meine Tochter für das Klassenzimmer imaginiert. T.T
Und das ist nur die erste Szene der Geschichte :(
Ich habe Bing Chat versucht, aber nun ja, es funktioniert nicht
Ich bat Bing Chat mir zu erklären, wie ich das über Midjourney oder Stable Diffusion tun kann, mit einer Schritt-für-Schritt-Anleitung, und was es anbietet, unterscheidet sich nicht vom obigen.
Hilfe
Was machen wir falsch? Ich möchte, dass es ein lustiges Projekt mit meiner Tochter ist. Aber wir stecken fest!
Außerdem ist mein Fazit, dass diese Tools noch nicht für die Masse bereit sind. Sie können ein einzelnes Bild gut generieren, aber keine Serie von Bildern. Es ist nicht einfach, die Richtung des Gesichts deiner Figur zu kontrollieren, und den „Kamerawinkel" des Bildes, besonders wenn der Winkel kein Weitwinkel- oder Top-Down-Winkel ist. Meine Tochter hat in ihrer Vorstellung eine sehr detaillierte Szene. Diese Tools können das nicht für uns erstellen.
Sag mir in den Kommentaren, was wir tun sollen?
Zu guter Letzt, unsere Bitte an Mid Journey, Stable Diffusion oder ähnliche Unternehmen: Könnt ihr das Leben für uns einfacher machen? Gebt uns die Option, die Hauptmerkmale der Figur konstant zu halten und die Figur leichter in verschiedenen Szenen platzieren zu können. Im Moment ist es zu schwer T.T
Chandler







