Die Wahrheit über Text-zu-Bild-KI-Kunst: Unsere Erfahrung mit Mid Journey und Stable Diffusion

Hast du jemals versucht, Text-zu-Bild-KI-Tools zum Erstellen von Kunst zu verwenden, und kläglich gescheitert? Nun, genau das ist meiner Tochter und mir passiert.

Wie viele von euch habe ich viele Youtube-Videos gesehen und viele Online-Artikel darüber gelesen, wie einfach es ist, Kunst und vollständige Geschichten (mit Illustrationen) mit Text-zu-Bild-KI-Tools zu erstellen. Einige Influencer (einschließlich VCs) auf Podcasts schlugen sogar vor, dass sie Kinderbücher mit ihren Kindern übers Wochenende machen würden. Das klingt einfach genug, oder? Besonders da ich schon eine Weile mit Stable Diffusion (hauptsächlich über Dream Studio) gespielt habe. Also sagte ich „natürlich" meiner Tochter, dass es Spaß machen würde, zusammenzuarbeiten, um ihre Geschichte (Inner truths) in ein Buch mit Illustrationen zu verwandeln.

Nach einigen langen Tagen des Versuchens war das Ergebnis enttäuschend! Also schreibe ich diesen Beitrag mit zwei Zwecken:

Unsere Erfahrungen zu teilen
Von der Weisheit des Internets zu lernen, was ich tun kann, um die Situation zu verbessern und meine Tochter nicht zu enttäuschen.

Tools, die wir verwenden

Wir haben hauptsächlich Midjourney und Stable Diffusion (über Dream Studio und Outpainting) verwendet. Ich bin sicher, dass es professionelle Tools gibt, die wunderschöne Illustrationen generieren können, weil wir erstaunliche Arbeiten von Disney, Marvel und anderen Unternehmen gesehen haben. Aber der Punkt vieler Artikel oder Videos über KI-Kunst ist, dass du auch mit Massenmarkt-Tools kreieren kannst. :( Das ist übertrieben.

Es ist relativ einfach, das Gesicht der Hauptfigur zu erstellen

Mit etwas Anleitung war es für meine Tochter ziemlich einfach, das Gesicht der Hauptfigur für ihre Geschichte zu erstellen. Aus den beiden unten stehenden Bildern kannst du sehen, dass meine Tochter sehr spezifische Details über ihre Hauptfigur hat.

Das erste Bild wurde innerhalb von 20 Minuten erstellt, und das zweite innerhalb der nächsten Stunde oder so mit Midjourney. Die Beschreibung (oder der Prompt) lautet ungefähr: „Avila Abrams, ein Mädchen mit kleinen lockigen Haaren, die sehr dunkelbraun sind, grüne Augen mit einem Hauch von Blau, leichte Sommersprossen, ein lockerer weißer Pullover mit grauen Streifen, leichte Augenringe, ein leichtes Stirnrunzeln, ein scharfes v-förmiges Gesicht, und sie trägt Kopfhörer in ihren Ohren."

Das zweite Bild ist die endgültige Version, die wir gewählt haben.

Dann steckten wir fest

Mit dem Gesicht der Hauptfigur fertig wollten wir den Rest ihres Aussehens generieren und sie in die erste Szene einsetzen. Meine Tochter möchte, dass ihre Figur Avila einen lockeren weißen Pullover mit grauen Streifen und dunkelblaue Skinny Jeans trägt. Aber wir können dieses Bild nicht generieren, während ihr Gesicht gleich wie auf dem obigen Bild bleibt. Ich habe die neuesten Videos von „Tokenized AI by Christian Heidorn" gesehen, aber trotzdem haben wir Prompts versucht wie:

/imagine [URL] description
/imagine wide angle shot, description --seed [seed number]
/imagine [URL] wide angle shot, full body image, description --seed [seed number]
/imagine [URL] full body image, wide angle shot, description
usw.

Und sie alle schlugen fehl.

Danach versuchte ich, Avilas Gesicht auf Dream Studio hochzuladen und von dort aus ihr Ganzkörperbild zu generieren, aber das scheiterte auch. Wir können die Hauptmerkmale ihres Gesichts nicht in einem vernünftigen Maße konstant halten.

Dann recherchierte ich mehr und stieß auf dieses Video von Prompt Muse. Sie sprach über eine Kombination aus „Thin Plate Motion Colab Notebook", „Out Painting" und „Dreambooth". Ich steckte bei Thin Plate Motion mit einigen Fehlern fest, die ich nicht herausfinden konnte (ich bin kein Programmierer :|). Was Out Painting betrifft, basiert es auf Stable Diffusion, aber die Schnittstelle ist sehr unhandlich. Das Ergebnis ist nach vielen Versuchen nicht das, wonach wir suchen.

Die erste Szene, die meine Tochter haben möchte, ist „Avila in einem modernen Mittelschul-Geografieklassenzimmer, die eine olivgrüne wasserdichte Jacke und dunkelblaue Skinny Jeans trägt, von ihrem Schreibtisch weggeht, eine Hand des Mädchens an einer dunklen braunen Ledertasche." Aber das sind die Ergebnisse; keine ist das, wonach wir suchen. Du kannst sehen, dass die Maschine bei bestimmten Ausgaben einen Comic-Stil verwendet, der nicht dem entspricht, was wir fordern.

Wir versuchten, zwei Bilder zusammenzufügen und zu sehen, was passiert

Dann hatte ich eine Idee, wie ich zuerst das Ganzkörperbild der Figur mit dem richtigen Kamerawinkel generieren und es dann mit einem detaillierten Klassenzimmerbild zusammenfügen könnte. Nun, uns ist es auch nicht gelungen. Das Gesicht/Aussehen der Figur unterscheidet sich so sehr. Die Maschine kann nicht mit dem Detaillierungsgrad umgehen, den meine Tochter für das Klassenzimmer imaginiert. T.T

Und das ist nur die erste Szene der Geschichte :(

Ich habe Bing Chat versucht, aber nun ja, es funktioniert nicht

Ich bat Bing Chat mir zu erklären, wie ich das über Midjourney oder Stable Diffusion tun kann, mit einer Schritt-für-Schritt-Anleitung, und was es anbietet, unterscheidet sich nicht vom obigen.

Hilfe

Was machen wir falsch? Ich möchte, dass es ein lustiges Projekt mit meiner Tochter ist. Aber wir stecken fest!

Außerdem ist mein Fazit, dass diese Tools noch nicht für die Masse bereit sind. Sie können ein einzelnes Bild gut generieren, aber keine Serie von Bildern. Es ist nicht einfach, die Richtung des Gesichts deiner Figur zu kontrollieren, und den „Kamerawinkel" des Bildes, besonders wenn der Winkel kein Weitwinkel- oder Top-Down-Winkel ist. Meine Tochter hat in ihrer Vorstellung eine sehr detaillierte Szene. Diese Tools können das nicht für uns erstellen.

Sag mir in den Kommentaren, was wir tun sollen?

Zu guter Letzt, unsere Bitte an Mid Journey, Stable Diffusion oder ähnliche Unternehmen: Könnt ihr das Leben für uns einfacher machen? Gebt uns die Option, die Hauptmerkmale der Figur konstant zu halten und die Figur leichter in verschiedenen Szenen platzieren zu können. Im Moment ist es zu schwer T.T

Chandler

Die Wahrheit über Text-zu-Bild-KI-Kunst: Unsere Erfahrung mit Mid Journey und Stable Diffusion

Tools, die wir verwenden

Es ist relativ einfach, das Gesicht der Hauptfigur zu erstellen

Dann steckten wir fest

Wir versuchten, zwei Bilder zusammenzufügen und zu sehen, was passiert

Ich habe Bing Chat versucht, aber nun ja, es funktioniert nicht

Hilfe

Weiterlesen

Ich habe geschummelt: Sydney kann jetzt die Erzählung in 10-K-Berichten lesen

S&P500 Agent MVP gestartet: Finanzfragen beantwortet, gestützt auf SEC-Daten

Ein Upgrade für meinen aktuellen Chatbot

Chatbot v2.10 enthüllt: Besseres Nutzererlebnis durch höhere Geschwindigkeit, Skalierbarkeit und Einfachheit

Wie ich mich mit einem KI-Agenten aus dem Coding-Treibsand befreit habe

Ein Jahr später: Meine Suchgewohnheiten bestätigen den Aufstieg von KI-Assistenten und die sich wandelnde Zukunft der SEO

Tools, die wir verwenden

Es ist relativ einfach, das Gesicht der Hauptfigur zu erstellen

Dann steckten wir fest

Wir versuchten, zwei Bilder zusammenzufügen und zu sehen, was passiert

Ich habe Bing Chat versucht, aber nun ja, es funktioniert nicht

Hilfe

Weiterlesen

Ich habe geschummelt: Sydney kann jetzt die Erzählung in 10-K-Berichten lesen

S&amp;P500 Agent MVP gestartet: Finanzfragen beantwortet, gestützt auf SEC-Daten

Ein Upgrade für meinen aktuellen Chatbot

Chatbot v2.10 enthüllt: Besseres Nutzererlebnis durch höhere Geschwindigkeit, Skalierbarkeit und Einfachheit

Wie ich mich mit einem KI-Agenten aus dem Coding-Treibsand befreit habe

Ein Jahr später: Meine Suchgewohnheiten bestätigen den Aufstieg von KI-Assistenten und die sich wandelnde Zukunft der SEO

S&P500 Agent MVP gestartet: Finanzfragen beantwortet, gestützt auf SEC-Daten