La vérité sur l'art par IA texte-vers-image : notre expérience avec Mid Journey et Stable Diffusion

As-tu déjà essayé d'utiliser des outils d'IA texte-vers-image pour créer de l'art et échoué lamentablement ? C'est exactement ce qui est arrivé à ma fille et moi.

Comme beaucoup d'entre vous, j'ai regardé de nombreuses vidéos YouTube et lu de nombreux articles en ligne sur la facilité de créer de l'art et des histoires complètes (avec des illustrations) à l'aide d'outils d'IA texte-vers-image. Certains influenceurs (y compris des VCs) dans des podcasts ont même suggéré qu'ils créeraient des livres pour enfants avec leurs enfants le week-end. Ça semble assez simple, non ? Surtout que je joue avec Stable Diffusion (principalement via Dream Studio) depuis un moment. Alors « naturellement », j'ai dit à ma fille que ce serait amusant de travailler ensemble pour transformer son histoire (Inner truths) en un livre illustré.

Après quelques longues journées d'essais, le résultat a été décevant ! J'écris donc cet article avec deux objectifs :

Partager nos expériences
Apprendre de la sagesse d'Internet ce que je peux faire pour améliorer la situation et ne pas décevoir ma fille.

Outils que nous utilisons

Nous avons principalement utilisé Midjourney et Stable Diffusion (via Dream Studio et Outpainting). Je suis sûr qu'il existe des outils professionnels existants capables de générer de belles illustrations, car nous avons vu un travail incroyable de Disney, Marvel et d'autres entreprises. Mais le but de nombreux articles ou vidéos sur l'art IA est que tu peux créer en utilisant des outils grand public aussi. :( C'est surévalué.

Il est relativement facile de créer le visage du personnage principal

Avec quelques conseils, ma fille a pu créer assez facilement le visage du personnage principal de son histoire. Tu peux voir sur les deux images ci-dessous que ma fille a des détails très précis sur son personnage principal.

La première image a été créée en 20 minutes, et la deuxième dans l'heure suivante en utilisant Midjourney. La description (ou prompt) était à peu près : « Avila Abrams, une fille avec de petits cheveux bouclés d'un brun très foncé, des yeux verts avec une touche de bleu, de légères taches de rousseur, un pull blanc ample avec des rayures grises, de légères poches sous les yeux, une légère moue sur le visage, un visage en forme de V bien marqué, et elle porte des écouteurs dans les oreilles. »

La deuxième image est la version finale que nous avons choisie.

Puis nous nous sommes retrouvés bloqués

Avec le visage du personnage principal terminé, nous voulions générer le reste de son apparence et la placer dans la première scène. Ma fille veut que son personnage, Avila, porte un pull blanc ample avec des rayures grises et un jean skinny bleu foncé. Mais nous ne pouvons pas générer cette image en maintenant son visage identique à la photo ci-dessus. J'ai regardé les dernières vidéos de « Tokenized AI by Christian Heidorn » mais malgré tout, nous avons essayé des prompts comme :

/imagine [URL] description
/imagine wide angle shot, description --seed [seed number]
/imagine [URL] wide angle shot, full body image, description --seed [seed number]
/imagine [URL] full body image, wide angle shot, description
etc.

Et tous ont échoué.

Ensuite, j'ai essayé de télécharger le visage d'Avila sur Dream Studio et de générer son image en pied à partir de là, mais ça n'a pas fonctionné non plus. Nous ne pouvons pas conserver les caractéristiques principales de son visage de manière satisfaisante.

J'ai ensuite fait plus de recherches et suis tombé sur cette vidéo de Prompt Muse. Elle a parlé d'une combinaison de « Thin Plate Motion Colab Notebook », « Out Painting » et « Dreambooth ». Je me suis retrouvé bloqué à mi-chemin avec Thin Plate Motion à cause d'erreurs que je ne peux pas résoudre (bon, je ne suis pas développeur :|). Quant à Out Painting, il est basé sur Stable Diffusion, mais l'interface est très maladroite. Le résultat n'est pas ce que nous cherchons après de nombreux essais.

La première scène que ma fille veut avoir est « Avila dans une salle de géographie de collège moderne, portant une veste imperméable vert olive et un jean skinny bleu foncé, s'éloignant de son bureau, une main de la fille sur un sac en cuir brun foncé. » Mais voilà les résultats ; aucun ne correspond à ce que nous cherchons. Tu peux voir que certains résultats, bizarrement, utilisent un style bande dessinée, ce qui n'est pas du tout ce que nous demandons.

Nous avons essayé de fusionner deux images ensemble pour voir ce qui se passerait

Ensuite, j'ai eu l'idée de générer d'abord l'image en pied du personnage avec le bon angle de caméra, puis de la fusionner avec une image détaillée de la salle de classe. Eh bien, nous n'avons pas réussi à faire fonctionner ça non plus. Le visage/l'apparence du personnage change trop. La machine ne peut pas gérer le niveau de détail que ma fille imagine pour la salle de classe. T.T

Et ce n'est que la première scène de l'histoire :(

J'ai essayé Bing Chat, mais ça ne fonctionne pas non plus

J'ai demandé à Bing Chat de me dire comment faire cela via Midjourney ou Stable Diffusion, avec un guide étape par étape, et ce qu'il propose n'est pas différent de ce qui précède.

Au secours

Alors qu'est-ce que nous faisons de travers ? Je veux que ce soit un projet amusant avec ma fille. Mais nous sommes bloqués !

Ma conclusion est également que ces outils ne sont pas prêts pour une utilisation par le grand public. Ils peuvent bien générer une seule image, mais pas une série d'images. Il n'est pas facile de contrôler la direction du visage de ton personnage et l'« angle de caméra » de l'image, surtout si l'angle n'est pas comme un grand angle ou un plongeon. Ma fille imagine une scène très détaillée. Ces outils ne peuvent pas créer ça pour nous.

Dis-moi dans les commentaires ce que nous devrions faire ?

Enfin, notre demande à Mid Journey, Stable Diffusion ou des entreprises similaires : pouvez-vous nous faciliter la vie ? Donnez-nous l'option de conserver les caractéristiques principales du personnage constantes et de pouvoir le placer plus facilement dans différentes scènes. Pour l'instant, c'est trop difficile T.T

Cordialement, Chandler

La vérité sur l'art par IA texte-vers-image : notre expérience avec Mid Journey et Stable Diffusion

Outils que nous utilisons

Il est relativement facile de créer le visage du personnage principal

Puis nous nous sommes retrouvés bloqués

Nous avons essayé de fusionner deux images ensemble pour voir ce qui se passerait

J'ai essayé Bing Chat, mais ça ne fonctionne pas non plus

Au secours

Continuer la lecture

J

Agent S&P500 MVP lancé : répondre aux questions financières ancrées dans les données SEC

Une mise à niveau de mon chatbot actuel

Chatbot v2.10 dévoilé : élever l'expérience utilisateur avec une vitesse, une évolutivité et une simplicité améliorées

Comment je me suis sorti des sables mouvants du code grâce à un agent IA

Un an plus tard : mes habitudes de recherche confirment la montée en puissance des assistants IA et l'avenir transformé du SEO

Outils que nous utilisons

Il est relativement facile de créer le visage du personnage principal

Puis nous nous sommes retrouvés bloqués

Nous avons essayé de fusionner deux images ensemble pour voir ce qui se passerait

J'ai essayé Bing Chat, mais ça ne fonctionne pas non plus

Au secours

Continuer la lecture

J

Agent S&amp;P500 MVP lancé : répondre aux questions financières ancrées dans les données SEC

Une mise à niveau de mon chatbot actuel

Chatbot v2.10 dévoilé : élever l'expérience utilisateur avec une vitesse, une évolutivité et une simplicité améliorées

Comment je me suis sorti des sables mouvants du code grâce à un agent IA

Un an plus tard : mes habitudes de recherche confirment la montée en puissance des assistants IA et l'avenir transformé du SEO

Agent S&P500 MVP lancé : répondre aux questions financières ancrées dans les données SEC