La verdad sobre el arte de IA de texto a imagen: nuestra experiencia con Mid Journey y Stable Diffusion

¿Alguna vez has intentado usar herramientas de IA de texto a imagen para crear arte y fracasaste estrepitosamente? Pues exactamente eso fue lo que le pasó a mi hija y a mí.

Como muchos de ustedes, he visto muchos videos de Youtube y leído muchos artículos en línea sobre lo fácil que es crear arte e historias completas (con ilustraciones) usando herramientas de IA de texto a imagen. Algunos influencers (incluso VCs) en podcasts llegaron a sugerir que harían libros infantiles con sus hijos durante el fin de semana. Suena sencillo, ¿verdad? Especialmente porque llevaba un tiempo jugando con Stable Diffusion (principalmente vía Dream Studio). Así que "naturalmente" le dije a mi hija que sería divertido trabajar juntos para convertir su historia (Inner truths) en un libro con ilustraciones.

Después de unos cuantos días largos intentándolo, ¡el resultado ha sido decepcionante! Así que escribo este post con dos propósitos:

Compartir nuestras experiencias
Aprender de la sabiduría de internet qué puedo hacer para mejorar la situación y no decepcionar a mi hija.

Las herramientas que estamos usando

Hemos estado usando principalmente Midjourney y Stable Diffusion (vía Dream Studio y Outpainting). Estoy seguro de que existen herramientas profesionales que pueden generar ilustraciones hermosas porque hemos visto trabajos increíbles de Disney, Marvel y otras compañías. Pero el punto de muchos artículos o videos sobre arte IA es que tú también puedes crear usando herramientas para el mercado masivo. :( Está sobredimensionado.

Es relativamente fácil crear el rostro del personaje principal

Con algo de orientación, fue bastante fácil para mi hija crear el rostro del personaje principal de su historia. Pueden ver en las dos imágenes a continuación que mi hija tiene detalles muy específicos sobre su personaje principal.

La primera imagen se creó en 20 minutos, y la segunda se creó en la siguiente hora más o menos usando Midjourney. La descripción (o prompt) es aproximadamente: "Avila Abrams, a girl with little curly hair and it is a very dark brown color, green eyes with a hint of blue, light freckles, a loose white sweater with grey stripes, light bags under her eyes, a little frown on her face, a sharp v-shaped face, and she is wearing headphones in her ears."

La segunda imagen es la versión final que elegimos.

Y entonces nos quedamos atascados

Con el rostro del personaje principal listo, queríamos generar el resto de su apariencia y colocarla en la primera escena. Mi hija quiere que su personaje, Avila, use un suéter blanco holgado con rayas grises y jeans ajustados azul oscuro. Pero no podemos generar esa imagen manteniendo su rostro igual a la imagen anterior. He estado viendo los últimos videos de "Tokenized AI by Christian Heidorn" pero aún así, hemos probado prompts como:

/imagine [URL] description
/imagine wide angle shot, description --seed [seed number]
/imagine [URL] wide angle shot, full body image, description --seed [seed number]
/imagine [URL] full body image, wide angle shot, description
etc.

Y todos fallaron.

Después de eso, intenté subir el rostro de Avila a Dream Studio y generar su imagen de cuerpo completo desde allí, pero también fallé. No podemos mantener las características principales de su rostro en un grado razonable.

Luego investigué más y me encontré con este video de Prompt Muse. Ella habló de una combinación de "Thin Plate Motion Colab Notebook", "Out Painting" y "Dreambooth". Me quedé atascado a mitad del proceso con Thin Plate Motion por algunos errores que no pude resolver (bueno, no soy programador :|). En cuanto a Out Painting, está basado en Stable Diffusion, pero la interfaz es muy torpe. El resultado no es lo que buscamos después de muchos intentos.

La primera escena que mi hija quiere tener es "Avila en un salón de geografía de secundaria moderno, con una chaqueta impermeable verde oliva y jeans ajustados azul oscuro, alejándose de su escritorio, con una de las manos de la chica en una bolsa de cuero marrón oscuro." Pero estos son los resultados; ninguno es lo que buscamos. Puedes ver que con ciertos resultados, de alguna manera la máquina usa un estilo de cómic, que no es lo que pedimos.

Intentamos combinar dos imágenes y ver qué pasaba

Entonces se me ocurrió la idea de generar primero la imagen de cuerpo completo del personaje, con el ángulo de cámara correcto, y luego combinarla con una imagen detallada del salón. Pues bien, tampoco pudimos lograr que eso funcionara. El rostro y la apariencia del personaje difieren tanto. La máquina no puede manejar el nivel de detalle que mi hija imagina para el salón. T.T

Y esto es solo la primera escena de la historia :(

Probé Bing Chat, pero bueno, no funciona

Le pedí a Bing Chat que me dijera cómo podía hacer esto mediante Midjourney o Stable Diffusion, con una guía paso a paso, y lo que ofrece no es diferente de lo anterior.

Ayuda

¿Qué estamos haciendo mal? Quiero que sea un proyecto divertido con mi hija. ¡Pero estamos atascados!

Además, mi conclusión es que estas herramientas no están listas para que las use el público en general. Pueden generar una sola imagen bien, pero no una serie de imágenes. No es fácil controlar la dirección del rostro de tu personaje y el "ángulo de cámara" de la imagen, especialmente si el ángulo no es gran angular o picado. Mi hija tiene en su imaginación una escena muy detallada. Estas herramientas no pueden crearla para nosotros.

¿Me dices en los comentarios qué deberíamos hacer?

Por último, nuestro pedido a Mid Journey, Stable Diffusion o compañías similares: ¿pueden hacernos la vida más fácil? Dennos la opción de mantener las características principales del personaje constantes y poder colocar al personaje en diferentes escenas más fácilmente. Por ahora, es demasiado difícil T.T

Un abrazo,

Chandler

La verdad sobre el arte de IA de texto a imagen: nuestra experiencia con Mid Journey y Stable Diffusion

Las herramientas que estamos usando

Es relativamente fácil crear el rostro del personaje principal

Y entonces nos quedamos atascados

Intentamos combinar dos imágenes y ver qué pasaba

Probé Bing Chat, pero bueno, no funciona

Ayuda

Seguir leyendo

Hice trampa: Sydney ahora puede leer la narrativa en los informes 10-K

MVP del Agente S&P500 lanzado: Respondiendo preguntas financieras fundamentadas con datos de la SEC

Una mejora para mi chatbot actual

Chatbot v2.10 presentado: Elevando la experiencia del usuario con velocidad, escalabilidad y simplicidad mejoradas

Cómo salí de las arenas movedizas del código con un agente de IA

Un año después: Mis hábitos de búsqueda confirman el auge de los asistentes de IA y el futuro transformador del SEO

Las herramientas que estamos usando

Es relativamente fácil crear el rostro del personaje principal

Y entonces nos quedamos atascados

Intentamos combinar dos imágenes y ver qué pasaba

Probé Bing Chat, pero bueno, no funciona

Ayuda

Seguir leyendo

Hice trampa: Sydney ahora puede leer la narrativa en los informes 10-K

MVP del Agente S&amp;P500 lanzado: Respondiendo preguntas financieras fundamentadas con datos de la SEC

Una mejora para mi chatbot actual

Chatbot v2.10 presentado: Elevando la experiencia del usuario con velocidad, escalabilidad y simplicidad mejoradas

Cómo salí de las arenas movedizas del código con un agente de IA

Un año después: Mis hábitos de búsqueda confirman el auge de los asistentes de IA y el futuro transformador del SEO

MVP del Agente S&P500 lanzado: Respondiendo preguntas financieras fundamentadas con datos de la SEC