Skip to content
··5 min de leitura

A Verdade sobre a Arte de IA Texto-para-Imagem: Nossa Experiência com Mid Journey e Stable Diffusion

Passamos dias tentando ilustrar a história da minha filha com ferramentas de arte IA como Midjourney e Stable Diffusion — e batemos em uma parede ao tentar manter a consistência do personagem entre as cenas. (Nota: a geração de imagens por IA melhorou dramaticamente desde este post de 2023. Ferramentas como Midjourney v6+, DALL-E 3 e Flux agora lidam muito melhor com a consistência de personagens.)

Este post foi escrito em 2023. Alguns detalhes podem ter mudado desde então.

Você já tentou usar ferramentas de IA texto-para-imagem para criar arte e fracassou miseravelmente? Bem, foi exatamente isso que aconteceu comigo e com a minha filha.

Como muitos de vocês, assisti a muitos vídeos no YouTube e li muitos artigos online sobre como é fácil criar arte e histórias completas (com ilustrações) usando ferramentas de IA texto-para-imagem. Alguns influenciadores (incluindo VCs) em podcasts até sugeriram que fariam livros infantis com seus filhos durante o fim de semana. Parece simples, não é? Especialmente porque eu venho brincando com o Stable Diffusion (principalmente via Dream Studio) há algum tempo. Então "naturalmente", disse à minha filha que seria divertido trabalharmos juntos para transformar a história dela (Inner truths) em um livro com ilustrações.

Depois de alguns longos dias tentando, o resultado foi decepcionante! Então escrevo este post com dois propósitos:

  1. Compartilhar nossas experiências
  2. Aprender com a sabedoria da internet o que posso fazer para melhorar a situação e não decepcionar minha filha.

Ferramentas que estamos usando

Temos usado principalmente Midjourney e Stable Diffusion (via Dream Studio e Outpainting). Tenho certeza de que existem ferramentas profissionais que podem gerar ilustrações lindas, porque já vimos trabalhos incríveis da Disney, Marvel e outras empresas. Mas o ponto de muitos artigos ou vídeos sobre Arte de IA é que você pode criar usando ferramentas voltadas para o público geral também. :( É muito exagerado.

É relativamente fácil criar o rosto do personagem principal

Com alguma orientação, foi bem fácil para minha filha criar o rosto do personagem principal da história dela. Você pode ver nas duas imagens abaixo que minha filha tem detalhes muito específicos sobre sua personagem principal.

AI-generated artwork example from text-to-image tool

Avila Abrams, a white girl with little curly hair and it is a very dark brown color, green eyes with a hint of blue, light freckles, a loose white sweater with grey stripes, light bags under her eyes, a little frown on her face, a sharp v-shaped face, and she is wearing headphones in her ears

A primeira imagem foi criada em 20 minutos, e a segunda foi criada na hora seguinte usando Midjourney. A descrição (ou prompt) é mais ou menos: "Avila Abrams, uma menina com cabelo cacheado curto e de cor marrom escuro, olhos verdes com um toque de azul, sardas leves, um suéter branco largo com listras cinzas, olheiras leves, uma ligeira carranca no rosto, um rosto com formato V acentuado, e ela está usando fones de ouvido."

A segunda imagem é a versão final que escolhemos.

Então travamos

Com o rosto do personagem principal pronto, queremos gerar o resto do visual dela e colocá-la na primeira cena. Minha filha quer que sua personagem, Avila, use um suéter branco largo com listras cinzas e jeans skinny azul escuro. Mas não conseguimos gerar essa imagem mantendo o rosto da personagem igual à foto acima. Tenho assistido os vídeos mais recentes do "Tokenized AI by Christian Heidorn", mas mesmo assim, tentamos prompts como:

  • /imagine [URL] descrição
  • /imagine wide angle shot, descrição --seed [número seed]
  • /imagine [URL] wide angle shot, full body image, descrição --seed [número seed]
  • /imagine [URL] full body image, wide angle shot, descrição
  • etc.

E todos falharam.

Depois disso, tentei fazer upload do rosto de Avila no Dream Studio e gerar a imagem do corpo inteiro dela a partir de lá, mas sem sucesso. Não conseguimos manter as principais características do rosto dela de forma razoável.

Então fiz mais pesquisas e encontrei este vídeo do Prompt Muse. Ela falou sobre uma combinação de "Thin Plate Motion Colab Notebook", "Out Painting" e "Dreambooth". Fiquei travado na metade do Thin Plate Motion com alguns erros que não consegui resolver (bem, não sou programador :|). Quanto ao Out Painting, é baseado no Stable Diffusion, mas a interface é muito confusa. O resultado não é o que procuramos depois de muitas tentativas.

A primeira cena que minha filha quer ter é "Avila em uma sala de aula moderna de geografia do ensino médio, usando uma jaqueta impermeável verde oliva e jeans skinny azul escuro, se afastando da mesa, com uma das mãos da menina em uma bolsa de couro marrom escuro." Mas esses são os resultados; nenhum é o que procuramos. Você pode ver que em certos resultados, de alguma forma a máquina usa um estilo de quadrinhos, que não é o que estamos pedindo.

Tentamos misturar duas imagens e vimos o que aconteceu

Então tive a ideia de gerar primeiro a imagem do corpo inteiro do personagem, com o ângulo de câmera correto, e depois misturá-la com uma imagem detalhada da sala de aula. Bem, também não conseguimos fazer isso funcionar. O rosto/visual do personagem muda demais. A máquina não consegue lidar com o nível de detalhe que minha filha imagina para a sala de aula. T.T

E essa é apenas a primeira cena da história :(

Tentei o Bing Chat, mas, bem, não funciona

Pedi ao Bing Chat para me dizer como fazer isso via Midjourney ou Stable Diffusion, com um guia passo a passo, e o que ele oferece não é diferente do que descrevi acima.

Ajuda

Então o que estamos fazendo de errado? Quero que seja um projeto divertido com minha filha. Mas estamos travados!

Além disso, minha conclusão é que essas ferramentas não estão prontas para o uso das massas. Elas conseguem gerar uma única imagem bem, mas não uma série de imagens. Não é fácil controlar a direção do rosto do seu personagem e o "ângulo de câmera" da imagem, especialmente se o ângulo não for algo como grande angular ou vista de cima. Minha filha tem em sua imaginação uma cena muito detalhada. Essas ferramentas não conseguem criar isso para nós.

Me digam nos comentários o que devemos fazer?

Por último, mas não menos importante, nosso pedido ao Mid Journey, Stable Diffusion ou empresas similares: vocês podem facilitar a vida para nós? Deem-nos a opção de manter as principais características do personagem constantes e de colocar o personagem em cenas diferentes com mais facilidade. Por enquanto, está muito difícil T.T

Abraços, Chandler

Continuar Lendo

Minha Jornada
Conectar
Idioma
Preferências