A Verdade sobre a Arte de IA Texto-para-Imagem: Nossa Experiência com Mid Journey e Stable Diffusion

Você já tentou usar ferramentas de IA texto-para-imagem para criar arte e fracassou miseravelmente? Bem, foi exatamente isso que aconteceu comigo e com a minha filha.

Como muitos de vocês, assisti a muitos vídeos no YouTube e li muitos artigos online sobre como é fácil criar arte e histórias completas (com ilustrações) usando ferramentas de IA texto-para-imagem. Alguns influenciadores (incluindo VCs) em podcasts até sugeriram que fariam livros infantis com seus filhos durante o fim de semana. Parece simples, não é? Especialmente porque eu venho brincando com o Stable Diffusion (principalmente via Dream Studio) há algum tempo. Então "naturalmente", disse à minha filha que seria divertido trabalharmos juntos para transformar a história dela (Inner truths) em um livro com ilustrações.

Depois de alguns longos dias tentando, o resultado foi decepcionante! Então escrevo este post com dois propósitos:

Compartilhar nossas experiências
Aprender com a sabedoria da internet o que posso fazer para melhorar a situação e não decepcionar minha filha.

Ferramentas que estamos usando

Temos usado principalmente Midjourney e Stable Diffusion (via Dream Studio e Outpainting). Tenho certeza de que existem ferramentas profissionais que podem gerar ilustrações lindas, porque já vimos trabalhos incríveis da Disney, Marvel e outras empresas. Mas o ponto de muitos artigos ou vídeos sobre Arte de IA é que você pode criar usando ferramentas voltadas para o público geral também. :( É muito exagerado.

É relativamente fácil criar o rosto do personagem principal

Com alguma orientação, foi bem fácil para minha filha criar o rosto do personagem principal da história dela. Você pode ver nas duas imagens abaixo que minha filha tem detalhes muito específicos sobre sua personagem principal.

A primeira imagem foi criada em 20 minutos, e a segunda foi criada na hora seguinte usando Midjourney. A descrição (ou prompt) é mais ou menos: "Avila Abrams, uma menina com cabelo cacheado curto e de cor marrom escuro, olhos verdes com um toque de azul, sardas leves, um suéter branco largo com listras cinzas, olheiras leves, uma ligeira carranca no rosto, um rosto com formato V acentuado, e ela está usando fones de ouvido."

A segunda imagem é a versão final que escolhemos.

Então travamos

Com o rosto do personagem principal pronto, queremos gerar o resto do visual dela e colocá-la na primeira cena. Minha filha quer que sua personagem, Avila, use um suéter branco largo com listras cinzas e jeans skinny azul escuro. Mas não conseguimos gerar essa imagem mantendo o rosto da personagem igual à foto acima. Tenho assistido os vídeos mais recentes do "Tokenized AI by Christian Heidorn", mas mesmo assim, tentamos prompts como:

/imagine [URL] descrição
/imagine wide angle shot, descrição --seed [número seed]
/imagine [URL] wide angle shot, full body image, descrição --seed [número seed]
/imagine [URL] full body image, wide angle shot, descrição
etc.

E todos falharam.

Depois disso, tentei fazer upload do rosto de Avila no Dream Studio e gerar a imagem do corpo inteiro dela a partir de lá, mas sem sucesso. Não conseguimos manter as principais características do rosto dela de forma razoável.

Então fiz mais pesquisas e encontrei este vídeo do Prompt Muse. Ela falou sobre uma combinação de "Thin Plate Motion Colab Notebook", "Out Painting" e "Dreambooth". Fiquei travado na metade do Thin Plate Motion com alguns erros que não consegui resolver (bem, não sou programador :|). Quanto ao Out Painting, é baseado no Stable Diffusion, mas a interface é muito confusa. O resultado não é o que procuramos depois de muitas tentativas.

A primeira cena que minha filha quer ter é "Avila em uma sala de aula moderna de geografia do ensino médio, usando uma jaqueta impermeável verde oliva e jeans skinny azul escuro, se afastando da mesa, com uma das mãos da menina em uma bolsa de couro marrom escuro." Mas esses são os resultados; nenhum é o que procuramos. Você pode ver que em certos resultados, de alguma forma a máquina usa um estilo de quadrinhos, que não é o que estamos pedindo.

Tentamos misturar duas imagens e vimos o que aconteceu

Então tive a ideia de gerar primeiro a imagem do corpo inteiro do personagem, com o ângulo de câmera correto, e depois misturá-la com uma imagem detalhada da sala de aula. Bem, também não conseguimos fazer isso funcionar. O rosto/visual do personagem muda demais. A máquina não consegue lidar com o nível de detalhe que minha filha imagina para a sala de aula. T.T

E essa é apenas a primeira cena da história :(

Tentei o Bing Chat, mas, bem, não funciona

Pedi ao Bing Chat para me dizer como fazer isso via Midjourney ou Stable Diffusion, com um guia passo a passo, e o que ele oferece não é diferente do que descrevi acima.

Ajuda

Então o que estamos fazendo de errado? Quero que seja um projeto divertido com minha filha. Mas estamos travados!

Além disso, minha conclusão é que essas ferramentas não estão prontas para o uso das massas. Elas conseguem gerar uma única imagem bem, mas não uma série de imagens. Não é fácil controlar a direção do rosto do seu personagem e o "ângulo de câmera" da imagem, especialmente se o ângulo não for algo como grande angular ou vista de cima. Minha filha tem em sua imaginação uma cena muito detalhada. Essas ferramentas não conseguem criar isso para nós.

Me digam nos comentários o que devemos fazer?

Por último, mas não menos importante, nosso pedido ao Mid Journey, Stable Diffusion ou empresas similares: vocês podem facilitar a vida para nós? Deem-nos a opção de manter as principais características do personagem constantes e de colocar o personagem em cenas diferentes com mais facilidade. Por enquanto, está muito difícil T.T

Abraços, Chandler

A Verdade sobre a Arte de IA Texto-para-Imagem: Nossa Experiência com Mid Journey e Stable Diffusion

Ferramentas que estamos usando

É relativamente fácil criar o rosto do personagem principal

Então travamos

Tentamos misturar duas imagens e vimos o que aconteceu

Tentei o Bing Chat, mas, bem, não funciona

Ajuda

Continuar lendo

Eu trapaceei: Sydney agora consegue ler a narrativa nos relatórios 10-K

MVP do Agente S&P500 lançado: respondendo perguntas financeiras baseadas em dados da SEC

Um upgrade no meu chatbot atual

Chatbot v2.10 revelado: elevando a experiência do usuário com velocidade, escalabilidade e simplicidade aprimoradas

Como saí das areias movediças do código com um agente de IA

Um ano depois: meus hábitos de busca confirmam a ascensão dos assistentes de IA e o futuro em transformação do SEO

Ferramentas que estamos usando

É relativamente fácil criar o rosto do personagem principal

Então travamos

Tentamos misturar duas imagens e vimos o que aconteceu

Tentei o Bing Chat, mas, bem, não funciona

Ajuda

Continuar lendo

Eu trapaceei: Sydney agora consegue ler a narrativa nos relatórios 10-K

MVP do Agente S&amp;P500 lançado: respondendo perguntas financeiras baseadas em dados da SEC

Um upgrade no meu chatbot atual

Chatbot v2.10 revelado: elevando a experiência do usuário com velocidade, escalabilidade e simplicidade aprimoradas

Como saí das areias movediças do código com um agente de IA

Um ano depois: meus hábitos de busca confirmam a ascensão dos assistentes de IA e o futuro em transformação do SEO

MVP do Agente S&P500 lançado: respondendo perguntas financeiras baseadas em dados da SEC