Ang Katotohanan Tungkol sa Text-to-Image AI Art: Ang Karanasan Namin sa Mid Journey at Stable Diffusion
Ilang araw kaming gumugol sa pagsubok na mag-illustrate ng kwento ng aking anak gamit ang AI art tools tulad ng Midjourney at Stable Diffusion—para lang ma-stuck sa pagpapanatili ng character consistency sa iba't ibang eksena. (Note: Malaki na ang naging improvement ng AI image generation mula sa 2023 post na ito. Ang mga tools tulad ng Midjourney v6+, DALL-E 3, at Flux ay mas magaling na ngayon sa character consistency.)
Ang post na ito ay isinulat noong 2023. Maaaring may mga detalyeng nagbago na mula noon.
Nasubukan mo na bang gumamit ng text-to-image AI tools para gumawa ng art at nabigo nang husto? Well, iyon mismo ang nangyari sa aking anak at sa akin.
Tulad ng marami sa inyo, nakakita ako ng maraming Youtube videos at nagbasa ng maraming online na artikulo tungkol sa kung gaano kadali gumawa ng art at buong mga kwento (na may mga ilustrasyon) gamit ang text-to-image AI tools. May ilang influencers (kasama ang mga VCs) sa mga podcast na nag-suggest pa na gagawa sila ng children's books kasama ang mga anak nila sa weekend. Mukhang simple lang, tama ba? Lalo na dahil matagal ko nang pinaglalaruan ang Stable Diffusion (pangunahin sa pamamagitan ng Dream Studio). Kaya "natural," sinabi ko sa aking anak na magiging masaya ang magtrabaho nang magkasama, para gawing libro na may mga ilustrasyon ang kanyang kwento (Inner truths).
Pagkatapos ng ilang mahabang araw ng pagsubok, nakakadismaya ang resulta! Kaya isinulat ko ang post na ito na may dalawang layunin:
- Para ibahagi ang aming mga karanasan
- Para matuto mula sa karunungan ng internet kung ano ang pwede kong gawin para mapabuti ang sitwasyon at hindi madismaya ang aking anak.
Mga tools na ginagamit namin
Pangunahin naming ginagamit ang Midjourney at Stable Diffusion (sa pamamagitan ng Dream Studio at Outpainting). Sigurado akong may mga existing professional tools na pwedeng gumawa ng magagandang ilustrasyon dahil nakakita kami ng kahanga-hangang gawa mula sa Disney, Marvel, at iba pang mga kompanya. Pero ang punto ng maraming artikulo o video tungkol sa AI Art ay pwede kang gumawa gamit ang mass market tools din. :( Overhyped ito.
Medyo madali na lang gumawa ng mukha ng main character
Sa kaunting gabay, madali lang para sa aking anak na gawin ang mukha ng main character para sa kanyang kwento. Makikita mo mula sa dalawang larawan sa ibaba na ang aking anak ay may sobrang specific na detalye tungkol sa kanyang main character.
Ang unang larawan ay nagawa sa loob ng 20 minuto, at ang pangalawa ay nagawa sa loob ng susunod na isa o dalawang oras gamit ang Midjourney. Ang description (o prompt) ay mga: "Avila Abrams, a girl with little curly hair and it is a very dark brown color, green eyes with a hint of blue, light freckles, a loose white sweater with grey stripes, light bags under her eyes, a little frown on her face, a sharp v-shaped face, and she is wearing headphones in her ears."
Ang pangalawang larawan ang final version na pinili namin.
Tapos na-stuck kami
Natapos na ang mukha ng main character, gusto naming i-generate ang natitirang hitsura niya at ilagay siya sa unang eksena. Gusto ng aking anak na ang character niya, si Avila, ay magsuot ng isang maluwag na puting sweater na may grey stripes, dark blue skinny jeans. Pero hindi namin ma-generate ang larawang iyon na nananatiling pareho ang kanyang mukha sa larawan sa itaas. Pinapanood ko ang mga pinakabagong videos mula sa "Tokenized AI by Christian Heidorn" pero gayon pa man, sinubukan namin ang prompt tulad ng:
- /imagine [URL] description
- /imagine wide angle shot, description --seed [seed number]
- /imagine [URL] wide angle shot, full body image, description --seed [seed number]
- /imagine [URL] full body image, wide angle shot, description
- atbp.
At lahat ay nabigo.
Pagkatapos noon, sinubukan kong i-upload ang mukha ni Avila sa Dream Studio at i-generate ang kanyang full body image mula doon pero bigo rin. Hindi namin mapanatiling pareho ang pangunahing features ng kanyang mukha sa isang reasonable na antas.
Pagkatapos ay nag-research pa ako at nadiskubre ko ang video na ito mula sa Prompt Muse. Pinag-usapan niya ang kombinasyon ng "Thin Plate Motion Colab Notebook", "Out Painting" at "Dreambooth". Na-stuck ako sa kalahati ng Thin Plate Motion sa ilang errors na hindi ko ma-figure out (well hindi naman ako coder :|). Para naman sa Out Painting, base ito sa Stable Diffusion, pero sobrang clunky ng interface. Ang output ay hindi ang hinahanap namin pagkatapos ng maraming beses.
Ang unang eksena na gusto ng aking anak ay "Avila in a modern middle school geography classroom, wearing an olive green waterproof jacket and dark blue skinny jeans, walking away from her desk, one of the girl's hands on a dark brown leather bag." Pero ito ang mga output; wala sa mga ito ang hinahanap namin. Makikita mo na sa ilang outputs, sa hindi malamang dahilan, gumamit ng comic style ang machine, na hindi namin hinihiling.
Sinubukan naming i-blend ang dalawang larawan at tingnan kung ano ang mangyayari
Pagkatapos ay nagkaroon ako ng ideya kung paano i-generate muna ang full body image ng character, na may tamang camera angle, at pagkatapos ay i-blend iyon sa isang detalyadong classroom image. Well, hindi rin namin nagawa iyon. Sobrang iba ang mukha/hitsura ng character. Hindi kaya ng machine ang antas ng detalye na iniisip ng aking anak para sa classroom. T.T
At ito ay unang eksena pa lang ng kwento :(
Sinubukan ko ang Bing Chat, pero well, hindi gumagana
Hiniling ko sa Bing Chat na sabihin sa akin kung paano ko magagawa ito sa pamamagitan ng Midjourney o Stable Diffusion, na may step-by-step guide, at ang ino-offer nito ay walang pinagkaiba sa mga nasa itaas.
Tulong
Kaya ano ba ang mali sa ginagawa namin? Gusto ko itong maging isang masayang proyekto kasama ang aking anak. Pero na-stuck kami!
Gayundin, ang konklusyon ko ay hindi pa handa ang mga tools na ito para gamitin ng masa. Pwede silang gumawa ng isang larawan nang maayos pero hindi isang serye ng mga larawan. Hindi madali na kontrolin ang direksyon ng mukha ng iyong character, at ang "camera angle" ng larawan, lalo na kung ang angle ay hindi tulad ng wide-angle o top-down angle. Ang aking anak ay may sobrang detalyadong eksena sa kanyang imahinasyon. Hindi ito magawa ng mga tools na ito para sa amin.
Sabihin mo sa akin sa comments kung ano ang dapat naming gawin?
Panghuli, ang hiling namin sa Mid Journey o Stable Diffusion o katulad na mga kompanya: pwede ba ninyong gawing mas madali para sa amin? Bigyan niyo kami ng opsyon na panatilihing constant ang pangunahing features ng character at mas madaling mailagay ang character sa iba't ibang eksena. Sa ngayon, sobrang hirap T.T
Chandler







