Text-to-Image AI Art की सच्चाई: Mid Journey और Stable Diffusion के साथ हमारा अनुभव
मैंने और मेरी बेटी ने AI art tools जैसे Midjourney और Stable Diffusion से उसकी story illustrate करने में कई दिन लगाए — और scenes के बीच character consistency बनाए रखने में एक wall से टकरा गए। (नोट: 2023 के इस post के बाद से AI image generation में dramatic improvement आया है।)
यह पोस्ट 2023 में लिखी गई थी। तब से कुछ जानकारी बदल सकती है।
क्या आपने कभी text-to-image AI tools से art बनाने की कोशिश की और बुरी तरह fail हुए? खैर, मेरी बेटी और मेरे साथ ठीक यही हुआ।
आप में से बहुत से लोगों की तरह, मैंने भी कई Youtube videos देखे हैं और online articles पढ़े हैं जिनमें बताया गया है कि text-to-image AI tools से art और full stories (illustrations सहित) बनाना कितना आसान है। कुछ influencers (VCs सहित) podcasts पर यहाँ तक suggest करते थे कि वे weekend में अपने बच्चों के साथ children's books बना लेंगे। यह काफी simple लगता है, है ना? खासकर चूंकि मैं कुछ समय से Stable Diffusion (mainly Dream Studio के जरिए) के साथ खेल रहा था। तो "naturally," मैंने अपनी बेटी से कहा कि उसकी story (Inner truths) को illustrations के साथ एक book में बदलना मज़ेदार होगा।
कुछ लंबे दिनों की कोशिश के बाद, result निराशाजनक रहा! इसलिए मैं यह post दो उद्देश्यों से लिख रहा हूँ:
- अपने अनुभव share करने के लिए।
- Internet की wisdom से सीखने के लिए कि मैं स्थिति को कैसे बेहतर कर सकता हूँ और अपनी बेटी को disappoint न करूं।
हम जो tools इस्तेमाल कर रहे हैं
हम mainly Midjourney और Stable Diffusion (via Dream Studio और Outpainting) का उपयोग कर रहे हैं। मुझे यकीन है कि ऐसे professional tools हैं जो beautiful illustrations generate कर सकते हैं क्योंकि हमने Disney, Marvel और अन्य companies के amazing काम देखे हैं। लेकिन AI Art के बारे में कई articles या videos का point यह है कि आप mass market tools का उपयोग करके भी create कर सकते हैं। :( यह overhyped है।
Main character का चेहरा बनाना अपेक्षाकृत आसान था
थोड़े guidance के साथ, मेरी बेटी के लिए अपनी story के main character का चेहरा बनाना काफी आसान था। नीचे दी गई दो images से आप देख सकते हैं कि मेरी बेटी के अपने main character के बारे में बहुत specific details हैं।
पहली image 20 minutes के भीतर बनाई गई, और दूसरी Midjourney का उपयोग करके अगले एक घंटे के भीतर। Description (या prompt) कुछ ऐसा था: "Avila Abrams, a girl with little curly hair and it is a very dark brown color, green eyes with a hint of blue, light freckles, a loose white sweater with grey stripes, light bags under her eyes, a little frown on her face, a sharp v-shaped face, and she is wearing headphones in her ears."
दूसरी image वह final version है जो हमने choose की।
फिर हम फंस गए
Main character का चेहरा तैयार होने के बाद, हम उसका पूरा look generate करना और उसे first scene में रखना चाहते थे। मेरी बेटी चाहती थी कि उसका character Avila, एक loose white sweater with grey stripes और dark blue skinny jeans पहने। लेकिन हम उपरोक्त picture में उसका चेहरा same रखते हुए वह image generate नहीं कर पाए। मैं "Tokenized AI by Christian Heidorn" के नवीनतम videos देख रहा था लेकिन फिर भी हमने ये prompts try किए:
- /imagine [URL] description
- /imagine wide angle shot, description --seed [seed number]
- /imagine [URL] wide angle shot, full body image, description --seed [seed number]
- /imagine [URL] full body image, wide angle shot, description
- आदि...
और वे सब fail हुए।
इसके बाद, मैंने Avila का चेहरा Dream Studio पर upload करने और वहाँ से उसकी full body image generate करने की कोशिश की, लेकिन वह भी fail रहा। हम उसके चेहरे की main features को किसी reasonable degree तक same नहीं रख पाए।
फिर मैंने और research की और Prompt Muse का यह video मिला। उन्होंने "Thin Plate Motion Colab Notebook," "Out Painting" और "Dreambooth" के combination के बारे में बात की। मैं Thin Plate Motion के साथ कुछ errors की वजह से halfway में ही अटक गया जिन्हें मैं figure out नहीं कर पाया (खैर मैं coder नहीं हूँ :|)। Out Painting के लिए, यह Stable Diffusion पर based है, लेकिन interface बहुत clunky है। कई बार के बाद भी output वैसा नहीं था जो हम ढूंढ रहे थे।
जो first scene मेरी बेटी चाहती थी वह था "Avila एक modern middle school geography classroom में, एक olive green waterproof jacket और dark blue skinny jeans पहने, अपनी desk से दूर जाते हुए, लड़की का एक हाथ एक dark brown leather bag पर।" लेकिन ये रहे outputs; कोई भी वह नहीं है जो हम ढूंढ रहे थे। आप देख सकते हैं कि कुछ outputs में machine comic style का उपयोग करती है, जो हम नहीं चाह रहे थे।
हमने दो images को blend करने की कोशिश की और देखा क्या होता है
फिर मुझे एक idea आया कि पहले character की full body image generate करूं, सही camera angle के साथ, और फिर उसे एक detailed classroom image के साथ blend करूं। खैर, हम वह भी नहीं कर पाए। Character का चेहरा/look इतना अलग दिखता है। Machine उस level of detail को handle नहीं कर पाई जो मेरी बेटी classroom के लिए imagine करती है। T.T
और यह सिर्फ story का पहला scene है :(
मैंने Bing Chat try किया, लेकिन वह भी काम नहीं आया
मैंने Bing Chat से step-by-step guide के साथ Midjourney या Stable Diffusion के जरिए यह करने का तरीका पूछा, और जो वह offer करता है वह ऊपर से अलग नहीं है।
मदद चाहिए
हम क्या गलत कर रहे हैं? मैं चाहता हूँ कि यह मेरी बेटी के साथ एक fun project हो। लेकिन हम फंस गए हैं!
साथ ही, मेरा निष्कर्ष यह है कि ये tools mass के लिए इस्तेमाल करने के लिए ready नहीं हैं। वे एक single image अच्छी तरह generate कर सकते हैं लेकिन images की एक series नहीं। Character के चेहरे की direction, और image का "camera angle" control करना आसान नहीं है, खासकर अगर angle wide-angle या top-down angle जैसा नहीं है। मेरी बेटी के imagination में एक बहुत detailed scene है। ये tools हमारे लिए वह नहीं बना सकते।
Comments में बताएं हमें क्या करना चाहिए?
आखिर में, Mid Journey या Stable Diffusion या similar companies से हमारी एक request: क्या आप हमारे लिए इसे आसान बना सकते हैं? हमें character की main features को constant रखने और उसे अलग-अलग scenes में easily रखने का option दें। अभी यह बहुत मुश्किल है T.T
शुभकामनाओं सहित, Chandler







