Sự thật về AI Art chuyển văn bản thành hình ảnh: Trải nghiệm của chúng tôi với Midjourney và Stable Diffusion
Chúng tôi đã dành nhiều ngày cố minh họa câu chuyện của con gái bằng các công cụ AI art như Midjourney và Stable Diffusion — chỉ để va vào bức tường khi cần giữ nhân vật nhất quán qua các cảnh. (Lưu ý: Công nghệ tạo hình ảnh AI đã cải thiện đáng kể kể từ bài viết năm 2023 này. Các công cụ như Midjourney v6+, DALL-E 3 và Flux giờ xử lý tính nhất quán nhân vật tốt hơn nhiều.)
Bài viết này được viết năm 2023. Một số chi tiết có thể đã thay đổi.
Bạn đã bao giờ thử dùng công cụ AI chuyển văn bản thành hình ảnh để tạo tác phẩm nghệ thuật và thất bại thảm hại chưa? Đó chính xác là những gì đã xảy ra với con gái tôi và tôi.
Giống như nhiều bạn, tôi đã xem nhiều video Youtube và đọc nhiều bài viết trực tuyến về việc tạo ra nghệ thuật và các câu chuyện đầy đủ (có minh họa) bằng công cụ AI text-to-image dễ dàng như thế nào. Một số influencer (bao gồm cả các VC) trên podcast thậm chí gợi ý rằng họ sẽ làm sách thiếu nhi với con cái vào cuối tuần. Nghe đơn giản phải không? Đặc biệt khi tôi đã chơi với Stable Diffusion (chủ yếu qua Dream Studio) được một thời gian. Nên "tự nhiên," tôi nói với con gái rằng sẽ rất vui nếu cùng nhau biến câu chuyện của con (Inner truths) thành một cuốn sách có minh họa.
Sau vài ngày dài cố gắng, kết quả thật thất vọng! Nên tôi viết bài này với hai mục đích:
- Chia sẻ trải nghiệm của chúng tôi
- Học hỏi từ trí tuệ của cộng đồng mạng về cách cải thiện tình hình và không làm con gái thất vọng.
Công cụ chúng tôi đang sử dụng
Chúng tôi chủ yếu sử dụng Midjourney và Stable Diffusion (qua Dream Studio và Outpainting). Tôi chắc chắn có những công cụ chuyên nghiệp có thể tạo ra minh họa đẹp vì chúng ta đã thấy những tác phẩm tuyệt vời từ Disney, Marvel và các công ty khác. Nhưng điểm mấu chốt của nhiều bài viết hoặc video về AI Art là bạn có thể sáng tạo bằng các công cụ đại chúng. :( Nó bị thổi phồng quá mức.
Tạo khuôn mặt nhân vật chính tương đối dễ
Với một chút hướng dẫn, con gái tôi khá dễ dàng tạo khuôn mặt nhân vật chính cho câu chuyện. Bạn có thể thấy từ hai hình bên dưới rằng con gái tôi có chi tiết rất cụ thể về nhân vật chính.
Hình đầu tiên được tạo trong vòng 20 phút, và hình thứ hai được tạo trong khoảng một giờ tiếp theo bằng Midjourney. Mô tả (hay prompt) đại khái là: "Avila Abrams, a girl with little curly hair and it is a very dark brown color, green eyes with a hint of blue, light freckles, a loose white sweater with grey stripes, light bags under her eyes, a little frown on her face, a sharp v-shaped face, and she is wearing headphones in her ears."
Hình thứ hai là phiên bản cuối cùng chúng tôi chọn.
Rồi chúng tôi bị mắc kẹt
Với khuôn mặt nhân vật chính xong rồi, chúng tôi muốn tạo phần còn lại của ngoại hình và đặt cô ấy vào cảnh đầu tiên. Con gái tôi muốn nhân vật Avila mặc áo sweater trắng rộng có sọc xám, quần jeans skinny xanh đậm. Nhưng chúng tôi không thể tạo hình ảnh đó với khuôn mặt giữ nguyên như ảnh trên. Tôi đã xem các video mới nhất từ "Tokenized AI by Christian Heidorn" nhưng vẫn vậy, chúng tôi đã thử prompt như:
- /imagine [URL] description
- /imagine wide angle shot, description --seed [seed number]
- /imagine [URL] wide angle shot, full body image, description --seed [seed number]
- /imagine [URL] full body image, wide angle shot, description
- v.v.
Và tất cả đều thất bại.
Sau đó, tôi thử tải khuôn mặt Avila lên Dream Studio và tạo hình toàn thân từ đó nhưng thất bại. Chúng tôi không thể giữ các đặc điểm chính của khuôn mặt giống nhau ở mức chấp nhận được.
Rồi tôi nghiên cứu thêm và tìm thấy video này từ Prompt Muse. Cô ấy nói về sự kết hợp của "Thin Plate Motion Colab Notebook", "Out Painting" và "Dreambooth". Tôi bị mắc kẹt giữa chừng Thin Plate Motion với một số lỗi mà tôi không thể tìm ra (tôi không phải lập trình viên :|). Còn Out Painting, nó dựa trên Stable Diffusion, nhưng giao diện rất thô. Kết quả không phải những gì chúng tôi tìm kiếm sau nhiều lần thử.
Cảnh đầu tiên mà con gái tôi muốn là "Avila trong một lớp học địa lý trường trung học hiện đại, mặc áo khoác chống nước màu olive và quần jeans skinny xanh đậm, đang bước đi khỏi bàn, một tay cầm túi da nâu sẫm." Nhưng đây là kết quả; không có cái nào là những gì chúng tôi tìm kiếm. Bạn có thể thấy với một số kết quả, máy dùng phong cách comic, điều mà chúng tôi không yêu cầu.
Chúng tôi thử ghép hai hình lại với nhau xem sao
Rồi tôi nảy ra ý tưởng tạo hình toàn thân nhân vật trước, với góc camera phù hợp, rồi ghép với hình lớp học chi tiết. Chúng tôi cũng chưa làm được điều đó. Khuôn mặt/ngoại hình nhân vật khác biệt quá nhiều. Máy không thể xử lý mức độ chi tiết mà con gái tôi tưởng tượng cho lớp học. T.T
Và đây chỉ là cảnh đầu tiên của câu chuyện :(
Tôi thử Bing Chat, nhưng không có kết quả
Tôi hỏi Bing Chat cách thực hiện điều này qua Midjourney hoặc Stable Diffusion, với hướng dẫn từng bước, và những gì nó đưa ra không khác gì ở trên.
Cần giúp đỡ
Vậy chúng tôi đang làm sai ở đâu? Tôi muốn đây là một dự án vui với con gái. Nhưng chúng tôi đang mắc kẹt!
Ngoài ra, kết luận của tôi là các công cụ này chưa sẵn sàng cho đại chúng sử dụng. Chúng có thể tạo một hình ảnh đơn lẻ tốt nhưng không phải một loạt hình ảnh. Không dễ để kiểm soát hướng mặt nhân vật, và "góc camera" của hình ảnh, đặc biệt nếu góc không phải là góc rộng hoặc nhìn từ trên xuống. Con gái tôi có trong trí tưởng tượng một cảnh rất chi tiết. Các công cụ này không thể tạo ra điều đó cho chúng tôi.
Hãy cho tôi biết trong phần bình luận chúng tôi nên làm gì?
Cuối cùng nhưng không kém quan trọng, yêu cầu của chúng tôi gửi đến Midjourney hoặc Stable Diffusion hoặc các công ty tương tự: bạn có thể làm cho cuộc sống dễ dàng hơn cho chúng tôi không? Cho chúng tôi tùy chọn giữ các đặc điểm chính của nhân vật không đổi và có thể đặt nhân vật vào các cảnh khác nhau dễ dàng hơn. Hiện tại, nó quá khó T.T
Chandler







