Sự thật về AI Art chuyển văn bản thành hình ảnh: Trải nghiệm của chúng tôi với Midjourney và Stable Diffusion

Bạn đã bao giờ thử dùng công cụ AI chuyển văn bản thành hình ảnh để tạo tác phẩm nghệ thuật và thất bại thảm hại chưa? Đó chính xác là những gì đã xảy ra với con gái tôi và tôi.

Giống như nhiều bạn, tôi đã xem nhiều video Youtube và đọc nhiều bài viết trực tuyến về việc tạo ra nghệ thuật và các câu chuyện đầy đủ (có minh họa) bằng công cụ AI text-to-image dễ dàng như thế nào. Một số influencer (bao gồm cả các VC) trên podcast thậm chí gợi ý rằng họ sẽ làm sách thiếu nhi với con cái vào cuối tuần. Nghe đơn giản phải không? Đặc biệt khi tôi đã chơi với Stable Diffusion (chủ yếu qua Dream Studio) được một thời gian. Nên "tự nhiên," tôi nói với con gái rằng sẽ rất vui nếu cùng nhau biến câu chuyện của con (Inner truths) thành một cuốn sách có minh họa.

Sau vài ngày dài cố gắng, kết quả thật thất vọng! Nên tôi viết bài này với hai mục đích:

Chia sẻ trải nghiệm của chúng tôi
Học hỏi từ trí tuệ của cộng đồng mạng về cách cải thiện tình hình và không làm con gái thất vọng.

Công cụ chúng tôi đang sử dụng

Chúng tôi chủ yếu sử dụng Midjourney và Stable Diffusion (qua Dream Studio và Outpainting). Tôi chắc chắn có những công cụ chuyên nghiệp có thể tạo ra minh họa đẹp vì chúng ta đã thấy những tác phẩm tuyệt vời từ Disney, Marvel và các công ty khác. Nhưng điểm mấu chốt của nhiều bài viết hoặc video về AI Art là bạn có thể sáng tạo bằng các công cụ đại chúng. :( Nó bị thổi phồng quá mức.

Tạo khuôn mặt nhân vật chính tương đối dễ

Với một chút hướng dẫn, con gái tôi khá dễ dàng tạo khuôn mặt nhân vật chính cho câu chuyện. Bạn có thể thấy từ hai hình bên dưới rằng con gái tôi có chi tiết rất cụ thể về nhân vật chính.

Hình đầu tiên được tạo trong vòng 20 phút, và hình thứ hai được tạo trong khoảng một giờ tiếp theo bằng Midjourney. Mô tả (hay prompt) đại khái là: "Avila Abrams, a girl with little curly hair and it is a very dark brown color, green eyes with a hint of blue, light freckles, a loose white sweater with grey stripes, light bags under her eyes, a little frown on her face, a sharp v-shaped face, and she is wearing headphones in her ears."

Hình thứ hai là phiên bản cuối cùng chúng tôi chọn.

Rồi chúng tôi bị mắc kẹt

Với khuôn mặt nhân vật chính xong rồi, chúng tôi muốn tạo phần còn lại của ngoại hình và đặt cô ấy vào cảnh đầu tiên. Con gái tôi muốn nhân vật Avila mặc áo sweater trắng rộng có sọc xám, quần jeans skinny xanh đậm. Nhưng chúng tôi không thể tạo hình ảnh đó với khuôn mặt giữ nguyên như ảnh trên. Tôi đã xem các video mới nhất từ "Tokenized AI by Christian Heidorn" nhưng vẫn vậy, chúng tôi đã thử prompt như:

/imagine [URL] description
/imagine wide angle shot, description --seed [seed number]
/imagine [URL] wide angle shot, full body image, description --seed [seed number]
/imagine [URL] full body image, wide angle shot, description
v.v.

Và tất cả đều thất bại.

Sau đó, tôi thử tải khuôn mặt Avila lên Dream Studio và tạo hình toàn thân từ đó nhưng thất bại. Chúng tôi không thể giữ các đặc điểm chính của khuôn mặt giống nhau ở mức chấp nhận được.

Rồi tôi nghiên cứu thêm và tìm thấy video này từ Prompt Muse. Cô ấy nói về sự kết hợp của "Thin Plate Motion Colab Notebook", "Out Painting" và "Dreambooth". Tôi bị mắc kẹt giữa chừng Thin Plate Motion với một số lỗi mà tôi không thể tìm ra (tôi không phải lập trình viên :|). Còn Out Painting, nó dựa trên Stable Diffusion, nhưng giao diện rất thô. Kết quả không phải những gì chúng tôi tìm kiếm sau nhiều lần thử.

Cảnh đầu tiên mà con gái tôi muốn là "Avila trong một lớp học địa lý trường trung học hiện đại, mặc áo khoác chống nước màu olive và quần jeans skinny xanh đậm, đang bước đi khỏi bàn, một tay cầm túi da nâu sẫm." Nhưng đây là kết quả; không có cái nào là những gì chúng tôi tìm kiếm. Bạn có thể thấy với một số kết quả, máy dùng phong cách comic, điều mà chúng tôi không yêu cầu.

Chúng tôi thử ghép hai hình lại với nhau xem sao

Rồi tôi nảy ra ý tưởng tạo hình toàn thân nhân vật trước, với góc camera phù hợp, rồi ghép với hình lớp học chi tiết. Chúng tôi cũng chưa làm được điều đó. Khuôn mặt/ngoại hình nhân vật khác biệt quá nhiều. Máy không thể xử lý mức độ chi tiết mà con gái tôi tưởng tượng cho lớp học. T.T

Và đây chỉ là cảnh đầu tiên của câu chuyện :(

Tôi thử Bing Chat, nhưng không có kết quả

Tôi hỏi Bing Chat cách thực hiện điều này qua Midjourney hoặc Stable Diffusion, với hướng dẫn từng bước, và những gì nó đưa ra không khác gì ở trên.

Cần giúp đỡ

Vậy chúng tôi đang làm sai ở đâu? Tôi muốn đây là một dự án vui với con gái. Nhưng chúng tôi đang mắc kẹt!

Ngoài ra, kết luận của tôi là các công cụ này chưa sẵn sàng cho đại chúng sử dụng. Chúng có thể tạo một hình ảnh đơn lẻ tốt nhưng không phải một loạt hình ảnh. Không dễ để kiểm soát hướng mặt nhân vật, và "góc camera" của hình ảnh, đặc biệt nếu góc không phải là góc rộng hoặc nhìn từ trên xuống. Con gái tôi có trong trí tưởng tượng một cảnh rất chi tiết. Các công cụ này không thể tạo ra điều đó cho chúng tôi.

Hãy cho tôi biết trong phần bình luận chúng tôi nên làm gì?

Cuối cùng nhưng không kém quan trọng, yêu cầu của chúng tôi gửi đến Midjourney hoặc Stable Diffusion hoặc các công ty tương tự: bạn có thể làm cho cuộc sống dễ dàng hơn cho chúng tôi không? Cho chúng tôi tùy chọn giữ các đặc điểm chính của nhân vật không đổi và có thể đặt nhân vật vào các cảnh khác nhau dễ dàng hơn. Hiện tại, nó quá khó T.T

Chandler

Sự thật về AI Art chuyển văn bản thành hình ảnh: Trải nghiệm của chúng tôi với Midjourney và Stable Diffusion

Công cụ chúng tôi đang sử dụng

Tạo khuôn mặt nhân vật chính tương đối dễ

Rồi chúng tôi bị mắc kẹt

Chúng tôi thử ghép hai hình lại với nhau xem sao

Tôi thử Bing Chat, nhưng không có kết quả

Cần giúp đỡ

Đọc tiếp

Tôi gian lận: Sydney giờ có thể đọc phần narrative trong báo cáo 10-K

S&P500 Agent MVP ra mắt: Trả lời câu hỏi tài chính dựa trên dữ liệu SEC

Nâng cấp chatbot hiện tại của tôi

Chatbot v2.10 ra mắt: Nâng cao trải nghiệm người dùng với tốc độ, khả năng mở rộng và sự đơn giản

Cách tôi thoát khỏi vũng lầy lập trình nhờ AI Agent

Một năm sau: Thói quen tìm kiếm của tôi xác nhận sự trỗi dậy của trợ lý AI và tương lai đang thay đổi của SEO