Skip to content
··4 menit baca

Kenyataan tentang AI Art Text-to-Image: Pengalaman Kami dengan Mid Journey dan Stable Diffusion

Kami menghabiskan berhari-hari mencoba mengilustrasikan cerita anak saya dengan alat AI art seperti Midjourney dan Stable Diffusion—tapi mentok di masalah konsistensi karakter antar adegan. (Catatan: Pembuatan gambar AI sudah jauh lebih baik sejak postingan 2023 ini. Alat seperti Midjourney v6+, DALL-E 3, dan Flux sekarang menangani konsistensi karakter jauh lebih baik.)

Posting ini ditulis pada tahun 2023. Beberapa detail mungkin sudah berubah sejak saat itu.

Pernahkah kamu mencoba menggunakan alat AI text-to-image untuk membuat karya seni dan gagal total? Nah, itulah yang terjadi pada anak perempuan saya dan saya.

Seperti banyak dari kalian, saya sudah menonton banyak video Youtube dan membaca banyak artikel online tentang betapa mudahnya membuat seni dan cerita lengkap (dengan ilustrasi) menggunakan alat AI text-to-image. Beberapa influencer (termasuk VC) di podcast bahkan menyarankan bahwa mereka akan membuat buku anak-anak bersama anak mereka dalam satu akhir pekan. Kedengarannya cukup sederhana, kan? Apalagi karena saya sudah bermain dengan Stable Diffusion (terutama lewat Dream Studio) untuk beberapa waktu. Jadi "secara alami," saya bilang ke anak saya bahwa akan seru untuk bekerja bersama, mengubah ceritanya (Inner truths) menjadi buku dengan ilustrasi.

Setelah beberapa hari panjang mencoba, hasilnya mengecewakan! Jadi saya menulis postingan ini dengan dua tujuan:

  1. Untuk berbagi pengalaman kami
  2. Untuk belajar dari kebijaksanaan internet tentang apa yang bisa saya lakukan untuk memperbaiki situasinya dan tidak mengecewakan anak saya.

Alat yang kami gunakan

Kami sudah menggunakan terutama Midjourney dan Stable Diffusion (lewat Dream Studio dan Outpainting). Saya yakin ada alat profesional yang sudah ada yang bisa menghasilkan ilustrasi indah karena kami sudah melihat karya menakjubkan dari Disney, Marvel, dan perusahaan lain. Tapi inti dari banyak artikel atau video tentang AI Art adalah kamu bisa berkreasi menggunakan alat pasar massal juga. :( Terlalu dihype.

Relatif mudah untuk membuat wajah karakter utama

Dengan sedikit panduan, cukup mudah bagi anak saya untuk membuat wajah karakter utama untuk ceritanya. Kamu bisa lihat dari dua gambar di bawah bahwa anak saya punya detail yang sangat spesifik tentang karakter utamanya.

AI-generated artwork example from text-to-image tool

Avila Abrams, a white girl with little curly hair and it is a very dark brown color, green eyes with a hint of blue, light freckles, a loose white sweater with grey stripes, light bags under her eyes, a little frown on her face, a sharp v-shaped face, and she is wearing headphones in her ears

Gambar pertama dibuat dalam 20 menit, dan yang kedua dibuat dalam sejam atau lebih berikutnya menggunakan Midjourney. Deskripsi (atau prompt)-nya kurang lebih: "Avila Abrams, a girl with little curly hair and it is a very dark brown color, green eyes with a hint of blue, light freckles, a loose white sweater with grey stripes, light bags under her eyes, a little frown on her face, a sharp v-shaped face, and she is wearing headphones in her ears."

Gambar kedua adalah versi final yang kami pilih.

Lalu kami mentok

Dengan wajah karakter utama selesai, kami ingin membuat tampilan lengkapnya dan memasukkannya ke adegan pertama. Anak saya ingin karakternya, Avila, memakai sweater putih longgar dengan garis abu-abu, celana jins skinny biru tua. Tapi kami tidak bisa menghasilkan gambar itu dengan wajahnya tetap sama seperti gambar di atas. Saya sudah menonton video terbaru dari "Tokenized AI by Christian Heidorn" tapi tetap, kami sudah mencoba prompt seperti:

  • /imagine [URL] description
  • /imagine wide angle shot, description --seed [seed number]
  • /imagine [URL] wide angle shot, full body image, description --seed [seed number]
  • /imagine [URL] full body image, wide angle shot, description
  • dll.

Dan semuanya gagal.

Setelah itu, saya mencoba mengunggah wajah Avila ke Dream Studio dan menghasilkan gambar full body-nya dari sana tapi gagal. Kami tidak bisa menjaga fitur utama wajahnya tetap sama sampai derajat yang wajar.

Lalu saya melakukan riset lebih banyak dan menemukan video ini dari Prompt Muse. Dia membahas kombinasi "Thin Plate Motion Colab Notebook", "Out Painting" dan "Dreambooth". Saya mentok di tengah jalan Thin Plate Motion dengan beberapa error yang tidak bisa saya pecahkan (yah saya bukan programmer :|). Mengenai Out Painting, ini berbasis Stable Diffusion, tapi antarmukanya sangat kikuk. Outputnya bukan yang kami cari setelah berkali-kali mencoba.

Adegan pertama yang diinginkan anak saya adalah "Avila in a modern middle school geography classroom, wearing an olive green waterproof jacket and dark blue skinny jeans, walking away from her desk, one of the girl's hands on a dark brown leather bag." Tapi inilah outputnya; tidak ada yang sesuai dengan yang kami cari. Kamu bisa lihat dengan output tertentu, entah bagaimana mesinnya menggunakan gaya komik, yang bukan yang kami minta.

Kami mencoba memadukan dua gambar dan lihat apa yang terjadi

Lalu saya punya ide untuk menghasilkan gambar full body karakter dulu, dengan sudut kamera yang tepat, lalu memadukan itu dengan gambar ruang kelas yang detail. Yah, kami belum berhasil juga. Wajah/tampilan karakter terlalu berbeda. Mesinnya tidak bisa menangani tingkat detail yang dibayangkan anak saya untuk ruang kelas. T.T

Dan ini baru adegan pertama dari ceritanya :(

Saya mencoba Bing Chat, tapi yah, tidak berhasil

Saya bertanya ke Bing Chat untuk memberi tahu saya bagaimana cara melakukan ini lewat Midjourney atau Stable Diffusion, dengan panduan langkah demi langkah, dan yang ditawarkannya tidak berbeda dari yang di atas.

Bantuan

Jadi apa yang kami lakukan salah? Saya ingin ini menjadi proyek seru dengan anak saya. Tapi kami mentok!

Juga, kesimpulan saya adalah alat-alat ini belum siap untuk digunakan massa. Mereka bisa menghasilkan satu gambar dengan baik tapi bukan serangkaian gambar. Tidak mudah mengontrol arah wajah karaktermu, dan "sudut kamera" gambar, terutama jika sudutnya bukan seperti wide-angle atau top-down. Anak saya punya adegan yang sangat detail dalam imajinasinya. Alat-alat ini tidak bisa menciptakan itu untuk kami.

Ceritakan di komentar apa yang harus kami lakukan?

Terakhir tapi tidak kalah penting, permintaan kami ke Mid Journey atau Stable Diffusion atau perusahaan serupa: bisakah kalian membuat hidup lebih mudah untuk kami? Berikan kami opsi untuk menjaga fitur utama karakter tetap konstan dan bisa memasukkan karakter ke adegan berbeda lebih mudah. Sekarang, ini terlalu sulit T.T

Chandler

Lanjutkan Membaca

Perjalanan Saya
Terhubung
Bahasa
Preferensi