テキストから画像へのAIアートの真実：Mid JourneyとStable Diffusionでの私たちの経験

テキストから画像へのAIツールを使ってアートを作成しようとして、見事に失敗したことはありますか？まさに、娘と私に起こったことです。

皆さんの多くと同じように、テキストから画像へのAIツールを使ってアートや完全なストーリー（イラスト付き）を簡単に作成できるという多くのYoutube動画やオンライン記事を見てきました。一部のインフルエンサー（VCを含む）はポッドキャストで、週末に子供と一緒に絵本を作ると提案さえしていました。十分簡単に聞こえますよね？特に私はStable Diffusion（主にDream Studioを通じて）をしばらく使ってきましたから。だから「当然のように」、娘に一緒に取り組んで、彼女のストーリー（Inner truths）をイラスト付きの本にするのが楽しいと伝えました。

数日間の長い試行の後、結果は期待外れでした！そこで、この記事を2つの目的で書いています：

私たちの経験を共有するため
インターネットの知恵から、状況を改善し、娘をがっかりさせないために何ができるかを学ぶため。

使用しているツール

主にMidjourneyとStable Diffusion（Dream StudioとOutpaintingを通じて）を使用してきました。Disney、Marvel、その他の企業から素晴らしい作品を見てきたので、美しいイラストを生成できる既存のプロフェッショナルツールがあることは確かです。しかし、AIアートに関する多くの記事や動画のポイントは、マスマーケットツールを使っても作成できるということでした。:( 過大評価されています。

メインキャラクターの顔を作るのは比較的簡単

少しガイダンスを与えれば、娘がストーリーのメインキャラクターの顔を作成するのはかなり簡単でした。以下の2つの画像から、娘がメインキャラクターについて非常に具体的なディテールを持っていることがわかります。

最初の画像は20分以内に作成され、2つ目はMidjourneyを使って次の1時間ほどで作成されました。説明（プロンプト）は次のようなものです：「Avila Abrams、少しカーリーな髪の女の子で、とても濃いブラウン色、ブルーがかったグリーンの瞳、薄いそばかす、グレーのストライプの入ったゆったりとした白いセーター、目の下に薄いクマ、少ししかめっ面、シャープなV字型の顔、耳にはヘッドフォンを付けている。」

2つ目の画像が最終版として選んだものです。

そして行き詰まりました

メインキャラクターの顔ができたので、残りの外見を生成して最初のシーンに配置したいと思いました。娘はキャラクターのAvilaに_グレーのストライプの入ったゆったりとした白いセーター、ダークブルーのスキニージーンズ_を着せたいと思っていました。しかし、上の画像と同じ顔を維持したまま、その画像を生成することができませんでした。「Tokenized AI by Christian Heidorn」の最新動画を見てきましたが、以下のようなプロンプトを試みました：

/imagine [URL] description
/imagine wide angle shot, description --seed [seed number]
/imagine [URL] wide angle shot, full body image, description --seed [seed number]
/imagine [URL] full body image, wide angle shot, description
等々

そしてすべて失敗しました。

その後、AvilaのフェイスをDream Studioにアップロードして、そこから全身画像を生成しようとしましたが失敗しました。顔の主な特徴を合理的な程度に同じに保つことができませんでした。

それから更に調べて、Prompt Museの動画を見つけました。彼女は「Thin Plate Motion Colab Notebook」、「Out Painting」、「Dreambooth」の組み合わせについて語っていました。Thin Plate Motionの途中で解決できないエラーに行き詰まりました（まあ、私はコーダーではありません :|）。Out Paintingに関しては、Stable Diffusionベースですが、インターフェースが非常に使いにくいです。何度試しても出力は求めているものではありませんでした。

娘が最初に欲しいシーンは「モダンな中学校の地理の教室にいるAvila、オリーブグリーンの防水ジャケットとダークブルーのスキニージーンズを着て、机から離れて歩いている、片手にダークブラウンのレザーバッグを持っている」でした。しかし、以下がその出力です。どれも求めているものではありません。一部の出力では、なぜかマシンがコミックスタイルを使っていますが、それは求めていません。

2つの画像をブレンドしてみました

そこで、まずキャラクターの全身画像を正しいカメラアングルで生成し、それを詳細な教室画像とブレンドするというアイデアを思いつきました。しかし、それもうまくいきませんでした。キャラクターの顔/外見がかなり異なっています。マシンは娘が想像する教室のディテールのレベルを処理できません。T.T

そしてこれはストーリーの最初のシーンに過ぎません :(

Bing Chatを試しましたが、うまくいきません

MidjourneyやStable Diffusionを使ってどうすればいいか、ステップバイステップのガイドをBing Chatに聞いてみましたが、提供されたものは上記と変わりませんでした。

助けてください

何が間違っているのでしょうか？娘との楽しいプロジェクトにしたいのです。でも行き詰まっています！

また、私の結論として、これらのツールはまだ大衆が使えるレベルではありません。単一の画像は上手に生成できますが、一連の画像は生成できません。キャラクターの顔の向きや画像の「カメラアングル」を制御するのは簡単ではありません。特にワイドアングルやトップダウンアングルでない場合はそうです。娘は想像の中で非常に詳細なシーンを持っています。これらのツールではそれを作成できません。

コメントで何をすべきか教えてください。

最後に、Mid JourneyやStable Diffusion、または同様の企業へのお願い：もっと簡単にしてくれませんか？キャラクターの主な特徴を一定に保ち、異なるシーンにキャラクターを配置するのをもっと簡単にするオプションを提供してください。今は難しすぎます T.T

Chandler

テキストから画像へのAIアートの真実：Mid JourneyとStable Diffusionでの私たちの経験

使用しているツール

メインキャラクターの顔を作るのは比較的簡単

そして行き詰まりました

2つの画像をブレンドしてみました

Bing Chatを試しましたが、うまくいきません

助けてください

続きを読む

ズルしました：Sydneyが10-Kレポートのナラティブを読めるようになりました

S&P500エージェントMVPローンチ：SECデータに基づく金融質問への回答

現在のチャットボットのアップグレード

チャットボットv2.10公開：スピード、スケーラビリティ、シンプルさの向上でユーザーエクスペリエンスを高める

AIエージェントの力でコーディングの泥沼から脱出した話

1年後：私の検索習慣がAIアシスタントの台頭とSEOの変革する未来を裏付ける

使用しているツール

メインキャラクターの顔を作るのは比較的簡単

そして行き詰まりました

2つの画像をブレンドしてみました

Bing Chatを試しましたが、うまくいきません

助けてください

続きを読む

ズルしました：Sydneyが10-Kレポートのナラティブを読めるようになりました

S&amp;P500エージェントMVPローンチ：SECデータに基づく金融質問への回答

現在のチャットボットのアップグレード

チャットボットv2.10公開：スピード、スケーラビリティ、シンプルさの向上でユーザーエクスペリエンスを高める

AIエージェントの力でコーディングの泥沼から脱出した話

1年後：私の検索習慣がAIアシスタントの台頭とSEOの変革する未来を裏付ける

S&P500エージェントMVPローンチ：SECデータに基づく金融質問への回答