Skip to content
··阅读时间1分钟

文生图 AI 艺术真的被高估了吗?我们用 Midjourney 和 Stable Diffusion 的真实经历

我们花了几天尝试把女儿的故事做成 AI 插画书,却卡在“角色跨场景一致性”这个核心问题。单图好生成,连续叙事仍很难。

本文写于2023年,部分内容可能已发生变化。

你有没有试过用文生图工具做艺术创作,结果翻车?

我和我女儿就经历了这个。

和很多人一样,我看了不少 YouTube 视频,也读了很多文章,都在说“现在用文生图做艺术、甚至做完整有插图故事都很容易”。有些播客里的 KOL(包括一些 VC)甚至说周末就能和孩子一起做儿童书。

听起来很简单,对吧?

尤其我自己已经玩 Stable Diffusion(主要是 DreamStudio)一段时间了。于是我“自然地”告诉女儿:我们可以一起把她写的故事(Inner truths)做成一本有插图的书,一定很好玩。

结果我们折腾了几天,效果很失望。

所以写这篇有两个目的:

  1. 分享我们的真实过程
  2. 借互联网的集体智慧,看看我还能怎么改进,不让女儿失望

我们用了哪些工具

主要用 Midjourney 和 Stable Diffusion(DreamStudio + Outpainting)。

我知道专业级工具肯定能做出漂亮插画,Disney、Marvel 等都已经展示过很惊人的作品。但很多“AI 艺术很简单”的内容,本来强调的就是大众工具也可以做到。

而我们这次的结论是:这件事被高估了。:(

先做主角头像,其实相对容易

在我提供一些引导后,女儿很快就生成出故事主角的脸。

从下面两张图可以看出,她对角色细节非常明确。

AI-generated artwork example from text-to-image tool

Avila Abrams, a white girl with little curly hair and it is a very dark brown color, green eyes with a hint of blue, light freckles, a loose white sweater with grey stripes, light bags under her eyes, a little frown on her face, a sharp v-shaped face, and she is wearing headphones in her ears

第一张大约 20 分钟做出来,第二张在接下来大约 1 小时内完成,使用的是 Midjourney。

提示词大致是:

Avila Abrams, a girl with little curly hair and it is a very dark brown color, green eyes with a hint of blue, light freckles, a loose white sweater with grey stripes, light bags under her eyes, a little frown on her face, a sharp v-shaped face, and she is wearing headphones in her ears.

我们最后选了第二张做最终版头像。

然后我们就卡住了

头像定下来后,我们想生成她全身造型并放进第一幕场景。

女儿希望角色 Avila 穿“宽松白毛衣灰条纹 + 深蓝紧身牛仔裤”。但我们怎么都做不到“服装和场景变化了,脸还能保持和上图一致”。

我跟着 Tokenized AI(Christian Heidorn)最新教程尝试了很多提示词结构,例如:

  • /imagine [URL] description
  • /imagine wide angle shot, description --seed [seed number]
  • /imagine [URL] wide angle shot, full body image, description --seed [seed number]
  • /imagine [URL] full body image, wide angle shot, description
  • 等等

全部失败。

之后我又把 Avila 的脸上传到 DreamStudio 试图生成全身图,也失败:无法在可接受程度上保持原有人脸关键特征。

再后来我看到 Prompt Muse 的这个视频,她提到可组合 “Thin Plate Motion Colab + Outpainting + Dreambooth”。

我在 Thin Plate Motion 中途就遇到报错卡住(我不是 coder :|)。Outpainting 那边界面也偏笨重,试了很多次输出仍不符合预期。

女儿第一幕想要的是:

“Avila 在现代中学地理教室里,穿橄榄绿防水外套和深蓝紧身牛仔裤,从课桌旁走开,一只手扶着深棕色皮包。”

但我们得到的是下面这些输出,没有一个接近目标。部分输出还会自动变成漫画风,而我们并没有要求漫画风。

我们还试了“先做人,再融合场景”

我后来想到一个路线:先生成“全身角色 + 正确机位”,再和高细节教室图做融合。

结果还是不行。角色脸部一致性仍然崩,场景细节也达不到女儿脑中画面。

而这还只是故事第一幕。:(

我也问了 Bing Chat,但帮助有限

我让 Bing Chat 给 Midjourney/Stable Diffusion 做 step-by-step 指南,结果和我们已经试过的方向差不多,没有突破。

求助

所以到底是我们哪里做错了?

我本来真心希望这是一件和女儿一起完成的有趣项目,但现在卡住了。

目前我的结论是:这些工具离“真正大众可控创作”还有距离。

它们做单张图可以很强,但做“连续画面故事”很难。尤其当你要同时控制角色主特征不变、镜头角度可控、场景细节可重复时,难度会飙升。

女儿脑中是一个非常具体的世界,这些工具现在还做不到。

欢迎在评论里告诉我我们该怎么做。

最后也想给 Midjourney、Stable Diffusion 以及类似团队一个明确需求:

请给普通用户更简单的“角色主特征锁定”能力,让角色更容易跨场景迁移。现在真的太难了。T.T

Chandler

继续阅读

我的旅程
联系
语言
偏好设置