文生图 AI 艺术真的被高估了吗？我们用 Midjourney 和 Stable Diffusion 的真实经历

你有没有试过用文生图工具做艺术创作，结果翻车？

我和我女儿就经历了这个。

和很多人一样，我看了不少 YouTube 视频，也读了很多文章，都在说“现在用文生图做艺术、甚至做完整有插图故事都很容易”。有些播客里的 KOL（包括一些 VC）甚至说周末就能和孩子一起做儿童书。

听起来很简单，对吧？

尤其我自己已经玩 Stable Diffusion（主要是 DreamStudio）一段时间了。于是我“自然地”告诉女儿：我们可以一起把她写的故事（Inner truths）做成一本有插图的书，一定很好玩。

结果我们折腾了几天，效果很失望。

所以写这篇有两个目的：

分享我们的真实过程
借互联网的集体智慧，看看我还能怎么改进，不让女儿失望

我们用了哪些工具

主要用 Midjourney 和 Stable Diffusion（DreamStudio + Outpainting）。

我知道专业级工具肯定能做出漂亮插画，Disney、Marvel 等都已经展示过很惊人的作品。但很多“AI 艺术很简单”的内容，本来强调的就是大众工具也可以做到。

而我们这次的结论是：这件事被高估了。:(

先做主角头像，其实相对容易

在我提供一些引导后，女儿很快就生成出故事主角的脸。

从下面两张图可以看出，她对角色细节非常明确。

第一张大约 20 分钟做出来，第二张在接下来大约 1 小时内完成，使用的是 Midjourney。

提示词大致是：

Avila Abrams, a girl with little curly hair and it is a very dark brown color, green eyes with a hint of blue, light freckles, a loose white sweater with grey stripes, light bags under her eyes, a little frown on her face, a sharp v-shaped face, and she is wearing headphones in her ears.

我们最后选了第二张做最终版头像。

然后我们就卡住了

头像定下来后，我们想生成她全身造型并放进第一幕场景。

女儿希望角色 Avila 穿“宽松白毛衣灰条纹 + 深蓝紧身牛仔裤”。但我们怎么都做不到“服装和场景变化了，脸还能保持和上图一致”。

我跟着 Tokenized AI（Christian Heidorn）最新教程尝试了很多提示词结构，例如：

/imagine [URL] description
/imagine wide angle shot, description --seed [seed number]
/imagine [URL] wide angle shot, full body image, description --seed [seed number]
/imagine [URL] full body image, wide angle shot, description
等等

全部失败。

之后我又把 Avila 的脸上传到 DreamStudio 试图生成全身图，也失败：无法在可接受程度上保持原有人脸关键特征。

再后来我看到 Prompt Muse 的这个视频，她提到可组合 “Thin Plate Motion Colab + Outpainting + Dreambooth”。

我在 Thin Plate Motion 中途就遇到报错卡住（我不是 coder :|）。Outpainting 那边界面也偏笨重，试了很多次输出仍不符合预期。

女儿第一幕想要的是：

“Avila 在现代中学地理教室里，穿橄榄绿防水外套和深蓝紧身牛仔裤，从课桌旁走开，一只手扶着深棕色皮包。”

但我们得到的是下面这些输出，没有一个接近目标。部分输出还会自动变成漫画风，而我们并没有要求漫画风。

我们还试了“先做人，再融合场景”

我后来想到一个路线：先生成“全身角色 + 正确机位”，再和高细节教室图做融合。

结果还是不行。角色脸部一致性仍然崩，场景细节也达不到女儿脑中画面。

而这还只是故事第一幕。:(

我也问了 Bing Chat，但帮助有限

我让 Bing Chat 给 Midjourney/Stable Diffusion 做 step-by-step 指南，结果和我们已经试过的方向差不多，没有突破。

求助

所以到底是我们哪里做错了？

我本来真心希望这是一件和女儿一起完成的有趣项目，但现在卡住了。

目前我的结论是：这些工具离“真正大众可控创作”还有距离。

它们做单张图可以很强，但做“连续画面故事”很难。尤其当你要同时控制角色主特征不变、镜头角度可控、场景细节可重复时，难度会飙升。

女儿脑中是一个非常具体的世界，这些工具现在还做不到。

欢迎在评论里告诉我我们该怎么做。

最后也想给 Midjourney、Stable Diffusion 以及类似团队一个明确需求：

请给普通用户更简单的“角色主特征锁定”能力，让角色更容易跨场景迁移。现在真的太难了。T.T

Chandler

文生图 AI 艺术真的被高估了吗？我们用 Midjourney 和 Stable Diffusion 的真实经历

我们用了哪些工具

先做主角头像，其实相对容易

然后我们就卡住了

我们还试了“先做人，再融合场景”

我也问了 Bing Chat，但帮助有限

求助

继续阅读

我“作弊”了：Sydney 现在能读懂 10-K 年报里的叙事内容

S&P500 Agent MVP 上线：基于 SEC 数据回答金融问题

对我当前聊天机器人的一次升级

Chatbot v2.10 发布：通过更快速度、更强扩展性与更简体验提升用户感受

我如何借助 AI Agent 从“编码流沙”中爬出来

一年后：我的搜索习惯印证了 AI 助手的崛起与 SEO 正在被重塑的未来

我们用了哪些工具

先做主角头像，其实相对容易

然后我们就卡住了

我们还试了“先做人，再融合场景”

我也问了 Bing Chat，但帮助有限

求助

继续阅读

我“作弊”了：Sydney 现在能读懂 10-K 年报里的叙事内容

S&amp;P500 Agent MVP 上线：基于 SEC 数据回答金融问题

对我当前聊天机器人的一次升级

Chatbot v2.10 发布：通过更快速度、更强扩展性与更简体验提升用户感受

我如何借助 AI Agent 从“编码流沙”中爬出来

一年后：我的搜索习惯印证了 AI 助手的崛起与 SEO 正在被重塑的未来

S&P500 Agent MVP 上线：基于 SEC 数据回答金融问题