텍스트-이미지 AI 아트의 진실: Mid Journey와 Stable Diffusion에 대한 우리의 경험

텍스트-이미지 AI 도구를 사용하여 아트를 만들려고 시도했다가 처참하게 실패한 적이 있으신가요? 저와 딸에게 정확히 그런 일이 일어났습니다.

많은 분들처럼, 텍스트-이미지 AI 도구를 사용하여 아트와 전체 이야기(삽화 포함)를 만드는 것이 얼마나 쉬운지에 대한 Youtube 비디오와 온라인 기사를 많이 봤습니다. 일부 인플루언서(VC 포함)는 팟캐스트에서 주말에 아이들과 함께 어린이 책을 만들겠다고까지 제안했습니다. 충분히 간단하게 들리죠? 특히 저는 한동안 Stable Diffusion(주로 Dream Studio를 통해)을 가지고 놀아왔으니까요. 그래서 "자연스럽게" 딸에게 함께 작업하여 그녀의 이야기(Inner truths)를 삽화가 있는 책으로 만드는 것이 재미있을 것이라고 말했습니다.

며칠간의 시도 끝에, 결과는 실망스러웠습니다! 그래서 두 가지 목적으로 이 글을 작성합니다:

우리의 경험을 공유하기 위해
인터넷의 지혜로부터 상황을 개선하고 딸을 실망시키지 않기 위해 무엇을 할 수 있는지 배우기 위해

우리가 사용하는 도구

우리는 주로 Midjourney와 Stable Diffusion(Dream Studio와 Outpainting을 통해)을 사용했습니다. Disney, Marvel 및 기타 회사의 놀라운 작품을 보았기 때문에 아름다운 삽화를 생성할 수 있는 기존 전문 도구가 있을 것이라고 확신합니다. 하지만 AI 아트에 관한 많은 기사나 비디오의 요점은 대중 시장 도구를 사용해서도 만들 수 있다는 것이었습니다. :( 과대평가되었습니다.

주인공의 얼굴을 만드는 것은 비교적 쉽습니다

약간의 안내와 함께 딸이 이야기의 주인공 얼굴을 만드는 것은 꽤 쉬웠습니다. 아래 두 이미지에서 딸이 주인공에 대해 매우 구체적인 세부 사항을 가지고 있음을 볼 수 있습니다.

첫 번째 이미지는 20분 만에 만들어졌고, 두 번째는 Midjourney를 사용하여 그 후 약 1시간 정도에 만들어졌습니다. 설명(또는 프롬프트)은 대략: "Avila Abrams, 작은 곱슬머리에 매우 짙은 갈색, 파란색이 살짝 도는 녹색 눈, 옅은 주근깨, 회색 줄무늬가 있는 헐렁한 흰색 스웨터, 눈 밑에 옅은 다크서클, 얼굴에 약간 찡그린 표정, 날카로운 V자형 얼굴, 그리고 귀에 헤드폰을 끼고 있다."

두 번째 이미지가 우리가 선택한 최종 버전입니다.

그러고 나서 막혔습니다

주인공의 얼굴이 완성되어 나머지 모습을 생성하고 첫 번째 장면에 넣고 싶었습니다. 딸은 캐릭터 Avila가 _회색 줄무늬가 있는 헐렁한 흰색 스웨터, 진한 파란색 스키니 진_을 입기를 원했습니다. 하지만 위 사진과 동일한 얼굴을 유지하면서 그 이미지를 생성할 수 없었습니다. "Tokenized AI by Christian Heidorn"의 최신 비디오를 보고 있었지만, 다음과 같은 프롬프트를 시도했습니다:

/imagine [URL] description
/imagine wide angle shot, description --seed [seed number]
/imagine [URL] wide angle shot, full body image, description --seed [seed number]
/imagine [URL] full body image, wide angle shot, description
등등.

모두 실패했습니다.

그 후, Avila의 얼굴을 Dream Studio에 업로드하고 거기서 전신 이미지를 생성하려 했지만 실패했습니다. 얼굴의 주요 특징을 합리적인 수준으로 동일하게 유지할 수 없었습니다.

그런 다음 더 많은 조사를 하다가 Prompt Muse의 이 비디오를 발견했습니다. "Thin Plate Motion Colab Notebook", "Out Painting", "Dreambooth"의 조합에 대해 이야기했습니다. Thin Plate Motion 중간에 해결할 수 없는 오류로 막혔습니다(글쎄요, 저는 코더가 아니니까요 :|). Out Painting은 Stable Diffusion 기반이지만 인터페이스가 매우 투박합니다. 여러 번 시도해도 우리가 원하는 출력이 아니었습니다.

딸이 원하는 첫 번째 장면은 "현대 중학교 지리 교실에서 올리브 그린 방수 재킷과 진한 파란색 스키니 진을 입고, 책상에서 걸어 나오며, 한 손으로 진한 갈색 가죽 가방을 들고 있는 Avila"입니다. 하지만 아래가 출력 결과이며 우리가 찾는 것은 하나도 없습니다. 특정 출력에서는 왜인지 기계가 만화 스타일을 사용하는데, 이것은 우리가 요청한 것이 아닙니다.

두 이미지를 합쳐보았습니다

그런 다음 캐릭터의 전신 이미지를 올바른 카메라 각도로 먼저 생성한 후, 상세한 교실 이미지와 합치는 아이디어가 떠올랐습니다. 글쎄요, 그것도 작동시키지 못했습니다. 캐릭터의 얼굴/모습이 너무 많이 달라집니다. 기계가 딸이 교실에 대해 상상하는 수준의 디테일을 처리할 수 없었습니다. T.T

그리고 이것은 이야기의 첫 번째 장면에 불과합니다 :(

Bing Chat을 시도해 봤지만, 글쎄요, 작동하지 않습니다

Bing Chat에 Midjourney나 Stable Diffusion을 통해 이것을 어떻게 할 수 있는지 단계별 가이드와 함께 알려달라고 요청했는데, 제공하는 것이 위와 다르지 않았습니다.

도움이 필요합니다

그래서 우리가 무엇을 잘못하고 있는 걸까요? 딸과 함께하는 재미있는 프로젝트가 되기를 원합니다. 하지만 막혀 있습니다!

또한, 제 결론은 이 도구들이 대중이 사용하기에는 아직 준비가 되지 않았다는 것입니다. 단일 이미지는 잘 생성할 수 있지만 일련의 이미지는 그렇지 않습니다. 캐릭터 얼굴의 방향과 이미지의 "카메라 각도"를 제어하기 쉽지 않습니다. 특히 와이드 앵글이나 탑다운 앵글이 아닌 경우에요. 딸은 상상 속에 매우 상세한 장면을 가지고 있습니다. 이 도구들은 우리를 위해 그것을 만들어줄 수 없습니다.

댓글로 우리가 무엇을 해야 하는지 알려주세요?

마지막으로, Mid Journey나 Stable Diffusion 또는 유사 회사에 대한 우리의 요청: 우리의 삶을 더 쉽게 만들어줄 수 있나요? 캐릭터의 주요 특징을 일정하게 유지하고 캐릭터를 다른 장면에 쉽게 배치할 수 있는 옵션을 주세요. 지금은 너무 어렵습니다 T.T

Chandler

텍스트-이미지 AI 아트의 진실: Mid Journey와 Stable Diffusion에 대한 우리의 경험

우리가 사용하는 도구

주인공의 얼굴을 만드는 것은 비교적 쉽습니다

그러고 나서 막혔습니다

두 이미지를 합쳐보았습니다

Bing Chat을 시도해 봤지만, 글쎄요, 작동하지 않습니다

도움이 필요합니다

계속 읽기

속임수를 썼습니다: Sydney가 이제 10-K 보고서의 서사를 읽을 수 있습니다

S&P500 에이전트 MVP 출시: SEC 데이터 기반 금융 질문 답변

현재 챗봇 업그레이드

챗봇 v2.10 공개: 향상된 속도, 확장성, 단순성으로 사용자 경험 한 단계 높이기

AI 에이전트로 코딩 수렁에서 빠져나온 방법

1년 후: AI 어시스턴트의 부상과 SEO의 변화하는 미래를 내 검색 습관이 확인해주다