2025. 6. 11. 22:32ㆍ연구/AI
나는 AI 이미지 생성에도 민감하게 반응하는 편이다. 본업이 디자이너이다보니, 원하는 목적에 맞는 이미지를 빠르게 생성할 수 있다면 업무시간 절감효과를 바로 체감할 수 있기 때문이다.
하지만 사람들의 호들갑과는 달리 AI이미지 생성은 생각보다 업무에 도움이 안 되어 왔다.
의도에 맞게 작동하던가, 사용하기가 편하던가 둘 중 하나는 해야하는데, 매번 만들때마다 랜덤한 이미지만 나오는 AI 이미지 생성을 의도대로 바로잡으려면 ComfyUI의 ControlNet, Inpaint, Outpaint 기능정도는 배워서 써줘야 했다. 그런데 이게... 초기 세팅이 진짜 더럽게 어렵다. 일반적인 디자이너는 흉내도 낼 수 없을 정도의 구현난이도 때문에 접근성이 떨어졌다.
그럼 반대로 사용하기가 편해야하는데, 이건 이것대로 곤란했다. 바로 언어문제였다...
그래서 올해 초에 업데이트 된 GPT의 Image-1은 굉장한 혁신이었다.
지난 1년 동안 한국어를 제대로 이해하거나 생성하는 AI 이미지 생성모델이 없었을 뿐더러, 다양한 이미지 생성에 유연하게 대처하는 능력과 프롬프트를 굳이 영어로 쓰지 않아도 되는 편의성 때문이었다.
많은 사람들이 아는 대표적인 이미지 생성 서비스인 미드저니는 한국어 프롬프트 입력을 인식하지 못했고 (그래서 니지저니로 우회해서 만드는 사람들도 있었다), ComfyUI에서 널리 사용되는 현존 최강 이미지 생성모델인 Flux 역시 기본적으로 한국어학습이 되어있지 않다.
다들 더 나은 이미지를 생성하려고 출혈경쟁하는 중에 사용자가 그렇게 많지도 않은 나라의 언어를 굳이 학습시키는 낭비를 할 여유가 없어서였겠지만 말이다...
덕분에 GPT의 이미지 생성 기술은 그 자체로 엄청 뛰어난 품질의 이미지를 생성하는 것이 아님에도 한국 사람들 대다수의 프로필 사진이 지브리 화풍으로 바뀔 정도로 선풍적인 인기를 끌었다.
게다가 다른 이미지 서비스랑 달리, GPT 하나만 구독해도 이미지생성과 영상생성까지 다 되는 사기적인 가성비도 한 몫 했고 말이다.
그런데, 이번에 Gemini도 Imagen 4로 이미지 생성모델을 업데이트했다. 애초에 GPT의 Image-1 이전의 기존 모델인 DALL-E보다는 좋은 이미지 생성품질을 갖추고는 있었지만, 한국에는 Gemini 사용자가 아직 굉장히 적기 때문에 관심도는 낮았다.
하지만 요즘 GPT의 성능 이슈가 도드라지고 있고, 여기에 Gemini는 Veo 3라는 엄청난 영상 생성 기능까지 추가하며 맹추격 중이다.
이미지 생성 기능 하나 때문에 GPT를 못 떠나는 사람들에게는 중요한 변수다.
그래서 직접 비교해봤다. Image-1 vs Imagen 4, 디테일 차이가 얼마나 날까?
테스트들은 각 이미지 모델들의 범용성을 확인하기 위해 한국어와 영어 프롬프트를 혼재해서 사용했고, 결과물에도 한국어가 적히는 것과 아닌 것을 테스트했다.
그리고 단순 이미지뿐만 아니라 UI묘사나, 인포그래픽 이미지, 4컷만화 등의 다양한 상황을 테스트해보았다.
이해를 돕기 위해, 이미지생성모델명 대신 LLM모델이름(GPT, Gemini)을 사용해서 소개하겠다.
참고로 이미지 생성은 대화로 생성할 경우 대화의 맥락이 다음에 생성할 이미지에 반영되는 오류를 막기 위해,
GPT의 경우 https://sora.com/ 에서 테스트했고, Gemini는 https://labs.google/fx/tools/whisk 에서 테스트했다(기존서비스인 ImageFX는 Imagen4를 지원하지 않는다고한다).
테스트1 - 한글이 들어간 이미지 (픽셀아트, 콜라주)
픽셀아트 스타일의 사이버펑크 도시
16비트 레트로 픽셀아트 스타일의 이미지를 뽑고 싶어.
기본적으로 픽셀아트이지만, 어두운 도시의 네온광이 퍼지는 느낌을 잘 묘사하기 위해 게임 OCTOPATH TRAVELER나 The Last Night처럼 입체감과 쉐이더효과등이 반영되어있으면 해.
배경은 미래 도시의 어두운 밤이고, 네온사인이 켜져있는 건물들이 많이 들어서있는 풍경을 묘사하면 돼.
시점은 아래에서 위로 올려다보는 시점으로 해서, 거대한 마천루가 웅장하게 보이는 효과를 주고 싶어.
공중에는 홀로그램으로 된 광고판이 떠 있고, 새로나온 의수를 광고하고 있지.
간판에는 한글로 "더 강한 근력, 더 민첩한 반응성"이라고 적혀있지. 화면 가운데에는 위를 올려다보고 있는 남성의 실루엣이 서서 광고판을 올려다보고 있어.
전반적으로 구도나, 웅장한 도시표현, 홀로그램 광고판에 있어서는 Gemini가 더 잘 나왔으나, 한글이 아예 표현이 안되는 문제가 발생했다. 그래도 한국어 프롬프트를 입력했는데도 문제없이 많은 요소들을 정상적으로 표현해준 것을 보니, Gemini도 GPT처럼 한국어 프롬프트를 정확히 인식하는 것 같아서 사용하기는 편하겠다는 생각이 든다.
눈치를 보는 것을 형상화한 콜라주 이미지
Realistic mixed-media paper collage depicting the concept of “watching others’ actions.” In the center, a close-up cut-out of a magazine photo showing human eyes glancing sideways. Surrounding the central eyes are torn scraps of newspaper, magazine and plain paper arranged in layered collage, with hand-drawn speech bubbles containing Korean phrases like “뭐 저렇게 해?”, “눈치 보여”, “왜 날 쳐다봐?”. Emphasize tactile paper textures, natural shadows between layers, warm ambient lighting, slight depth of field to blur the outer edges.
과거 브런치 글을 쓰려고 만든 이미지다. 이번에도 왼쪽은 GPT, 오른쪽은 Gemini로 뽑은 이미지인데, 역시나 한글 표현은 GPT만 성공했다. 그리고 눈을 옆으로 흘기라고 표현한 것을 GPT는 이해했는데, Gemini는 이해하지 못했다. 총 4장중 한 장만 빼곤 전부 가운데를 보는 상태로 그려버렸다.
참고로 GPT는 2:3, 3:2비율로 이미지를 생성할 수 있는데, Gemini는 16:9, 9:16으로 생성해준다.
테스트2 - 뉴턴의 프리즘 실험 인포그래픽 이미지
Create an infographic explaining Newton's prism experiment in great detail. The background should be pure white, and include neatly rendered text labels with step-by-step annotations.
Each step should be numbered and connected with subtle gradient arrows, and include both the theoretical explanation and practical observations.
이것도 총 4개씩의 이미지를 테스트해보았으나, 전반적으로 Gemini가 생성한 이미지는 단조롭고, GPT가 생성한 이미지는 다이나믹한 레이아웃을 사용했다.
그리고 충격적이게도 Gemini가 생성한 이미지에서는 프리즘을 통과한 빛이 갈라지는 것을 단 한 컷도 묘사하질 않았다.
테스트3 - 가상의 모바일 앱 UI
Create a mobile interface for a fitness weekly summary screen. The design should include this week’s total calories burned and a cute chicken drumstick icon at the top, and a cheerful message “You’ve burned enough for a whole chicken—treat yourself!” with a side-by-side comparison of runner vs. chicken calories in colorful, friendly illustrations at the center. Render the interface in playful flat style with soft, rounded UI elements, ensuring all today’s distance & calorie stats, map route display (highlighting primary and secondary courses with thick and thin lines), icons, and text are crisp, engaging, and high-resolution.
어찌저찌 앱 UI를 만들어주긴 했는데, GPT로 만든 이미지는 묘하게 답답하다. 일단 앱 UI디자인으로 삼기에는 텍스트도 너무 크고, 여백도 너무 없다. 전반적으로 유아틱하고 레퍼런스로 삼기에는 아쉬운 퀄리티이다.
그러나, Gemini는 정말 모바일 앱에서 쓸 것 같은 디자인을 잘 구현해내었다. 그리고 GPT특유의 누리끼리한 색감도 없이 깔끔하게 나왔다.
이쪽은 확실하게 Gemini의 완승이라고 봐도 될 것 같다.
테스트4 - 올빼미 털 텍스쳐
Generate a collection of feather texture assets(4x4 grid) inspired by owl plumage. Each piece should feature distinct feather patterns and be rendered in a digital painting style, optimized for game texture use. Include variations in feather coloration and spotting, while maintaining consistent feather density across the collection.
이번에는 올빼미 털질감의 텍스쳐를 생성해보았다. 일단은 게임등에서 사용하는 그리드형식의 텍스쳐 에셋을 요청한 것이기 ㄸ문에 GPT의 승리다. Gemini의 경우는 내가 요청한 텍스쳐 에셋 형태가 어떤것인지에 대한 명확한 기준이 없는지 상당히 다양한 시도를 하는 모습을 볼 수 있다. 깃털의 질감을 패턴으로 표현하면 되는데, 낱개를 그리질 않나, 올빼미 얼굴을 그리질 않나...
테스트5 - API 개념을 설명하는 4컷만화
🎮 Prompt Title: "Summoner API – Icon-Only Pixel Art 4-Panel Comic"
Visual Style:
Retro 16-bit pixel art
2x2 grid layout (top row: panel 1–2, bottom row: panel 3–4)
Chibi (SD) fantasy character design
No dialogue text – all speech is expressed via symbolic icons in pixel-style speech bubbles
Salamander character has "API" label on its body
Magical effects, game UI menus, and emotive pixel visuals
🟥 Panel 1 (Top Left)
Scene:
A confused pixel summoner stands in front of a glowing locked door.
He scratches his head while looking at a “Fireball” icon grayed out in the skill bar.
Speech Bubble (icons only):
🧙♂️❌ ➡️ 🔥❌
(Meaning: Not a wizard → Can’t use fireball)
🟧 Panel 2 (Top Right)
Scene:
Summoner opens a scroll or menu interface (like an "API Inventory") and activates the summoning circle.
A fiery Salamander with the word “API” glowing on its body begins to emerge.
Speech Bubble (icons only):
📜➕🔥
(Meaning: Summon Fireball-capable external resource)
🟨 Panel 3 (Bottom Left)
Scene:
Salamander stands proudly in the summoning circle, wearing a tiny headset and backpack.
Its chest shows "API" in bright pixels. It appears ready to launch a spell.
Speech Bubble (icons only):
🔥✅
(Meaning: Fireball spell now available and ready)
🟩 Panel 4 (Bottom Right)
Scene:
The door is blasted open with flames. The summoner casually walks through, holding a teacup with sunglasses on.
The Salamander stands beside the flaming door, wiping sweat, still with “API” visible.
Speech Bubble (icons only):
🧹💰
(Meaning: Task complete → Time to loot!)
Caption (bottom corner):
"APIs: Let the spirits handle the magic you can’t cast."
이번에는 내가 과거에 썼던 글에서 활용한 4컷만화 생성 프롬프트를 재활용해보았다.
우선 16비트 픽셀아트 스타일을 요청했는데 Gemini는 전혀 다른 스타일로 그려내었다.
말풍선 안에는 글자 대신 아이콘만 사용하라고 명령했는데, GPT와 달리 Gemini는 모든 칸에 대사를 넣으려는 시도를 하는 실수를 저질렀다. 그리고 말풍선에 넣으라고 한 아이콘도 제대로 반영이 안되었는데, 텍스트 대신 특수문자로 만든 아이콘을 프롬프트로 인식하지 못해서 그러는걸지도 모르겠다.
물론 GPT도 중간에 마법사의 얼굴을 샐러맨더의 얼굴로 바꾸는등의 실수를 저지르긴 했으나, 전반적인 프롬프트 반영도는 Gemini보다 훨씬 준수한 것을 볼 수 있다.
그래서 무얼 쓸까?
어쩌다보니 테스트가 생각보다 길어졌다. 범용성을 따지기 위해 각기 다른 분야의 테스트를 진행하다보니 5개나 되는 유형의 실험이 진행되었고, 어느정도 확인할 수 있는 경향성이 있었다.
다음의 정리를 통해서 본인에게 맞는것을 사용해보길 바란다. 나는 앞서도 말했듯이 화려하고 예쁜 이미지를 뽑는게 아니라, 목적에 맞는 이미지를 뽑는게 중요하기 때문에 엄청 화려하고 고풍스러운 일러스트 같은 것은 테스트해보지 않았다.
실사용에 가까운 영역 위주로 테스트했으니, 이 실험결과를 통해서 웬만한 것들은 파악이 가능할거라고 믿는다.
Veo3의 등장이 워낙 충격적이었기 때문에 상대적으로 조명받지 못했던 Imagen4이지만, 한국어 생성이 불가한 것만 빼면 나름 빠른 속도 덕분에 써봄직하지 않나 싶기도 하다.
공통점
- 한국어 프롬프트를 이해할 수 있다.
- 챗봇 뿐만 아니라 각자의 생성 서비스 사이트에서 2장씩 생성 가능하다(GPT의 Sora, Gemini의 Whisk.
GPT Image-1
- 한국어를 쓸 수 있다(중요).
- 프롬프트 추종도가 상대적으로 더 높다(프리즘을 그린 것, 말풍선을 아이콘만으로 묘사하라는 요청에 응한 것)
- 이미지 생성은 1:1, 3:2, 2:3을 지원한다.
- UI표현을 잘 못한다.
- 속도가 느리다.
Gemini Imagen 4
- 속도가 매우 빠르다(체감상 GPT의 3-5배)
- UI 묘사가 뛰어나다.
- 이미지 생성은 1:1, 16:9, 9:16을 지원한다.
- 텍스트가 가끔 뭉개진다(영어의 경우에도).
- 한국어 표현이 아예 불가능하다.
'연구 > AI' 카테고리의 다른 글
요즘은 AI프롬프트를 어떻게 쓸까? (7) | 2025.06.25 |
---|---|
글을 쓸 때 첨삭을 받는 요령 (7) | 2025.06.13 |
GPT의 일정 예약 기능이 삭제됐다!? (0) | 2025.05.27 |
실험일지 - 저기요!? 난 그런 글을 쓴 적이 없어요! (3) | 2025.05.19 |
실험일지 - AI로 글자수를 "정확히" 세는 법 (5) | 2025.05.16 |