ChatGPT 지브리 원리 (1) 생성형 AI는 어떻게 그림을 그릴까? (GAN, Diffusion, CLIP)

이번 포스팅에서는 생성형 AI는 어떻게 그림을 그리는지, AI가 이미지를 만들어내는 기법인 GAN과 Diffusion 모델에 대해 살펴보고 텍스트에서 이미지로 바꾸는 CLIP에 대해서도 이해하기 쉽게 정리해보았습니다.

인공지능(AI)이 이미지를 직접 창작해 내는 시대가 열렸습니다. 우리가 문자로 써놓은 상상 속 장면을, 혹은 간단한 스케치 하나를, 이제는 AI가 멋진 일러스트나 그림으로 탈바꿈해 줄 수 있게 되었죠. 최근 들어 폭발적으로 주목받는 생성형 AI(Generative AI) 기술은 OpenAI의 DALL·E, Midjourney, Stable Diffusion 등 다양한 플랫폼으로 널리 확산되어 있습니다.

이 글에서는 “ChatGPT 지브리 원리 (1)”라는 이름으로, 생성형 AI가 어떻게 텍스트나 간단한 정보를 바탕으로 새로운 이미지를 만들어내는지를 살펴보려고 합니다. AI가 그림을 그리는 과정을 이해하면, 왜 지브리나 디즈니 같은 특정 스타일의 이미지를 자유자재로 생성할 수 있는지 그 원리도 한층 더 잘 파악할 수 있을 것입니다.


AI가 그림을 그리는 시대가 왔다

과거에는 인공지능이 사진 속 사물을 분류하거나 사람 얼굴을 인식하는 등 이미지 분석에 주로 사용되었습니다. 예컨대 “이 사진 속 물체는 고양이인지, 강아지인지 구분하기” 같은 과제에 특화되었던 것이죠. 그러나 딥러닝의 급속한 발달로 인해, 이제 AI는 직접 그림을 그리는 생성 능력까지 갖추게 되었습니다.

1) DALL·E의 등장과 세간의 화제

2021년 공개된 OpenAI의 DALL·E는 텍스트 입력만으로 완전히 새로운 이미지를 창작해 내는 혁신을 보여주었습니다. 예를 들어 “모자를 쓴 강아지가 해변에서 아이스크림을 먹는 장면”이라는 텍스트를 입력하면, AI가 이 지시사항을 직접 해석하고 그림을 그려냅니다. 과거에는 상상하기 어려웠던 방식이지만, 수십억 장의 이미지-텍스트 쌍을 학습한 AI는 무에서 유를 만들어낼 정도로 능숙해졌습니다.

생성형 AI 그림 그리는 원리

이처럼 AI가 생성한 이미지들은 마치 사람 화가가 여러 이미지를 조합해 그린 듯 창의적이고 유쾌한 결과물을 보여주어, 전 세계에 “AI가 예술을 할 수 있는가?”라는 흥미로운 화두를 던졌습니다.

2) 생성형 AI 서비스의 확산

DALL·E 이후에도 Midjourney, Stable Diffusion 등 강력한 모델들이 연이어 등장했습니다. 이제는 웹사이트나 간단한 앱을 통해서도 다음과 같이 명령할 수 있습니다.

“일출 무렵, 우주복을 입은 우주비행사가 설원 위에 서 있는 장면을 디즈니풍으로 그려줘.”

그러면 AI는 짧은 시간 안에 해당 장면을 2D 애니메이션 같은 비주얼로 표현합니다.

생성형 AI 그림 그리는 원리

Stable Diffusion은 2022년 오픈소스로 공개되어 누구나 자신만의 AI 그림 서비스를 만들 수 있게 되었고, Midjourney는 디스코드 명령어만으로 손쉽게 이미지를 생성할 수 있어 큰 인기를 끌고 있습니다.


2장: AI는 어떻게 이미지를 만들어내는가?

실제로 AI가 이미지를 생성하는 과정에는 여러 기법이 적용됩니다. 특히 GAN(생성적 적대 신경망)과 Diffusion(확산) 모델은 현재 가장 널리 알려진 두 가지 접근 방식입니다. 이들 덕분에 AI는 과거 학습된 데이터를 참고해 전혀 새로운 이미지를 창작해낼 수 있습니다.

1) GAN: 두 AI가 경쟁해서 이미지를 완성하는 원리

GAN(Generative Adversarial Network)은 이미지 생성 분야에서 화제를 몰고 온 첫 번째 주요 기술입니다. 이 구조는 생성자(Generator)와 감별자(Discriminator)라는 두 개의 신경망이 서로 경쟁하며 동시에 학습한다는 점이 특징입니다.

  • 생성자(Generator): 무작위 노이즈를 기반으로 “가짜” 이미지를 만들어냅니다.
  • 감별자(Discriminator): 입력으로 들어온 이미지가 “진짜인지 가짜인지” 판별합니다.

처음에는 생성자가 만드는 이미지는 품질이 낮지만, 감별자가 이를 가짜로 판별하면 생성자는 “어떻게 하면 감별자를 속일 수 있을까?”를 고민하며 업그레이드됩니다. 이 과정을 반복해가며, 생성자는 점점 진짜와 구분이 어려운 이미지를 만들어내게 되고, 감별자 역시 더 날카로운 기준으로 검증하게 됩니다. 이 적대적 훈련이 반복되면 최종적으로 고품질의 생성 이미지가 탄생합니다. (참고 출처)

생성형 AI 그림 그리는 원리
  • Toonify 프로젝트는 이러한 GAN 기술을 이용해 디즈니 애니메이션 스타일로 사람 사진을 변환한 사례입니다. 실사 인물 사진을 애니풍 얼굴로 재창조하는 과정이 GAN을 통해 구현되었죠.
  • StyleGAN 역시 GAN의 일종으로, 얼굴 이미지를 다양한 스타일로 변형하거나 전혀 새로운 인물의 얼굴을 창작해낼 수도 있습니다.

참고자료

2) Diffusion 모델: 노이즈에서 예술로

최근 이미지 생성 AI의 주류가 된 Diffusion 모델은 GAN과 달리 “점진적 진화”에 초점을 맞춥니다. 처음에는 완전히 무작위인 노이즈 이미지에서 시작해, 단계적으로 노이즈를 제거하거나 원하는 정보를 추가해가며 목표 이미지를 형성합니다.

이 과정을 좀 더 구체적으로 살펴보면 다음과 같습니다.

  1. 초기 노이즈(무의미한 잡음) 준비
    완전히 랜덤인 픽셀 덩어리를 기본 입력으로 설정합니다.
  2. 텍스트 프롬프트를 바탕으로 노이즈 제거 시작
    AI는 “이 노이즈 픽셀들 중 어떤 부분을 어떻게 바꿔야 ‘푸른 하늘 아래 강아지’가 될까?”를 예측하며 조금씩 이미지를 다듬습니다.
  3. 여러 단계에 걸쳐 반복
    수십에서 수백 번 정도 반복을 거치며, 노이즈는 점차 강아지 형태를 띠고, 배경에는 하늘이 나타나며, 전체적으로 색감과 선명도가 상승합니다.
  4. 완성된 이미지 출력
    최종 단계에서는 시각적으로 의미가 있는 “완성된 그림”이 탄생합니다.
생성형 AI 그림 그리는 원리

이때 텍스트 해석에도 중요한 역할을 하는 것이 바로 CLIP(Contrastive Language-Image Pre-training)이라는 모델입니다. CLIP은 수많은 텍스트와 이미지를 한꺼번에 학습해 “특정 단어가 어떤 이미지와 잘 어울리는지”를 미리 배워두었다가, 이미지 생성 과정에서 해당 정보를 활용해 “이건 푸른 하늘, 이건 강아지, 이건 아이스크림” 등을 구분하고 표현하도록 돕습니다.

  • DALL·E 3 같은 최신 모델들은 Diffusion 과정을 더욱 정교화해, 세부 표현텍스트 맥락 이해 모두에서 탁월한 성능을 보여줍니다.
  • 이처럼 세밀한 해석 덕분에, AI에게 “붉은 머리를 가진 만화풍 캐릭터가 무지개 위에서 기타를 치고 있다” 같은 복잡한 문장을 입력해도 아주 구체적이고 독창적인 이미지를 뽑아낼 수 있습니다.

참고자료


3장: 텍스트에서 이미지로 – CLIP과 이미지 생성

AI가 인간 언어인 텍스트를 이해하고, 그것을 기반으로 그림을 그리려면, 텍스트와 이미지가 서로 어떻게 연결되는지 알아야 합니다. 앞서 잠깐 언급한 CLIP이 바로 이 역할을 담당하며, 생성형 AI를 한층 더 정확하고 풍부하게 만들어줍니다.

1) CLIP의 핵심 아이디어

CLIP은 문장(텍스트)과 이미지가 서로 어떻게 연관되는지를 한꺼번에 학습합니다. 예를 들어, “검은 고양이” 문장과 “검은 고양이 사진”을 수만 번 반복해 학습하면, 모델은 ‘검다’, ‘고양이’, 그리고 그 이미지를 구성하는 픽셀 정보’를 효과적으로 연결 지을 수 있게 됩니다.

이는 그림을 그릴 때 단순히 “고양이” 단어만 캐치해서 아무 고양이나 생성하는 게 아니라, “검은색”이라는 구체적인 속성을 함께 반영하는 데 결정적인 역할을 합니다. 덕분에 AI가 “불타는 하늘 아래에 있는 빨간색 고양이” 같은 복합 문장을 만나도 문맥을 살려 정확한 이미지를 생성할 수 있습니다.

2) 창의성과 현실 감각 사이의 조화

CLIP을 적용한 AI 모델은, 무작정 이미지를 만드는 것이 아니라 명령어(프롬프트)와 일치하는지 여부를 단계별로 체크하며 이미지를 완성합니다. 이 때문에 “푸른 바다 위에 떠 있는 보라색 고래” 같은 추상적 상상조차도, AI가 그림으로 그려낼 수 있는 것이죠.

생성형 AI 그림 그리는 원리

동시에 모델은 대규모 학습으로 얻은 “현실적” 감각도 가진 덕분에, 대개 엉뚱한 결과물을 내놓기보다는 그럴듯하게 보이는 이미지를 만들어냅니다. 물론 때때로 “어색한 디테일”이 생성되기도 하지만, 지금도 매주 새로운 버전들이 나오고 있을 정도로 연구와 개선이 활발하게 이루어지는 분야입니다.

참고자료


위에서 살펴본 것처럼, 생성형 AI는 단순히 사진을 흉내 내거나 구글 검색 결과를 붙여넣는 것이 아닌, 스스로 학습한 패턴을 바탕으로 새로운 이미지를 창조해냅니다. GAN을 비롯한 초기 생성 모델들은 짧은 기간에 큰 성장을 이루었고, Diffusion 모델은 단계적 이미지 개선과 정교한 텍스트-이미지 매핑(예: CLIP)을 통해 더욱 높은 해상도와 디테일을 갖춘 이미지를 빠른 속도로 만들어내고 있습니다.

다음 글인 “ChatGPT 지브리 원리 (2) 특정 스타일로 이미지를 어떻게 바꿀까?” 에서는, 이렇게 발전한 AI가 어떻게 지브리나 디즈니 같은 독특한 그림체를 사진에 입힐 수 있는지, 그리고 실제로 우리 일상에서도 어떻게 활용되고 있는지 구체적인 사례를 통해 소개해보겠습니다.


정리하자면

  • 생성형 AI는 방대한 데이터 학습을 통해 텍스트나 노이즈에서 출발해 전혀 새로운 이미지를 만들어낸다.
  • GAN은 생성자와 감별자의 경쟁을 통해 이미지를 향상시키는 기법.
  • Diffusion 모델은 노이즈에서 시작해 점진적으로 원하는 그림을 완성한다.
  • CLIP은 텍스트 의미와 이미지 특징을 연결해, AI가 문맥을 이해하도록 돕는 핵심 기술이다.

이러한 원리를 이해하면, 우리가 “마치 지브리 애니메이션처럼” 또는 “디즈니 풍으로” 라고 요구했을 때 AI가 어떻게 그 스타일과 분위기를 재현해내는지 좀 더 깊이 있게 파악할 수 있습니다. 다음 편에서 구체적인 스타일 변환의 원리를 알아보겠습니다.


앞선 포스팅에서 정리한 인공지능 관련 글은 아래와 같습니다.

설명 가능한 인공지능, XAI란 등장배경 및 방향성 3분 정리!

인공지능과 사물인터넷의 결합 AIoT 정의와 요소기술과 사례, 전망

Leave a Comment