초거대 AI란 (1) 하이퍼스케일 인공지능과 GPT-3, 트랜스포머

이번 포스팅에서는 요즘 인공지능 관련하여 화두로 많이 등장하는 초거대 AI에 대해서 하이퍼스케일 인공지능의 개념과 GPT-3, 트랜스포머에 대해 알아보려고 합니다.

참고로 이번 시리즈는 초거대 AI 개요에 대해 아래 2가지 글로 구분해보았습니다.

초거대 AI란 (1) 하이퍼스케일 인공지능과 GPT-3, 트랜스포머 (이번 포스팅)

초거대 AI란 (2) GPT-3와 초거대 AI의 한계점

인공지능 기술은 과거의 기초적인 연구 개발 수준에서 벗어나 점점 사업화 성공 및 활용 사례가 늘고 있는 상황입니다. 그러나 반면에 점점 인공지능이 만능처럼 비춰지는 것을 경계하는 목소리도 늘고 있습니다.

과거 인공지능의 붐과 겨울이 3차례 반복된 바와 같이 인공지능 미래는 어디로 갈지, 최근 들어서는 초거대AI / 하이퍼스케일 인공지능에 대한 논의가 활발해지고 있습니다.

인공지능 역사

좀 더 스마트한 인공지능을 만들기 위해 빅테크 업체들은 초거대 AI로 경쟁을 확장을 추진 중에 있습니다. 인공지능은 점점 규모와 속도의 경쟁에 돌입하고 있고 기존 AI와 달리 특정 역할에 국한되지 않고 스스로 생각하고 학습하여 판단함을 통해서 다양한 문제에 적용 가능한 범용 인공지능을 구상하고 있습니다.

영화 아이언맨에 등장하는 인공지능 비서 또한 이러한 초거대 AI를 통해 가능합니다.

초거대 AI

출처 : 영화 아이언맨

이번 포스팅에서는 이러한 초거대AI 흐름에 대해서 하이퍼스케일 인공지능의 의미에 대해 알아보고 기존 인공지능과 초거대 AI의 차이에 대해서 정리해보려고 합니다. 그리고 초거대AI의 대표사례인 GPT-3와 트랜스포머란 무엇인지 알아보았습니다.


초거대 AI란, 하이퍼스케일 인공지능 의미

초거대 AI, 하이퍼스케일(HyperScale) 인공지능은 일반 컴퓨터보다 연산 속도가 엄청나게 빠른 슈퍼컴퓨팅 인프라를 활용하여 초대용량의 데이터를 학습하는 기술입니다. 대규모(Large Scale) 또는 거대한(Massive) 인공지능이라고도 일컫습니다.

통상적으로 인공지능의 성능을 가늠할 수 있는 파라미터(변수)가 기존 인공지능 대비 최소 수백 배 이상 많습니다.

기존 AI와 초거대AI 차이

결론적으로 기존 인공지능보다 사람의 뇌에 더 유사하게 설계되어 사고, 학습 및 판단 능력이 매우 뛰어나다는 평가입니다.

기존 AI는 학습할 수 있는 데이터 양과 속도에 한계가 있었습니다. 파라미터는 뇌에서 뉴런 간 정보 전달 통로 역할을 하는 시냅스와 비슷한 기능을 하는데요, 이러한 성능은 사람의 “시냅스”와 유사한 “파라미터”(매개변수)의 수가 좌우했습니다.

초거대 AI는 기존 AI보다 수백 내지는 수천 배 이상 많은 규모로 아래와 같은 3가지 큰 특징을 갖게 될 것이라고 기대하고 있습니다.

  1. 자율지능 공존 기술

– 고객 응대, 첨단소재 발굴, 콘텐츠 창작 등 고차원적이고 범용적으로 활용 가능한 창의적인 기술

  1. 복합 인공 지능 기술

– 인간 뇌 구조를 닮아 자율적 사고나 학습, 판단 및 행동이 가능

  1. 초고성능 컴퓨팅 기술

– 대용량 연산이 가능한 슈퍼컴퓨터 인프라에 기반해 대규모 데이터를 신속하게 처리

초거대 AI
출처 : 머니투데이

이러한 작업이 가능한 것은 인간의 뇌처럼 점차 인공지능의 모습이 갖추어지고 있기 때문입니다. 인간의 뇌에는 뉴런 간 정보 전달의 통로인 시냅스가 약 1000조개에 달하고

아직 많이 부족하기는 하지만 초거대AI의 혁신을 이끌고 있는 GPT-3는 시냅스와 비슷한 역할을 수행하는 인공지능의 파라미터를 1750억개까지 늘렸습니다.


초거대AI의 대표사례 : GPT-3

초거대AI, 하이퍼스케일 인공지능은 20년 6월 미국의 오픈AI가 언어모델인 GPT-3 (Generative Pre-Trained Transformer 3)를 공개하면서 초거대 AI의 개발 경쟁이 본격화 되었습니다.

GPT는 영문 직역 그대로 “미리 학습(Pre-trained)”해서 “문장을 생성(Generative)”할 수 있는 인공지능 모델(Transformer)라는 의미 입니다.

참고로 GPT-3는 아래와 같이 놀라운 언어모델 성능을 보여주고 있습니다.

초거대 AI
GTP-3로 만든 대화 예시

여기서 “트랜스포머”는 딥러닝 모델의 한가지 종류입니다.

우선 GPT에 대해서 이해하기 위해서는 트랜스포머라는 개념 자체에 대한 이해가 필요합니다.

트랜스포머란(Transformer)

트랜스포머는 쉽게 이야기해서 딥러닝 기반의 언어 모델(Language Model)로, 단어들을 다양하게 조합해서 나오는 문장들 가운데에서 해당 문장이 자연스러울 수록 높은 확률을 부여해주는 통계학적 모델이라고 할 수 있습니다.

참고로 트랜스포머는 구글(Google)의 2017년 논문(Attention Is All You Need – PDF 다운로드(영문) )에 처음 등장 합니다.

초거대 AI
Attention Is All You Need에서 발췌

언어 모델이 훌륭할 수록 인공지능은 더욱더 자연스런 문장을 고르거나 예측할 수 있습니다.

실은 이미 딥러닝 기반 언어모델은 번역기에서 자주 사용되었는데 구글 번역기나 네이버 파파고에서도 신경망 기계번역(Neural Machine Translation)이라고 하여 신경망 기계 번역에서는 문장을 통쨰로 입력해서 번역하면서 이 결과가 적절한지 여부에 대한 검증을 수없이 반복하는 과정을 수행합니다. 이러한 과정 중에 문장 번역의 어떠한 부분을 더 집중(Attention)해야 하는지 “스스로 학습” 하는 방식입니다.

트랜스포머는 이러한 어텐션 매커니즘 기반으로 주어진 문장에서 어떤 두 단어가 높은 상관관계를 갖는지 학습하는 구조 입니다.

GPT는 가장 유명한 트랜스포머 기반 언어모델로 주어진 문장 다음에 올 단어를 예측하는 것을 통해 문장의 생성이 가능합니다.

즉, GPT가 문장을 만들 떄는 예를 들어 “나는” 뒤어 나올 확률이 높은 단어를 학습해서 “나는 회사에”를 만든 다음, “나는 회사에” 다음에 나올 단어를 학습해서 “나는 회사에 출근한다”를 다시 출력하는 식입니다. 사전에 학습한 내용을 기반으로 왠지 그럴듯한, 자연스러운 다음 단어를 예측하는 방식입니다.

다음 포스팅에서는 이러한 초거대 AI의 대표사례인 GPT-3의 한계점에 대해서 정리해보겠습니다.


참고로 이번 시리즈는 초거대AI 개요에 대해 아래 2가지 글로 구분해보았습니다.

초거대AI란 (1) 하이퍼스케일 인공지능과 GPT-3, 트랜스포머 (이번 포스팅)

초거대AI란 (2) GPT-3와 초거대 AI의 한계점

Leave a Comment