이번 포스팅에서는 GPT-3 한계점과 초거대 AI와 딥러닝 기반 언어모델의 한계점에 대해 정리해보았습니다.
참고로 이번 시리즈는 초거대 AI 개요에 대해 아래 2가지 글로 구분하였습니다.
초거대 AI란 (1) 하이퍼스케일 인공지능과 GPT-3, 트랜스포머
초거대 AI란 (2) GPT-3 한계점과 초거대 AI의 함정 (이번 포스팅)
앞선 포스팅에서는 최근 AI 관련하여 화두로 많이 등장하는 초거대 AI에 대해서 하이퍼스케일 인공지능의 개념과 GPT-3, 트랜스포머에 대해 알아보려고 합니다.
이러한 GPT는 실은 그리 대단한 새로운 아이디어는 솔직히 아니고 트랜스포머 이전에도 있었던 방식이긴 합니다.
이게 유독 주목을 받게 된 것은 오픈AI에서 거대한 모델을 사용해서 만들었기 때문입니다. 뇌의 용량 = 학습 능력이 엄청나게 향상되었기 때문입니다.
오픈AI는 일론 머스크 테슬라 CEO 등이 주도하여 만들어진 AI 연구기관으로 딥러닝 기반의 대규모 언어모델인 GPT는 18년 첫 버전인 GPT-1에서 1억1700만개 파라미터를 사용하였고 이에 이어 GPT-2에서는 15억개의 파라미터로 구성되었습니다.
마지막으로 GPT-3는 1750억개의 파라미터로 3년 만에 1000배 이상의 규모로 커진 바 있습니다.
그 결과, 여러가지 신기한 일이 생겼는데요,
“한국어를 영어로 번역하라”라고 한국어로 GPT-3에 입력한 다음 “회사”라는 문제를 내면 자동으로 영어로 번역이 됩니다.
즉, 한국어와 영어의 문법이나 번역을 따로 학습시키지 않았음에도 불구하고 사전학습 “Pre-training” 만으로도 번역이 진행되며 이러한 방식으로 GPT-3는 독해나 문법교정, 질의응답에 대해 강한 능력을 갖게 되었습니다. (참고로 GPT-3의 현상에 대해서는 여기 링크 (영문, Will The Latest AI Kill Coding?) 에 잘 정리되어 있네요)
파라미터를 늘리고 세부적으로 파라미터를 늘리면서 GPT-3 기반의 인공지능은 내용 요약이나 외국어 번역, 이메일, 보고서 작성에 대해 거의 사람 수준의 작업이 가능하다고 평가 받고 있습니다.
하지만 기존 작성된 문서 수준에서 의미상으로 반복되는 답을 내놓거나 질문이나 문장이 길어질 경우 일관성을 잃어버리는 문제가 존재하며, 여전히 다른 인공지능 모델에서 나타나는 문제점인 데이터 편향성 또한 존재합니다.
GPT-3 한계점
이를 통해 여러가지 범용적으로 활용 가능한 AGI(Artificial General Intelligence, 일반 인공지능)의 가능성을 보여주고 있다고 언급하는 경우도 생기고 있습니다.
The GPT-3 hype is way too much. It’s impressive (thanks for the nice compliments!) but it still has serious weaknesses and sometimes makes very silly mistakes. AI is going to change the world, but GPT-3 is just a very early glimpse. We have a lot still to figure out.
GPT-3은 너무 과대평가되었습니다. 여러 칭찬은 감사하지만, 여전히 약점이 있고 이상한 실수를 하기도 합니다. AI가 세상을 바꿀 것이지만 GPT-3가 그 첫 발을 내딛은 것뿐이라 생각합니다. 여전히 알아낼 게 많아요.
GPT-3 개발사 대표 Sam Altman
그러나 GPT-3 한계점에 대한 지적도 많이 존재합니다. 이는 GPT-3는 방대한 양의 텍스트를 통해 다음 단어를 예측하는 방식으로 학습되었기 때문입니다.
GPT-3 한계점은 주어진 단어에 대해 통계적으로 가장 잘 맞는 다음 단어를 생성하는 것 뿐으로 “맥락을 이해하는 것은 아니다”라는 부분 입니다.
인간은 다음 단어를 예측하는 방법으로 언어를 학습하지 않았고 그래서 인간과는 다른 단점이 많이 나타나 대부분의 Task에서 인간보다 떨어진 성능을 보이고 주어진 Task마다 성능도 차이가 납니다. 더욱이 주어진 데이터가 적을 수록 그 성능이 크게 떨어지는 경향이 나타납니다.
여전히 현존하는 모든 딥러닝이 그러하듯이 학습된 정보를 기반으로 입력값에 대한 출력값은 내보내는 것은 가능하지만 사람의 기억력과는 프로세스도 그 크기도 다르고 새로운 값에 대한 동기화도 어려운 실정 입니다.
이러한 GPT-3 한계점에도 불구하고 GPT-3는 초거대AI, 하이퍼스케일 인공지능의 방향성을 제시한 것으로 주목받고 있으며 텍스트 기반에서 이미지나 오디오, 비디오 등 다양한 데이터 학습이 진행될 예정입니다.
초거대 AI와 딥러닝 기반 언어모델의 한계점
가장 큰 문제는 딥러닝 기반 언어 모델의 차별입니다. 대부분의 언어기술은 사회에서 특권을 가진 사람들을 위해 구축된 경우가 많기 때문에 언어 모델의 유색인종이나 여성 또는 장애인 등의 특정 집단에 대한 차별과 고정관념이 반영된 경우가 많습니다.
더욱이 문서화되지 않아서 특정 집단의 책임을 묻기도 어려운 측면도 존재합니다.
즉, 데이터 편향성의 문제인데 학습한 데이터는 결국 사람들이 만들고 사회적으로 편견이 존재하기 때문에 그게 데이터 안에 들어가면 편향될 수 밖에 없는 한계점이 존재합니다.
예를 들어 GTP-3 한계점도 유사한데요 대규모 언어 모델의 학습 데이터는 인터넷에서 오고, 그 중에서 SNS의 주요 사용자 층은 특정 영역 (예 : 레딧 – 20~40대 남성, 미국인) 등으로 구성됩니다.
특정 계층의 사람들의 생각이 중심적으로 반영되고 결국 차별과 편향을 증폭시킬 수 있다는 위험성도 존재합니다. 예를 들어, 앞선 포스팅에서 소개한 Tay 또는 이루다의 사례에서 보듯 여전히 인공지능 윤리의 위험성도 존재합니다.
결국 GPT-3 한계점 또한 이러한 언어모델의 경우, 데이터 편향의 문제가 존재하기 때문에 예측모델에 대해서 앞으로는 점점 “예측의 정확성”이 아니라 “예측의 공정성”을 고려해야 합니다.
즉 데이터에 적게 대표된 사람이 있다면 다양성을 늘리고 차별을 방지하고 경계할 수 있도록 지속적으로 고려해야 합니다.
초거대 AI의 등장과 함께 지속적으로 활용범위가 넓어지면서 이러한 AI 윤리에 대한 경계감 또한 늘려가야 할 것 같습니다.
이번 포스팅에서는 GPT-3 한계점과 초거대 AI와 딥러닝 기반 언어모델의 한계점에 대해 정리해보았습니다.
참고로 이번 시리즈는 초거대 AI 개요에 대해 아래 2가지 글로 구분하였습니다.
초거대 AI란 (1) 하이퍼스케일 인공지능과 GPT-3, 트랜스포머
초거대 AI란 (2) GPT-3와 초거대 AI의 한계점 (이번 포스팅)