이번 포스팅에서는 인공지능의 문제와 미래에 대해서 딥러닝 한계점을 중심으로 인공지능 기술이 응용상용화가 현재 어려운 이유에 대해 정리해보았습니다.
참고로 본 포스팅은 “인공지능 문제와 미래”라는 시리즈로 아래와 같이 3가지 포스팅으로 구성하였습니다.
(1) 인공지능 문제와 미래 (1) 강인공지능 불가능? 딥마인드와 IBM 왓슨
(2) 인공지능 문제와 미래 (2) 딥러닝 한계점, 인공지능 응용 상용화 문제점 (현재 포스팅)
(3) 인공지능 문제와 미래 (3) 모델 중심 AI에서 데이터 중심 AI로
앞선 포스팅에서 수년전 강인공지능 기술의 아이콘으로 등장했던 딥마인드와 IBM 왓슨의 사례로 강인공지능 구현의 어려움에 대해서 언급한 바 있습니다.
이번 포스팅에서는 강인공지능의 대표적인 기술인 딥러닝의 한계점 등에 대해 지적한 게리 마커스(Gary Marcus)의 한계점에 대한 내용을 주관적으로 정리해서 설명하고자 합니다.
참고로 게리 마커스는 뉴욕대 심리학·신경과학 교수이자 로봇의 아버지라고 불린 로드니 브룩스와 함께 만든 Robust.AI의 창립자로 인공지능 스타트업 설립 경험 뿐만 아니라 뇌과학 관련 베스트셀러 작가로도 유명합니다.
인공지능 산업/학계에서도 상당히 영향력이 있는 편인데 딥러닝의 아버지이자 대부라고도 불리는 메타사의 수석AI과학자이자 Convolutional Net 창시자인 얀 르쿤(Yann Andre Lecun)과 아래와 같이 설전을 벌일 정도로 기존 강인공지능 = AGI에 대해서는 부정적인 생각을 갖고 있습니다.
참고로 위의 설전은 실은 게리 마커스와 얀 르쿤은 모두 강인공지능(AGI) 달성에 딥러닝 만으로 충분하지 않다는데 동의하지만, 게리 마커스는 르쿤이 딥러닝을 AGI로 가는 핵심으로 여기며, 그 한계를 분명히 밝히지 않는다는 것을 지적하고 있는 것 입니다.
게리 마커스는 또한 구글의 딥마인드가 역시 천문학적인 비용과 인력을 사용했음에도 얼마나 실질적인 성과가 났는지에 대한 냉소적인 의견과 함께 인공지능의 한계에 대해 이야기하였습니다.
( “DeepMind’s Losses and the Future of Artificial Intelligence”- Wired 기사 링크)
딥러닝 한계점, 인공지능 응용한계점의 문제점
게리 마커스가 이야기한 근본적인 딥러닝 한계점 중 응용 상용화와 연계된 주요 문제점을 주관적으로 정리해보면 아래와 같습니다.
소량의 데이터만으로 학습이 불가
딥러닝의 경우 목적에 맞는 특징점(Feature)을 자동 변환 및 추출하는데 정확도를 올리기 위해서는 빅데이터 수준의 데이터가 필요합니다.
그러나 많은 실제 인공지능 문제들은 비정형의 소량 학습데이터만 주어지는 경우가 많고 소량의 데이터에서 큰 실용성을 효과를 얻고자 하나 어려운 경우가 많습니다.
이런 조건에서는 분석 실무자가 직접 어려운 특징점 엔지니어링 (Feature Engineering)을 수행해야 하고 성능 확보를 위해서는 긴 시간과 시행착오가 필요합니다.
물론 소량의 데이터가 전체를 일반화하기는 어려우므로 부분적인 데이터일 경우 편향된 결과가 나올 가능성도 존재합니다.
고품질 학습데이터 부재
지도학습은 인위적인 레이블이 필수요소 입니다. 딥러닝의 대표사례인 개와 고양이의 분류 등 또한 인위적인 레이블이 붙은 학습데이터 형태로 이런 수준의 학습 데이터를 준비하는데 많은 시간이 들고 더 큰 문제는 레이블이 불가능한 인공지능 문제들 또한 증가하고 있다는 점 입니다.
강건한(Robust) AI 어려움
인공지능(딥러닝)에서 강건한(Robust) AI의 의미는 일부 특정 데이터만 잘 설명하는(=overfitting) 하는 것이 아니라 범용적인 데이터에도 적합한 모델을 의미합니다.
즉, 일반화를 위해서는 환경외란에도 흔들리지 않는 강건한(Robust) 강점이 있어야 한다는 점 입니다.
얼굴인식이나 알파고 같은 인공지능의 성공사례 대부분은 실은 낮은 환경외란(Environmental disturbances)를 갖고 있습니다. 즉 통제된(under-controlled) 환경에서 인공지능 기술을 적용한 것 입니다.
하지만 이미지 인식 영역에서 조차 환경외란에 의한 큰 오류를 범하곤 합니다. 예를 들어 이미지 내에 있는 1개의 픽셀만 변경되어도 약 75% 정도의 인식 결과가 틀린 값으로 나옵니다.
결국 수많은 환경적 외란과 불확실성이 존재하는 실제 환경은 아직도 인공지능(딥러닝) 기술이 갖고 있는 큰 숙제, 딥러닝 한계점 입니다.
문제에 최적화된 알고리즘 확보
최근의 인공지능 연구/개발은 대부분 상용 툴이나 오픈소스가 제공하는 머신러닝 알고리즘에 의지하고 있습니다.
하지만 일반화된 수학적이거나 통계적인 가정은 고유의 도메인 또는 해당 문제가 가진 특정 요인과 맞지 않는 경우가 있습니다.
원래는 데이터의 특성과 분포를 파악하고 본인의 필드에서 쌓은 지식을 기반으로 적합한 기법을 선정하고 튜닝을 해야하지만,
아직은 한정적인 대학 또는 기업, 단체만이 이런 수준의 인력 또는 예산을 가지고 있어 실무에 적용할 수 있는 인공지능 알고리즘은 실질적으로 제한적인 상황 또한 딥러닝 한계점 중 하나라고 할 수 있습니다.
이번 포스팅에서는 딥러닝의 한계점과 인공지능 응용 상용화의 문제점에 대해 정리해보았습니다. 다음 포스팅에서는 인공지능 미래 방향성에 대해서 최근 앤드류 응(Andrew NG, 스탠퍼드대 교수 / 바이두 수석AI과학자 및 부사장)이 제안한 모델 중심 AI에서 데이터 중심 AI 방향성에 대해 간단히 정리해보겠습니다.
참고로 본 포스팅은 “인공지능 문제와 미래”라는 시리즈로 아래와 같이 3가지 포스팅으로 구성하였습니다.
(1) 인공지능 문제와 미래 (1) 강인공지능 불가능? 딥마인드와 IBM 왓슨
(2) 인공지능 문제와 미래 (2) 딥러닝 한계점, 인공지능 응용 상용화 문제점 (현재 포스팅)