안병민의 [통찰을 스케치하다]
[방구석5분혁신=안병민] 어떤 사물이나 현상을 받아들이고 생각하는 능력. 지능의 사전적 의미다. 그런데 언제부터인가 이런 지능을 인공으로 만든단다. 이름하여 인공지능이다. 인공지능에 대한 관심이 부쩍 뜨겁다. 디지털에 의한 엄청난 세상 변화를 야기하는 원인이자 결과라서다. 이 글은 부지불식간에 우리 일상 속에 성큼 들어와버린 인공지능에 대한, 비전공자의 거친 스케치다. 네이버 클로바 AI연구소 하정우 소장이 길잡이로 나선 AI 대탐험. 그가 안내하는 인공지능 세상을 따라 나섰다.
▶ 아니, AI 기술이 이 정도였어?
사례 하나. 미국 샌프란시스코의 거리를 자동차로 달리며 촬영한 듯한 영상. 그런데, 실제 영상이 아니다. 해당 거리를 촬영한 사진들을 이용해 실제 거리의 모습을 3차원으로 복원한 영상이다. 2차원의 이미지를 3차원의 영상으로 변환했다는 얘기. 쉽게 말해, 사진을 찍어 인공지능에 태우면 영상으로 나온다는 거다. 시작부터 신기하다.
*참고 : https://waymo.com/research/block-nerf
사례 둘. 사진을 올리면 웹툰 스타일로 이미지를 바꿔주는 기술? 그건 이미 많이 접했다. 관련 어플도 적지 않다. 그런데 이미지가 아니라 영상이라면? 예컨대, 셀피 동영상을 찍으면 그 영상의 내 모습이 웹툰 스타일의 애니메이션으로 나오는 거다. 이 기술을 활용하면 나를 찍은 영상 속 나는 곧바로 웹툰 애니메이션의 주인공이 된다. 정지 상태의 이미지가 아니라 움직이는 영상 속 주인공. 수많은 사람들의 연기가 접목된 사용자 참여형 콘텐츠가 쏟아져 나올 거라는 예측은 어렵지 않다.
*참고 : https://webtoon.github.io/WebtoonMe
사례 셋. 스토리 문장 하나를 입력한다. 이후 이어질 스토리 전개를 붓으로 그리듯 긍정과 부정의 선을 그려준다. 기준선을 중심으로 위쪽으로 선을 그려주면 긍정적 스토리, 아래도 그려주면 부정적 스토리. 그걸 인식한 인공지능이 알아서 뒷이야기들을 써준다. 예를 들어 “영희가 학교에 갔다.”라는 문장을 주고 부정과 긍정의 순서로 선을 그려주면 다음 문장은 “(부정)학교에 가다가 넘어졌다.”가 되었다가 “(긍정)넘어진 영희의 눈에 만원 지폐가 들어왔다.”라는 문장으로 이어지는 식이다. 주어진 긍정과 부정의 스토리라인에 따라 인공지능이 자동으로 스토리를 채워주는 거다. 글을 쓰는 작가의 입장에서는 천군만마를 얻은 격. 글쓰기의 효율성과 생산성을 제고할 수 있는 큰 무기다.
사례 넷. 코드를 생산하는 인공지능도 있다. 자연어로 기능 설명을 해주면 인공지능이 그에 적합한 코드를 만들어준다. 사람이 일일이 짜던 코드들이다. 그걸 인공지능이 알아서 대신해주니 코드생산성과 개발생산성이 확 올라간다. 품질도 좋다. 개발 현장에서도 이미 많이 쓰고 있단다.
*참고 : https://base-archive.tistory.com/10
딥마인드 사례도 있다. 딥마인드는 바둑의 알파고만 개발한 게 아니다. 스타크래프트의 알파스타, 단백질 3차원 구조를 예측하는 알파폴드, 거기에 알파코드도 개발했다. 알파코드는 코딩 분야 인공지능이다. 수만 명이 참가하는 코딩 대회에서 상위 54% 안에 들었다니 어지간한 개발자 뺨 치는 수준이다.
*참고 : https://cia-secu-lock.tistory.com/87
그림을 그려주는 인공지능도 있다. ‘달리2(dall-e-2)’다. 자연어를 입력하면 그림으로 그려준다. 텍스트를 아트 수준의 그림으로 생성해주는 AI다. “우주비행사가 말을 타고 있는, 사진 같은 이미지”를 입력하면 인공지능이 뚝딱 이미지를 생산해낸다. 인공지능의 창의력과 콘텐츠 생산력은 이미 무시할 수 없는 수준이다.
*참고 : https://openai.com/dall-e-2
*참고 기사 : 중세, 도적 등 20단어 입력하니 AI가 그려줬다, 20초만에 https://bityl.co/EGae
*참고기사 : 인공지능 넘어 인공감정…예술가 AI에 꽂힌 빅테크 https://bityl.co/EGaZ
그저 놀랍다. 개념으로만 접했던 인공지능이 여기저기 우리 일상 속에 이만큼이나 들어와 있다니. 인공지능이 우리 삶에 도움이 될까? 인간의 삶을 해치지는 않을까? 듣도 보도 못한 변화에 많은 사람들의 기대와 우려가 교차한다. 다행히 인공지능은 사람을 해치거나 대체하는 방향이 아니라 사람을 도와주는 도구로의 방향으로 차근차근 발전해가고 있다.
▶ AI의 역사 : 추론과 지식을 넘어 머신러닝과 딥러닝의 시대로
이제 인공지능의 역사를 살펴보자. 인공지능하면 많은 사람들이 알파고를 제일 먼저 떠올린다. 기계가 결코 넘보지 못할 것이라 여겼던 바둑이란 분야에서 인간을 이겼던 알파고. 그날의 충격이 워낙 커서다. 하지만 인공지능의 역사는 생각보다 길다. 컴퓨터보다도 길다.
1943년 매컬리-피츠 모델이 나왔다. 인간의 뇌를 닮은 기계 회로다. 0과 1로 이루어진 단순한 2진법 논리모델이었다. 1950년 튜링 테스트가 나왔다. 앨런 튜링이 개발한, 기계도 인간처럼 생각할 수 있는지를 판별하는 테스트다.
‘인공지능’이란 용어가 등장한 건 1956년이다. 다트머스 대학교의 존 매카시 교수가 인간과 같은 지능을 가진 기계를 만드는 과학과 공학을 인공지능이라 정의했다. 하지만 인공지능에 대한 열기는 오래 가지 않았다. 컴퓨터 성능이 따라와주지 못해서다. 성과도 없었다. 인공지능의 1차 암흑기였다.
80년대 이후 ‘전문가 시스템’이라는 인공지능 프로그램이 개발되었다. 다시 봄을 맞나 싶었던 인공지능 분야는 이내 2차 암흑기로 접어든다. 세계 경제의 불황으로 인한 연구 자금 부족 때문이었다.
90년대 중반 이후 컴퓨터 성능이 급격히 좋아졌다. 인터넷도 확산됐다. 2011년 IBM에서 개발한 왓슨이 ‘제퍼디 퀴즈쇼’에서 사람들을 물리치고 우승했다. 사람들의 관심이 되살아났다. 이후 고성능 컴퓨터와 고성능 알고리즘이 나오면서 딥러닝 모델이 구축됐다. 그리고 지금 2022년, 세계는 본격적인 인공지능 시대를 맞고 있다.
▶ AI에도 단계가 있다 : 약인공지능, 강인공지능, 초인공지능
인공지능에도 이른바 클라스가 있다. 발전 단계에 따른 분류다. 약인공지능, 강인공지능, 초인공지능, 세 가지다. 강인공지능은 모든 영역에서 실제 인간처럼 사고하고 행동하는 인공지능을 가리킨다. 영화 ‘아이언맨’의 인공지능 비서 ‘자비스’를 떠올리면 쉽다. 초인공지능은 강인공지능보다 더 나간다. 모든 영역에서 인간의 능력을 뛰어넘는다. 영화 ‘터미네이터’의 슈퍼빌런 ‘스카이넷’이 대표적이다. 스스로 학습과 사고를 하는 스카이넷은 자신의 발전을 두려워한 인간들이 자신을 없애려 하자 인류를 적으로 간주하고 인류와의 전쟁을 시작하는 인공지능이다.
하지만 너무 걱정은 말자. 강인공지능과 초인공지능을 우리 생전에 보기는 힘들 것 같다. 많은 전문가들의 얘기다. 현실은 약인공지능 수준이다. 특정 문제를 풀기 위한 특화된 보조자로서의 인공지능이다. 외국어를 번역해준다거나, 제품 사진을 찍으면 구매 가능한 쇼핑몰을 찾아주거나 하는 식의 서비스들이 여기에 해당한다.
▶ AI와 머신러닝 그리고 딥러닝, 그 관계는?
인공지능을 구현하는 방법에는 여러 가지가 있다. 머신러닝은 그 중 하나다. 기존 소프트웨어는 사람이 입력해준 규칙을 통해 프로그램을 만들어 낸다. 재료와 레시피를 입력해주면 음식을 만들어내는 식이다.
머신러닝은 컴퓨터에 데이터와 원하는 결과를 입력해 문제를 해결할 최적의 알고리즘을 찾아내는 거다. 재료와 음식을 입력하여 레시피를 찾아내는 방식인 거다. 데이터로부터 스스로 패턴을 학습하여 프로그램을 만들어내는 게 기존 소프트웨어와의 차이점이다. 말 그대로 기계 스스로 학습한다 해서 머신러닝, 즉 기계학습이다. 사람의 개입을 최소화하는 거다. 그러다 보니 데이터가 무척이나 중요하다.
딥러닝은 우리 뇌의 특성인 신경망 구조를 본떠 만든 인공신경망 구조로 학습하는 방식이다. 인간의 뇌를 모방해 뉴런을 구성하여 뉴런과 뉴런의 연결을 통해 신호가 전달되도록 모델링한 거다. 뉴런을 여러 층으로 구성하여 학습시키면 더욱 복잡한 학습을 할 수 있다.
AI와 머신러닝과 딥러닝의 상관관계? 딥러닝은 머신러닝의 일종이다. 머신러닝 중에서 뉴럴네트워크를 활용하는 기술이 딥러닝이다. 머신러닝과 인공지능의 관계는 전문가들도 시각이 좀 다르다. 일반적으로는 머신러닝을 인공지능의 일종으로 보지만, 머신러닝이 반드시 인공지능을 구현하기 위해서만 활용되는 게 아니라는 점에서 공통의 영역을 가진 또 다른 개념으로 바라보는 시각도 있다.
▶ 머신러닝의 핵심요소와 학습의 종류?
머신러닝에는 4가지 핵심요소가 있다. 목적함수(목적지), 학습알고리즘(이동경로), 모델구조(교통수단), 데이터(연료)가 그것이다. 여행으로 비유해보자. ①목적함수는 목적지다. 어디로 갈 것이냐의 이슈다. ②알고리즘은 이동경로이니 뱃길로 갈지, 하늘로 갈지, 철길로 갈지에 해당된다. ③모델구조는 교통수단이다. 비행기, 자동차, 기차 등이 해당된다. 알고리즘과 모델구조는 긴밀하게 연결되어있다. 기차를 선택하면 철로로, 배를 선택하면 물길로, 비행기를 선택하면 하늘로 가야해서다. 특정모델 구조를 선택하면 그에 적합한 알고리즘이 있는 것도 그래서다. ④데이터는 연료다. 어디로 가려든지 연료가 없으면 말짱 꽝이다. AI도 마찬가지다. 데이터가 없으면 깡통이다.
머신러닝에는 알고리즘이 엄청나게 많다. 이 모든 알고리즘은 크게 비지도학습, 지도학습, 강화학습으로 나뉜다. 머신러닝의 학습 기법들이다.
지도학습은 정답을 가르쳐주고 학습을 시키는 방식이다. 정답을 찍어 가르쳐주는 ‘족집게과외’ 방식이랄까. 비지도학습은 정답을 알려주지 않고 주어진 데이터에서 특성을 뽑아내고 특성이 비슷한 것끼리 나누는 방식이다. 비유컨대, 시험에 어떤 문제가 나올지 몰라 도서관에서 모든 분야의 모든 책을 모두 읽는 식이다. 그러니 특정 문제를 잘 풀게 하려면 지도학습을 선택하고, 전반적인 지능의 퀄리티를 올리려면 비지도학습을 선택한다. 비지도학습에 훨씬 더 많은 데이터가 필요한 것도 그래서다.
강화학습은 잘 하면 선물을 주고, 잘못하면 꾸중을 하는 방식이다. 마치 게임처럼 보상과 페널티를 주는 거다. 환경과 계속 상호작용을 하면서 성장하도록 하는 방식. 강화학습을 위해 지도와 비지도 학습을 적절하게 활용할 수 있다.
▶ 알아야 할 AI 관련 개념들 : 벡터와 오버피팅
문제를 해결할 절차를 세우는 것을 문제해결에 적합한 ‘모델을 구성한다’고 표현한다. 이렇게 구성한 모델이 데이터 학습을 통해 구체적인 절차를 찾으면 이를 우리는 머신러닝 모델이라 부른다. 하지만 이런 AI 모델이 전지전능한 건 아니다. 주어진 입력에 대한 결과값을 ‘확률적으로’ 예측한다. 예컨대, 이미지 인식 모델의 경우, 뒤에 나무가 있는 개의 사진을 보여주고 판단하라 그러면 ‘개다, 아니다’가 아니라 ‘개일 확률 93%, 나무일 확률 2%...’ 식으로 표현한다. 불확실성이 존재한다는 의미다.
그렇다면 벡터란 무엇인가? 예전 학창시절 수학시간에 배운 적이 있다. 역학에서의 속도, 가속도, 힘과 같이 크기와 방향을 갖는 양이 벡터다. 인공신경망을 활용하면 입력된 데이터가 특정 벡터로 변환되어 표현된다. 그런데 벡터는 더하기와 빼기의 연산이 가능하고 강화시키거나 약화시키는 것도 가능한 개념이다. 개념 간의 연산이 가능하다는 얘기. 그러니 ‘왕-남자+여자’라는 개념 연산이 가능해진다. 답은 여왕이다. 현존 딥러닝을 가능하게 해주는 기술 메커니즘이다.
과적합(오버피팅·overfitting) 개념도 짚고 넘어갈 필요가 있다. 인공지능을 만들기 위해 모은 전체 데이터는 인공지능의 훈련과 평가에 활용한다. 하지만 그렇게 모은 데이터도 실제 데이터, 즉 현실을 완벽하게 반영하지는 못한다. 그러니 주어진 훈련데이터로만 과도하게 학습을 하게 되면 실제데이터와는 오차가 증가한다. 달달 외운 모의고사 문제들은 항상 정답을 맞추는데, 실제 시험에서는 점수가 안 나오는 거다. 뿌리가 아닌 가지와 이파리에 매몰된 격. 이게 과적합이다. 과적합 현상은 훈련데이터와 실제 데이터의 특성이 너무 다르거나, AI 모델이 훈련데이터를 너무 잘 외워 처리할 때 발생한다. 과거에 최적화되어 오히려 미래예측력이 떨어진다.
*참고 : https://dmddjddld.tistory.com/37
성능 평가지표도 인공지능에서 빠질 수 없는 개념이다. 측정할 수 없다면 개선할 수 없다. 풀고자 하는 문제에 적합한 AI모델을 선택함에 있어 적합한 평가지표를 잘 골라야 한다.
▶ 최신 AI기술의 핵심 키워드는 무엇인가?
최신 AI기술의 핵심 키워드들을 살펴보자. 자가지도 학습(Self-supervised Learning), 트랜스포머(Transfomer), 멀티모달리티(Multimodality), 초대규모 AI(Hyperscale AI, Foundations Model), 데이터 중심 AI(Data-centric AI) 등이다.
그 전에 챙겨야 할 개념들이 또 있다. 프리트레이닝(사전학습)과 파인튜닝(미세조정학습)이다. 사전학습은 적용 문제와 상관없이 공통으로 사용될 범용의 AI 모델을, 대량의 데이터로 사전에 미리 학습시키는 걸 말한다. 음식으로 치자면 미리 육수를 끓여놓는 작업이다. 미세조정학습은 사전학습된 모델에다 내가 풀고자 하는 문제의 데이터를 추가로 학습시키는 걸 가리킨다. 본격적인 요리다. 육수를 맛나게 잘 끓여 놓으면 요리가 한결 쉬워진다. 인공지능에 있어 사전학습이 중요한 이유다.
많은 기업들이 이미지 모델, 언어 모델과 관련하여 육수를 미리 끓여 놓는다. 최근 사명을 바꾼 메타의 경우, 인스타그램을 통해 확보한 10억장의 이미지로, 구글은 다양한 채널을 통해 기확보한 30억개의 이미지를 사전학습에 활용한다. 자연어 사전학습도 다르지 않다.
① 자가지도 학습(Self-supervised Learning) : 사람이 정답을 주지 않아도 기계가 스스로 정답을 만들어 학습하는 방법이다. 모든 데이터에 정답을 사람이 달아주는 건 현실적으로 불가능하다. 해서 인공지능 스스로 정답을 학습하게 하는 거다. 자연어 영역의 경우, 방대한 양의 데이터를 입력해두고 문제를 주면 스스로 답을 찾아내는 게 가능하다. 물론 문제의 난이도에 따라 다르다. 하지만 사람이 일일이 정답을 알려줄 때랑 비교하면 학습 효율은 말도 못하게 올라간다.
이미지 영역도 어렵긴 하지만 불가능한 건 아니다. 과거에는 개 사진을 주며 ‘이건 개다’라고 인공지능에게 정답을 알려줬다. 정답이 없는 경우의 자가지도 학습은? 대조학습 방법을 이용한다. 한 쌍의 이미지를 주고 같은 건지 아닌 건지를 판단토록 하는 거다. 그걸 기계적으로 학습시키면, 정답을 주고 학습하는 것보다 훨씬 더 효과적이다.
자가지도 학습의 강점은 다른 것 없다. 빅데이터를 가지고 정답 없이 학습을 시킨 경우, AI모델의 문제해결능력이 훨씬 더 올라간다는 거다. 예컨대, 10억장의 이미지를 가지고 자가지도 학습을 한 AI모델이, 정답이 있는 적은 규모의 데이터를 학습한 모델보다 더욱 정확하고 안정적이고 공정한 이미지 인식 결과를 만든다는 거다. 설령 데이터에 노이즈가 다소 있더라도 데이터가 충분히 크면 해결된다는 얘기이니 자연생태계의 자정작용이랑 묘하게도 닮은 구석이 있다.
② 트랜스포머(Transfomer) : 2017년 구글에서 발표한 연구 결과다. 예전 같으면 각 영역 별로 적합한 AI 모델이 있었지만 지금은 ‘데이터만 충분하다면 어떤 문제이든 트랜스포머 모델이 더 좋다’는 게 전문가들의 중론이다. 모든 길은 로마로 향하듯 모든 모델은 트랜스포머로 귀결된다고나 할까. 트랜스포머 모델은 주어진 데이터에서 중요한 정보들을 스스로 캐치하여 자동으로 계산한다. 분산과 병렬 구조의 학습을 하는데 최적화된 모델로서 순차적으로 데이터를 처리할 필요가 없어 효율도 높다. 구글 '버트(BERT)'와 오픈AI의 'GPT-3' 등 초대규모AI 구축을 가능케해주는 이유다.
③ 멀티모달리티(Multimodality) : 복잡한 과제를 해결하기 위해, 또는 결과의 정확도를 높이기 위해 활용한다. 이미지, 텍스트, 음성, 비디오 등의 다양한 데이터 종류와 스마트 처리 알고리즘을 결합한 모델이다. 한 종류의 데이터만 입력해줄 때보다 정확도가 올라가고 모델의 안정성이 대폭 높아진다.
④ 초대규모AI(Hyperscale AI, Foundations Model) : 초대규모AI는 종합적 추론이 가능한 범용 AI를 뜻한다. 특정 용도를 넘어 다양한 영역에서 종합적이고 자율적인 사고와 학습, 판단과 행동 능력을 보여준다. 대용량의 연산이 가능한 컴퓨팅 인프라를 기반으로 대규모 데이터를 학습해서다. 단순 명령어에 반응하는 정도가 아니다. 인간의 뇌 구조를 닮아 사람처럼 학습하고 판단한다. 뇌 시냅스와 비슷한 역할을 하는 인공신경망의 파라미터를 수천억 개로 대폭 늘린 것이 특징이다.
파라미터 규모가 커질수록 AI지능이 높아지는데, 100조개의 시냅스가 연결된 인간 뇌와 비슷하게 동작한다. 단일모델로서 가장 큰 규모는 구글이 개발한 ‘PaLM’이다. 파라미터 개수가 무려 5,400억개에 달한다.
초대규모AI가 각광받는 이유? 기존 AI가 할 수 없었던 기능을 제공해서다. 기존 모델들에서는 추가 데이터가 들어가면 가중치 값이 계속 바뀐다. 초대규모AI는 파라미터 가중치 수치가 바뀌지 않는다. 모델 본체의 변경 없이 학습이 가능하다는 얘기다. 어떤 태스크이든 기본 80점짜리 모델은 이미 완성되어 있다는 의미다. 기존 AI 모델에서는 상상할 수 없었던 일이다.
오픈AI에서 개발한 ‘GPT-3’의 글쓰기 실력은 이미 놀라울 정도다. 사용자 실험을 통해 분석한 결과, 200단어 분량 길이의 글은 AI가 쓴 글을 사람이 구분하지 못한다. 글만 잘 쓰는 게 아니라 이미지 생산력도 탁월하다. 세상에 없는 창의적 이미지를 만들어낸다. ‘달리2’는 ‘스케이트보드를 타는 곰인형의 모습을 그려라’ 그러면 그려낸다. 미디어 아트 분야에서도 인공지능 달리 모델을 활용하는 게 핫이슈다.
초대규모AI는 기존 AI의 한계를 뛰어넘어 각 분야의 '상위 1% 인간 전문가' 수준 역량을 보유한 차세대 AI 시스템으로 각광받고 있다. 국내외 주요 AI기업들이 앞다퉈 기술 개발에 나서고 있다.
⑤ 데이터 중심 AI(Data-centric AI) : 정확한 AI서비스를 위해서는 대량의 데이터가 중요한 게 아니라 소규모라도 양질의 데이터가 중요하다. 대량의 데이터가 중요하지 않다는 의미가 아니다. 다소간의 노이즈가 끼어있다 하더라도 대규모 데이터를 학습할 수 있는 초대규모AI가 전제되어야 한다는 의미다.
▶ 국내외 최신 AI 업계 동향은 어떤지?
AI 업계 동향을 보여주는 대표적인 리포트 중 하나로 ‘스탠포드 AI인덱스’가 있다. 2022년 리포트를 보면 AI 관련 직업으로 유망한 분야에 대한 항목이 있다. 정보, 과학기술, 생산 분야, 금융 투자 분야를 중심으로 다양한 산업 영역에서 AI는 집중 조명을 받고 있다. AI에 대한 투자 부분도 규모는 해마다 커지고 있다. 투자 받은 회사의 숫자는 2018년을 기점으로 줄어들고 있으니 투자자의 선택과 집중이 엿보이는 대목이다.
인공지능 분야의 리더십을 갖기 위한 국내 기업들의 발걸음도 바빠지고 있다. LG AI연구원은 지난 2월, 초거대 인공지능(AI) ‘엑사원’을 활용해 만든 첫 가상인간 ‘틸다(Tilda)’를 공개했다. 틸다는 스스로 사고해 새로운 디자인을 창작하는 AI아티스트다. 틸다는 엑사원을 기반으로 말 뭉치 6000억개 이상, 텍스트와 결합된 고해상도 이미지 2억5000만장 이상의 데이터를 학습했다. 초거대AI가 언어를 기반으로 하는 글쓰기뿐만 아니라 시각 분야로 창작 범위를 확대한 첫 사례다.
카카오는 초거대AI ‘minDALL-E(민달리)’를 세계최대 오픈소스 커뮤니티 깃허브(github)에 공개했다. 1,400만장의 텍스트와 이미지 세트를 사전학습했다. 처음 보는 텍스트들의 조합을 이해하고 이를 이미지로 표현해준다. 예를 들어 “바나나 껍질로 만든 의자 그려줘”, “보름달과 파리 에펠탑이 같이 있는 그림 보여줘”, “살바도르 달리 화가 스타일로 그려줘” 라는 명령어를 입력하면, AI가 명령어의 맥락을 이해하고 이미지를 도출한다. 검색을 통해 이미지를 찾아내는 것이 아니다. 스스로 명령을 이해하고 직접 이미지를 그린다. 얼마전 개발한 한국어 특화 AI ‘KoGPT’에 연이은 모델이다. 카카오는 KoGPT의 성능 고도화에도 한창이다. 파라미터 값을 60억개에서 300억개 사이즈로 늘렸다.
네이버는 2021년 5월, ‘하이퍼클로바’라는 세계 최초 한국어 초대규모AI를 개발했다. 개발과 공개를 넘어 검색과 쇼핑 등 다양한 서비스에 이미 적용하고 있다. 클라우드 서비스를 통해 AI생태계도 조성 중이다. 학술적 차원에서도 주목받고 있는 모델이다.
▶ 소프트웨어2.0 시대의 개막
바야흐로 ‘소프트웨어2.0(Code written by Data)’ 시대다. 인간이 직접 코딩을 짜던 ‘소프트웨어1.0(Code written by Humans)’ 시절에는 사람이 컴퓨터에 알고리즘을 짜주고 데이터와 조건을 주어 결과를 산출하게 했다. AI 기술 발전에 따라 새로운 문제 해결 가능성은 높아졌지만 문제가 복잡할수록 개발기간이 길어졌다. 한번 개발했다고 끝도 아니다. 지속적 관리(재학습, 평가, 모니터링 등)가 필요했다. 데이터 가공 작업이 많고 비용도 많이 들어간다. 개발자 역량에 대한 의존도도 함께 높아졌다. 그럼에도 결과에 대한 예측 가능성은 낮다. 성공 여부는 불투명하다. 특정 문제를 해결한 AI가 다른 문제도 잘 해결할 거냐? 그것도 알 수가 없다. 소프트웨어1.0의 한계다.
대략 2015년을 기점으로 소트프웨어2.0 시대가 열렸다. 사람의 개입을 최소화하고 데이터를 인공신경망에 투입하면 신경망이 스스로 알고리즘을 짠다. 네이버도 50년치 뉴스와 9년치 네이버 블로그 분량의 한국어 데이터를 활용한 초대규모AI ‘클로바’를 구축했다. 기존의 AI방법론으로는 수개월 걸릴 일을 소프트웨어2.0 방식으로는 불과 몇 분만에 해낸다.
재미있는 활용 사례는 많다. 클로바는 네이버 쇼핑 플랫폼에서 쇼핑몰을 운영하는 점주들의 글쓰기를 도와준다. 악성고객이 남긴 악성 후기를 중화시켜 팩트만 보여줌으로서 점주들의 스트레스를 완화한다. 뿐만 아니다. 고객들의 후기에 적절한 답변 초안도 추천해준다. 선물을 보낼 때도 유용하다. 선물 특성에 맞는 축하 메시지 초안을 인공지능이 만들어 준다.
사회공헌 관점에서도 활용 가능하다. 독거노인들에게 안부를 물어보는 전화 서비스가 그 예다. 챗봇 수준이 엄청나게 올라가서다. 안부를 묻는 전화 대화도 무척이나 자연스럽다. 네이버는 클로바스튜디오(https://clova.ai/ko)라는 플랫폼을 통해 모두가 참여할 수 있는 초거대AI를 지향한다. 누구나 쉽게 활용 가능하다. 코딩도 필요 없다. 자연어로 이용 가능하다. 앞으로 AI 개발방법론이 완전히 바뀔 거라는 얘기까지 나올 정도다.
▶ AI Transformation과 인공지능 윤리
‘디지털트랜스포메이션’을 넘어 ‘AI트랜스포메이션’ 시대임을 절감한다. 트랜스포메이션이란, 단순히 새로운 방법론을 도입하는 게 아니다. 패러다임을 바꾸는 거다. AI트랜스포메이션도 다를 것 없다. 성공하는 AI트랜스포메이션? 관건은 결국 혁신이다. 모든 걸 완전히 바꾸어야 한다. 먼저 ‘데이터 중심의 업무 프로세스’ 구축이다. 데이터를 중심으로 문제를 정의하고, 데이터를 중심으로 의사결정을 하고, 데이터를 중심으로 업무를 진행하는 거다. 둘째, ‘데이터 주도적인 인공지능’을 통해 혁신적인 서비스를 만들고 프로세스를 최적화해야 한다. 셋째, 사내 데이터가 사일로에 갇히지 않고 물처럼 자유롭게 흘러다니게 해야 한다. 데이터의 자유로운 유통이다. 요컨대, 기술과 방식의 도입이 아니라 일하는 방식과 마인드, 조직문화와 패러다임의 혁신이 필요하단 얘기다.
AI 개발과 관련한 윤리적인 이슈 또한 새롭게 부상하고 있다. 사람을 위한 AI 개발, 다양성의 존중, 합리적인 설명과 편리성의 조화, 안전을 고려한 서비스 설계, 프라이버시 보호와 정보 보안 등 AI윤리규범의 제정과 준수 노력이 필요하다. 결국 인공지능 역시 기술의 이슈만은 아니다. '어떻게 살 것인가'에 대한 철학적, 윤리적 고민이 수반되지 않는다면 인공지능이 빚어낼 미래는 어두울 수밖에 없다. 하지만 지금껏 그래왔던 것처럼 인류는 슬기롭게 해법을 찾아갈 것이다. 기대와 우려가 교차하는 인공지능의 미래에 기꺼이 긍정의 한 표를 던지는 이유다. ⓒ혁신가이드안병민