인공 지능

과학자들에게 바란다.

by 명희

AI에 대한 사람들의 느낌은 신기함과 우려가 뒤섞인 감정이 아닐까 싶다. 2016년 3월 15일 이세돌을 이긴 알파고를 보면서 인공 지능의 능력에 감탄했지만 여러 분야에서 사람이 하던 일을 인공 지능이 더 효율적으로 할 수 있다는 말이 위협적으로 들리기도 했다. 사람보다 기계가 더 잘하면 사람은 무엇을 하면서 살지? 초기 산업혁명 때도 비슷한 우려를 했지만 결국 사람은 새로운 일자리를 찾아 잘 살아왔다. 그러니 이번에도 그럴 거라고 하지만 당장 자동화로 일자리를 잃은 사람에겐 별 위로가 되지 않을 거다. 재교육을 받아 새로운 일자리를 찾을 수 있다고 하지만 사회적

변화에 잘 적응하지 못하는 사람에겐 먼 나라 이야기일 거다. 그러나 기술 발달은 막을 수 없고 앞으로 더 많은 변화가 있을 거다. 그래서 직면해야 한다. 호랑이에게 물려가도 정신만 차리면 살 수 있다고 하지 않나? 일단 인공 지능이 무엇인지 알아보고 자신에게 어떻게 도움이 될 수 있을지 생각해봐야 한다.


인공 지능에는 4종류가 있다. 첫째가 반응하는 기계( reactive machine)다. 가장 기본적인 유형의 인공 지능으로 입력한 데이터를 기반으로 예측 가능한 출력을 제공한다. 반응 기계는 항상 똑같은 상황에 매번 똑같은 방식으로 반응하며 행동을 배우거나 과거나 미래를 상상할 수 없다. 이메일에서 스팸을 걸러내거나 네프릭스에서 영화를 추천하는 게 이런 인공 지능이다. 둘째는 제한된 메모리 AI(Limited Memory AI)다. 이것은 오늘날 가장 널리 사용되는 유형으로 과거 경험을 통해 배우고 관찰 행동이나 데이터를 사용하여 경험적 지식을 구축하며 복잡한 분류를 할 수 있고 예측할 수 있다. 2012년의 딥 러닝 알고리즘과 딥 러닝 혁명은 제한된 메모리 AI를 가능하게 했다. 챗봇과 가상 비서에서 자율 주행 차량에 이르기까지 오늘날 거의 모든 AI 애플리케이션은 모두 제한된 메모리 AI에 의해 구동된다. 그러나 이름이 말해주듯이 제한적이다. 자율주행차가 작동하는 정보는 일시적이며 자동차의 장기 기억에 저장되지 않는다. 세 번째는 AI 마음 이론(Theory of Mind AI)이다. 심리학에서 마음 이론(Theory of Mind)은 마음이 어떻게 이루어져 있으며 마음과 행동이 어떻게 연관되어 있는지에 대한 이해라고 한다. 따라서 이런 유형의 인공 지능은 감정을 이해하고 기억할 수 있으며 사람과 상호 작용할 때 감정에 따라 행동을 조정할 수 있다. 1990년대 말 MIT 교수 Cynthia Breazeal이 개발한 Kismet 로봇 헤드나 2016년 홍콩의 Hanson Robotics가 개발한 휴머노이드 로봇 Sophia가 이런 인공 지능의 예라고 할 수 있다. 마지막 AI 유형은 자기 인식 AI (Self-aware AI)다. 기계가 주변 사람의 감정을 인식하는 건 말할 것도 없고 사람처럼 감정을 느끼며 필요와 욕망이 있고 내부 감정과 정신 상태를 스스로 인식할 수 있으며 추론도 한다. 신호등에서 오른쪽 차선에 있던 차가 멈췄는데 뒤에 있는 차가 경적을 울리면 오른쪽으로 돌고 싶으니 자리를 옮겨 달라는 걸 안다는 거다. 아직 이런 사람 같은 AI는 개발하지 못했다. 그러나 기계는 계속 진화하고 있고 그 중심에는 "언어의 이해"가 있다.


언어가 인간의 지적 발달에 중요한 역할을 했다는 건 아무도 부인할 수 없을 거다. 그래서 인공 지능을 연구하는 사람도 궁극적 목표는 언어를 이해하는 기계를 만드는 거란다. 인간은 언어를 통해 추상적으로 추론하고 복잡한 아이디어를 개발하고 구축했다. 따라서 기계가 인간처럼 언어를 이해할 수 있다면 자기 인식을 할 수 있는 기계가 될 수 있다. 그럼 기계가 인간 같은 언어 기능을 가졌다는 걸 어떻게 알 수 있나? 이것은 벌써 1950년 영국의 수학자이자 암호 분석가인 튜링이 질문했다. 기계가 생각할 수 있나? 그리고 튜링 테스트를 제안했다. 컴퓨터가 서면 커뮤니케이션을 사용하여 인간 질문자를 속여서 기계가 다른 사람이라고 믿게 만들 수 있는지 알아보는 3인용 게임. 모든 사람이 튜링 테스트의 유효성을 인정하는 건 아니지만 튜링 테스트는 인공지능 발전에 동기가 되었다. 그래서 인공 지능 과학자들은 튜링 테스트를 통과하는 컴퓨터를 개발하는 게 주요 과제다. 다행인지 불행인지 아직 튜링 테스트를 통과한 컴퓨터는 없다.


그러나 지난 몇 년 동안 자연어 처리(NLP: Natural Language Processing)에서 놀라운 혁신을 달성했다. 자연어 처리(NLP)는 인공 지능(AI)의 하위 분야다. 기계가 인간의 언어를 처리하고 이해하여 반복적인 작업을 자동으로 수행할 수 있도록 도와준다. 예를 들면 기계 번역, 요약, 티켓 분류 및 맞춤법 검사가 그런 거다. 또, 텍스트에서 감정을 감지하여 분석하기도 하는데 이 분류 작업은 NLP의 가장 인기 있는 작업 중 하나라고 한다. 특히 기업은 소셜 미디어 댓글, 고객 지원, 온라인 리뷰, 뉴스 보고서 등에 올라온 대용량 텍스트 데이터를 자연어 처리를 통해 분석하여 고객 문제를 감지하거나 고객 만족도를 모니터링할 수 있다. 기업이 필요로 하는 데이터의 우선순위를 지정하면 기계는 인간보다 빠르고 정확하게 연중무휴 실시간으로 데이터를 처리하고 모든 데이터에 동일한 기준을 적용하므로 수신 결과가 정확하고 불일치가 없는지 확인할 수 있다.


오늘날 최첨단 언어 AI는 복잡한 의학적 질문에 정확하게 답하고 근본적인 생물학적 메커니즘을 설명할 수 있고 심지어 독창적이고 아름다운 시와 문학을 생산할 수 있다. 이런 능력을 갖게 된 건 Google 연구원 그룹이 2017년에 발표한 트랜스포머(transformers) 덕분이다. 전에는 데이터를 순차적으로 처리했는데 트랜스포머는 언어 처리를 병렬화해서 단어가 멀리 떨어져 있어도 단어와 문장의 관계를 파악하여 무엇이 중요한 지 알 수 있게 됐다. 2018년 구글은 획기적인 트랜스포머 모델 BERT를 내놓았고 지금도 구글 검색 엔진은 BERT가 하고 있다. Facebook의 로베르타(RoBERTa) 모델도 BERT를 기반으로 만들어졌다고 한다.


트랜스포머 세계의 또 다른 핵심 연구 분야는 OpenAI의 GPT 모델 제품들이다. 2018년 6월 OpenAI는 원본 GPT를 게시하여 2020년 5월 28일에는 31명의 엔지니어 및 연구원이 3세대 "첨단 언어 모델"인 GPT-3에 대해 설명했다. GPT-3는 딥 러닝을 사용하여 인간과 유사한 텍스트를 생성하는 자동 회귀 언어 모델로 이전 버전인 GPT-2보다 용량이 2배 이상 증가했다. BERT는 기존 텍스트를 분석하기만 하지만 GPT는 새 텍스트를 생성할 수 있다. 따라서 GPT는 사람처럼 창의적으로 글쓰기를 할 수 있다. 이를 위해 GPT는 더 많은 컴퓨팅, 더 큰 훈련 데이터로 구축되었다. GPT-3는 1,750억 개의 매개변수가 있는데 반해 BERT모델은 3억 4천만 개의 매개변수가 있다고 하니 읽기보다 쓰기가 더 많은 훈련을 요하는가 보다. 여하튼 오늘날 모든 기계 학습 성능은 학습된 데이터에 따라 달라진다. 트랜스포머는 기본적으로 전체 인터넷에서 정보를 수집하여 언어를 배운다. 따라서 BERT, RoBERTa, GPT-3는 인간이 이전에 온라인에 게시한 모든 텍스트의 통계 패턴을 추적할 수 있다.


나는 위에 열거한 정보를 구글에서 찾아 정리했는데 구글은 BERT로 내게 이런 정보를 알려준다는 거다. 그리고 구글은 내 활동 정보를 가져갈 거다. 그런데 BERT 같은 최첨단 NLP 모델을 만들려면 수십억 개의 매개변수가 있는 대규모 데이터로 훈련시켜야 하는데 막대한 자금과 기술을 필요로 하기 때문에 아무나 만들지 못한다. 따라서 이처럼 사전에 훈련된 모델을 사용해야 하는 회사나 연구원은 BERT, RoBERTa, GPT-3, BART와 같은 소수의 기초 모델을 채택하여 일을 진행한다. 스탠퍼드 대학교 연구원들은 이런 사전 훈련 모델의 엄청난 영향력을 인정하여 "기초 모델"이라고 명명했다. 그리고 이러한 모델은 Google, Facebook, OpenAI(Microsoft가 자금을 지원함), Nvidia와 같은 세계 최대 기술 회사에서 제공한다. 이들이 제공하는 대규모 언어 모델은 특정 활동에 특화되어 있지 않다. 젊은 신생 기업은 이러한 기초 모델을 가져다가 소량의 추가 훈련 데이터를 정제하여 자신의 특정 모델에 최적화한다.


언어 AI는 자연어뿐만 아니라 컴퓨터 프로그래밍 언어도 가르쳐서 OpenAI에서는 컴퓨터 코드를 매우 잘 작성할 수 있는 트랜스포머 Codex를 내놓았다. 인간 사용자가 일반 영어로 명령이나 기능에 대한 설명을 하면 Codex는 이 설명을 작동하는 컴퓨터 코드로 바꾼다. 구글의 DeepMind는 한 단계 더 나아가 프로그래밍 대회에서 인간 수준으로 경쟁할 수 있는 인공지능 시스템 AlphaCode를 선보였다. 프로그래밍 대회에서는 영어로 된 긴 문제를 받으면 이를 해결할 수 있는 완전한 컴퓨터 프로그램을 구성해야 하는데 AlphaCode가 이걸 해냈다. 다시 말해 Alphacode는 비판적 사고, 논리, 알고리즘, 코딩 및 자연어 이해를 조합하여 새로운 문제를 해결했다는 거다. 이밖에도 최첨단 NPL은 유전체학과 단백질 연구에서도 큰 성과를 보여줬다. 이는 개인의 유전적 특성이 알파벳 4글자로 인코딩 되기 때문에 대규모 언어 모델을 적용하여 분석하기 좋다. DNA는 마치 언어 같고 염기서열은 어휘 문법 의미론과 유사한 규칙 패턴이 있다. 따라서 DNA는 사람의 키, 눈 색깔, 심장병이나 약물 남용 위험에 이르기까지 우리가 누구인지 말해준다. 단백질도 특정 순서로 연결된 아미노산의 문자열이라고 생각할 수 있어서 총 20개의 아미노산이 자연어의 단어와 마찬가지로 토큰화 된 문자열로 처리하여 분석할 수 있다.


여기까지 정리하고 나니 이런 언어 인공지능을 무엇에 적용하면 좋을지 상상하지 않을 수 없다. 교육에서는 벌써 인공 지능을 적용하여 여러 앱이 나왔지만 나는 내게 필요한 앱을 생각해봤다. 그런데 나는 더 이상 앱이 필요 없다. 오히려 있는 앱도 지우고 있다. 구글, 킨들(kindle), 카카오, 티소러스(thesaurus), 네이버 사전과 걷는 수를 보여주는 앱을 쓰고 있다.


앞으로 인공지능은 플라스틱 등 쓰레기를 줄일 수 있는 방법을 찾아내는데 획기적인 통찰력을 발현할 수 있으면 좋겠다. 돈이 되는 것만 쫓지 말고 기업이 좀 힘들어도 지속 가능한 경제를 용기 있게 추진해야 한다. 용기는 뭘까? 최근 읽은 <<더 마스터 앤 말 가리타(The Master and Margarita)>>에 여호와(Yeshua)를 구하지 못한 본디오 빌라도(Pontius Pilate)가 용기가 없음을 후회하는 이야기가 나온다. 스탈린 정부에 편재해 글을 쓰는 사람의 모임 Massolit의 회장 Berlioz는 사탄이 예언한 대로 전철에 머리가 잘린다. 진정한 글을 쓰려면 창조의 머리가 필요한데 프로파간다 같은 글을 쓰며 화려한 레스토랑에서 먹는 것과 지위에만 관심 있는 Massolit 멤버들. 그들에게 Ivan의 진실은 미친 소리였다. 빠른 전개가 흥미로우면서도 무엇이 용기인지 예술인지 고민하게 한다. 작가 Mikhail Bugakov는 스타린 정권 때 이 소설을 썼지만 그가 사망하고 27년 뒤 1967년 처음 출판됐다. 간접적으로 당시 시회를 비판해서 그랬을 거다. 용기 있는 글이다. 플라스틱을 더 이상 만들지 못하게 하거나 커피 가게에서 플라스틱 컵을 사용하지 못하는 법이나 선물 포장을 과하게 하거나 배달 택배 등을 제한하는 법은 통과시키지 못할 거다. 당장 먹고살아야 하니까. 그러니 과학자들이 용기를 내야 한다. 인공 지능으로 여태까지 쓰레기 처리 방법을 분석하여 플라스틱을 더 빨리 분해할 수 있는 방법을 찾길 바란다. 오늘 뉴스를 보니 왁스 벌레(wax worm)의 타액이 비닐봉지를 빠르게 분해한다고 한다. 양봉이 취미인 과학자가 벌집에 왁스 벌레가 너무 많이 껴서 비닐봉지에 벌레를 잡아넣었다가 알게 되었단다. 앞으로 이런 발견이 많이 쌓여서 인공 지능과 함께 쓰레기 문제가 해결되실 희망 한다.





keyword
작가의 이전글사과나무