- 책 <대학에 가는 AI vs 교과서를 못 읽는 아이들>
파란을 일으키고 있는 드라마 <스카이캐슬>을 뒤늦게 따라잡고 있다. 아마 기획안을 내놨을 때는 눈길을 확 잡아 끄는 수퍼스타 하나 없이 '이게 되겠냐' 소리 듣기 딱 좋은 드라마였을 텐데, 보기 좋게 흥행하고 있다. 구멍 없는 배우들의 호연, 흡입력 있는 미스터리, 안정적인 만듦새, 성공의 요인이야 여러가지 말할 수 있겠지만 결국 한국 사회의 병리적인 계급의식과 그 승계를 위한 기형적인 입시교육열의 묘사, 그리고 시청자들로 하여금 그걸 관음하도록 하며 모종의 경멸, 혐오, 동경, 공감 등등을 끌어내는 지점이 사실상 전부가 아닐까 싶다.
<스카이캐슬>은 과장으로 가득찬 드라마다. 기품을 흉내내며 현대의 귀족을 자처하는 상류층 인물들의 묘사도 그렇고, 연극계 출신이라는 게 다분히 느껴지는 몇몇 배우들의 과장된 제스쳐와 연기 톤 또한 그렇다. 원래는 진지한 맥락이었을 듯한 어떤 장면들은 연출의 비장미가 지나쳐 보고 웃으라는 건지 몰입하라는 건지 살짝 헷갈릴 때도 있다. '이건 드라마야'라고 계속 말해주는 것 같다. 어차피 범부들은 이해하지도 흉내내지도 못할 사교육의 최첨단은, 실존하긴 하지만 그 자체로 다른 세계다. 그 다른 세계에 현실성을 입히려 노력하느니 더욱더 판타지로 만들겠다는 의지가 엿보인다. 실은 어쨌건 진짜 현실이기 때문에, 정말 현실적으로 묘사했다면 어지간한 사람들은 몇편 보다 지쳐 떨어져 나갔을 거다.
그래. 이게 과장된 드라마라는 건 알겠다. 과장된 인물들, 과장된 상황들. 회가 거듭될 수록 몇 안 되는 인물 안에서 모든 갈등관계가 몇 겹으로 얽히고 섥히는 것도 이해한다. 그래야 드라마가 쫀쫀해지지. 그 모든 드라마적 과장을 다 이해하며 보면서도 유독 몰입이 깨지는 장면이 바로 입주민 독서토론 '옴파로스' 장면이다. 기존 입주민들과 새로운 갈등 유발자의 대립이 폭발하는 중요한 장치로 등장하는데, 문제는 이 독서토론의 수준이 처참하다는 거다. <이기적 유전자>의 감상이 '이기적인 것이 좋은 것이다. 나는 마음껏 이기적인 존재가 되겠다'라니. 이 어처구니 없는 감상은 그 뒤에 이어진 <짜라투스트라는 이렇게 말했다>에서도 크게 다르지 않았다.
극중 이수임이 혀를 차며 '이거 완전 코미디네'라고 얘기했듯, 어차피 '옴파로스'는 극중 인물들의 부조리와 위선을 보여주기 위한 장치일 뿐 딱히 훌륭한 독서토론의 모습을 보여줄 생각은 없는 게 맞다. 드라마에서 <이기적 유전자>를 성실하게 해석해줄 필요도 물론 없고. 작가 역시 '예서의 기에 눌려 찍소리도 못하고 있긴 하지만 책은 제대로 읽은 듯한' 인물들을 보여줌으로써 면피할 수 있는 지점을 마련해 놓긴 했다. 아무리 그래도 나름 대한민국 상류층을 자처하는 법대, 의대 교수들과 명문 사립고를 수석 입학한 학생의 감상이라기엔 너무 성의 없는 묘사 아닌가. '서울 의대 입학에 모든 걸 걸었다'라는 작품의 핵심 설정이 갑자기 우스워지는 장면인 거다. 예서야, 너 그 독후감 그렇게 쓰면 서울대 못 가. 차교수님, 로스쿨 교수라면서요.
그러면서 생각나는 책 한 권. <대학에 가는 AI vs 교과서를 못 읽는 아이들>이라는 굉장히 긴 제목의 책이다. 2018년 11월 말에 나온 따끈따끈한 신간이다. 저자인 아라이 노리코는, AI에 대한 사람들의 막연한 두려움을 가라앉히기 위해 자신이 몇년 동안 매진했던 프로젝트를 소개한다. 수능을 보는 AI를 개발하여 도쿄대학교에 합격시키는 것이다. 한국의 수능으로 따지면 언어, 외국어, 수학, 사회탐구 영역별로 문제를 푸는 알고리즘을 따로 개발하고, 다시 외국어 영역의 경우 '듣기', '회화(대화 완성하기)', '독해' 등등의 유형별로 코딩을 다시 하는 식이다. 이를 위해 인공지능 연구자들 100여 명이 5년 이상 달려들었다. 일본의 연구지만 전세계 컴퓨터 공학자들 사이에서도 주목을 받은 프로젝트다.
결론부터 말하자면 인공지능은 도쿄대 합격에 실패했다. 저자는 앞으로 백년 이상 연구가 지속되어도 도쿄대에 합격하는 일은 없을 거라고 잘라 말한다. 그는 '진정한 의미의 인공지능이란 아직 존재하지 않는다. 최대한 인공지능처럼 보이려 노력하는 알고리즘이 존재할 뿐이다'라고 한다. 그렇게 잘라 말한 이유는, 컴퓨터는 '의미'를 이해하지 못하기 때문이라는 거다. 컴퓨터가 할 수 있는 일은 오로지 0과 1로 환산 되는 사칙연산 뿐인데, 이러한 계산 기능은 아무리 발전해도 의미를 이해할 수 없으니까. 그저 의미를 이해하는 것처럼 흉내낼 뿐이다. 놀라운 것은 이러한 흉내로 도쿄대 합격에 실패했을 뿐 유수의 명문대학교에는 합격했다는 사실이다. 한국에서 흔히 대학 이름들을 늘어놓을 때로 비교하면 '서성한이' 정도에 해당하는 대학들이다. 목표로 한 도쿄대는 아니지만 충분히 놀라운 결과다.
컴퓨터 인공지능의 역사는 생각보다 일찍 시작되었다. 1980년 대에 수학의 명제를 증명하는 방식의 인공지능 알고리즘이 열풍을 일으켰던 것이다. 수학 명제의 경우 논리 한 단계 한 단계를 Y/N로 판단할 수 있는 설계를 짤 수 있었다. 하지만 우리가 일상에서 생산하는 수많은 문장들을 전부 알고리즘의 형태로 설계해 이해시키는 것은 불가능하다. 때문에 '자연어'를 이해하는 '인공지능'의 개발은 불가능해 보였고 수십년 동안 사람들의 관심에서 멀어졌다. 잊혀졌던 AI라는 이름을 최근 다시 떠오르게 만든 건 인터넷에 무한히 업로드 되는 빅데이터 때문이다. 사람이 하나하나 직접 선생님이 되어 알고리즘을 짜 주어야 하던 과거의 방식과 달리, 온라인에 가득한 데이터를 분석하는 통계적 장치를 동원하면 자연어를 해석하는 것처럼 '보이는' 결과를 얻을 수 있다.
이제는 일상이 되어 버린 '시리'며 '빅스비' 같은 기능들이 좋은 예다. 시리에게 '이 근처에 맛있는 중국집 찾아줘.'라고 말하면 가까운 곳의 중국 음식점들이 평점 순서대로 쭉 제시된다. 하지만 시리에게 '이 근처의 맛없는 중국집 찾아줘'라고 한다면? 아까와 똑같은 중국 음식점들이 여전히 맛있는 순서대로 나올 뿐이다. 시리는 '맛있는'과 '맛없는'의 의미를 이해하지 못한다. 그저 '이 근처', '맛', '중국집'이라는 키워드를 모두 포함해 가장 상관 관계가 높은 검색결과를 보여줄 뿐이다. '맛없는' 중국집이 나오지 않는 이유는? 사람들은 맛없는 중국집을 검색하지 않으니까. 그래서 평점을 역순으로 배열한 결과를 시리는 찾지 못한다. 책이 쓰여진 시점에 저자는 그렇게 확인했고, 책을 읽는 내가 테스트 해봤을 때도 여전히 결과는 같았다. 애플의 관계자는 아직 이 책을 읽지 못했거나, 혹은 읽었어도 피드백을 반영할 정도로 중요하다고 판단하지는 않은 것 같다.
우리가 일상적으로 쓰는 지금의 인공지능이 '의미'가 아닌 '통계'의 결과인 흔적은 또 있다. 구글 번역기에서 'you'는 한국어로 어떻게 번역되는 경우가 가장 많을까. 너, 당신, 그대 등등 여러가지 단어가 있지만, 의외로 굉장히 자주 보이는 단어는 '귀하'다. 물론 'I love you.'라든지, 'You sucks!'처럼 문장이 통째로 흔하게 쓰이는 경우는 가장 자연스러운 형태가 출력 된다. 하지만 문장이 조금만 길어지면 가장 무난한 '당신' 못지 않게 '귀하'라는 번역을 자주 만나게 된다. 실제 한국어에서는 굉장히 드물게 사용되는 단어라는 점을 고려하면 이상한 일이다.
이유는 역시 '통계'다. 번역도 역시 빅데이터를 활용하는데, 우리가 하루에도 쉴 새 없이 인터넷에 글을 써제낀다는 걸 생각하면 재료가 무한할 것 같지만 실제로 사용 가능한 데이터는 한정적이다. 자동 번역의 재료가 되려면 두 가지 조건을 만족해야 하는데, 첫째로 '똑같은 글이 양쪽 언어로 작성되어 있을 것', 그리고 '양쪽 모두 문법에 오류가 없어야 할 것'이다. 깨끗한 데이터가 필요하다는 말이다.
그러니 페이스북이나 트위터에 쏟아지는 수많은 텍스트는 번역 데이터의 관점에서는 쓰레기나 다름 없다. 한국말과 영어 양쪽 언어로 같은 글을 쓰는 유저는 거의 없으며, 해외에 살면서 한국 친구들에게도 동시에 이야기 하고 싶어 그렇게 쓰는 사람이 있긴 하지만 이 두 언어로 쓰인 글이 문법적으로 완벽한 지 일일이 확인할 수는 없다.
이 조건을 만족시키는 가장 완벽한 데이터는 '제품사용설명서'나 '계약서'다. 수입산 공산품을 구매해 본 사람이라면 누구나 최소 4개 국가에서 많으면 10가지 언어로 작성된 매뉴얼을 본 적이 있을 거다. 계약서도 마찬가지다. 서로 다른 국가 간 맺은 계약의 경우 문법적으로 완벽한 계약서가 양쪽 국가의 언어로 작성되어 있다. 이보다 훌륭한 데이터는 없지만, 덕분에 우리는 일상에서 거의 쓰지 않는 '귀하'라는 단어를 구글 번역기에서 종종 볼 수 있는 것이다.
그러니까, 이게 AI다. 실제로 '의미'를 이해하진 못하지만 엄청나게 많은 양의 정보로 비슷한 모양새를 흉내내는 기술. 문제를 푸는 방식도 비슷하다. 예외적으로 수학의 경우에는 컴퓨터 자신도 같은 언어를 사용하기 때문에 빅데이터가 아닌 실제로 문제를 푸는 방식을 도입했다. 이는 앞서 이야기한 80년대에서 이미 가능했던 방식으로, 수학 점수만 놓고 보면 도쿄대 의대에도 합격할 수 있는 결과를 얻었다.
하지만 수학이 아닌 다른 과목의 문제를 푸는 방식은 시리가 중국집 맛집을 찾아주는 방식과 다르지 않다. '카를로스 왕조 프랑크 왕국이 건국된 8세기에 일어난 사건 중 옳은 것을 고르시오'라는 문제가 나오면 그냥 '카를로스 왕조', '프랑크 왕국', '8세기'의 키워드를 조합해서 사실로 추정되는 검색 결과를 찾아내는 것이다. 물론 그렇게 얻어낸 결과를 다시 문제에 적용하는 장치들이 추가되지만 기본적으로 여기서 크게 벗어나지 않는다. 컴퓨터는 '카를로스 왕조'가 뭔지, '프랑크 왕국'이 뭔지 전혀 모른다. 따라서 자주 등장하는 단어의 카테고리를 분류하는 작업까지 하나하나 해줘야 풀이의 정확성을 높일 수 있다.
세계사 같은 과목은 이렇게 해서 어느 정도 점수를 높일 수 있다. 시험 범위와 그 안에서 등장하는 단어들이 정해져 있으니까. 문제는 언어와 외국어 영역이다. 세상에 등장하는 모든 어휘를 분류하고 입력하는 것은 불가능하다. 설령 빅데이터로 그게 가능해진다 해도 그 어휘들을 조합하여 만들 수 있는 무한한 맥락은 컴퓨터가 해석할 수 없는 영역이다. 결국 방법은 또 '시리의 중국집'이다. 문제에 등장한 키워드들을 조합해서 상관관계가 가장 높은 보기를 선택하는 것.
그래서 저자는 '의미를 이해하지 못하는 AI가 인간을 지배할 것이라는 공포는 공상에 불과하다'고 단언한다. 일본 저자 특유의 너무 단정적인 어조가 좀 그렇긴 해도 설득력은 있다. 하지만 저자도 실존하는 위험은 인정한다. AI가 인간의 일자리를 상당수 빼앗아 갈 거라는 거다. 앞서 얘기했듯 수학 점수는 도쿄대 의대에도 합격할 수 있는 점수를 얻었다. 그럼 수학과 계산능력을 필요로 하는 일자리는, 적어도 도쿄대 의대를 합격할 실력 밑으로는 전부 AI로 대체되어도 이상할 게 없다는 말이다. 그렇다면 인간은 AI가 흉내내지 못하는 '독해력', 즉 의미를 이해하는 능력에 집중해야 한다.
여기서 윌 스미스가 주연한 영화 <아이, 로봇>의 명대사가 나온다. "로봇은 위대한 교향곡, 감동적인 명화를 만들어내지 못한다."는 윌 스미스의 말에, 로봇이 "넌 할 수 있어?"하고 묻는 것이다. 물론 윌 스미스는 말문이 막힌다. 저자가 조사한 바에 따르면 일본의 중고등학생 역시 80% 정도가 프로젝트의 인공지능보다 독해력이 낮았다. 무슨 뜻인지 모르고 그냥 단어의 배열만 조합해서 검색결과를 내놓는 것보다 실제로 글을 읽은 사람들의 이해력이 딱히 낫지 않았다는 얘기다. 하긴 다시 떠올려 보면 프로젝트는 '서성한이'에 합격했다. 흉내이긴 해도 독해력 평가까지 포함해 상위 20% 대학에 합격한 거다. 대학의 줄세우기를 옹호할 생각은 없지만, 특정한 능력을 점수로 환산할 수 있다면 기업의 입장에서 AI를 두고 더 낮은 점수의 사람을 채용할 이유가 있을까.
저자가 독해력 측정을 위해 내놓은 문제를 보면, 실제 사람이라 한들 '문제풀이'에 있어서는 인공지능과 다를 바가 없다는 게 실감이 간다.
- Alex는 남성과 여성 모두가 사용하는 이름으로, 여성의 이름 Alexandra의 애칭인 동시에 남성의 이름 Alexander의 애칭이기도 하다.
: 다음 문장의 빈칸에 적당한 말은?
"Alexandra의 애칭은 ( )이다."
① Alex ② Alexander ③ 남성 ④ 여성
정답은? 당연히 1번이다. 이런 문제를 누군가한테 낸다면 '지금 이 사람이 나를 무시하나' 싶은 시선을 받을 만큼 쉬운 문제다. 그런데 이 문제를 푼 일본 중학생의 정답률은 50%에 못 미친다. 고등학교로 올라가도 70%가 안 된다. 그럼 가장 많이 찍은 오답은 몇 번일까? 4번이다. 중학생의 경우 정답을 고른 학생보다 4번을 고른 학생이 더 많았다.
이유는? 문제를 푸는 방식이 시리와 별 다를 바 없기 때문이다. 문제에는 Alex라는 키워드가 제시된 후, 'Alexandra-여성', 'Alexander-남성'이라는 짝짓기를 보여준다. 글을 제대로 읽지 않고 빨리빨리 문제를 푸는게 습관이 된 학생이라면 반사적으로 'Alexandra'에 맞춰 '여성'을 고르고 넘어간다. 시험에 매여 사는 대부분의 중고생들이 관습적으로 문제를 푸는 모양새가 이럴 거다. 너무 쉬운 문제라고 비웃은 사람도 시간에 쫓기며 짝짓기의 유혹에 빠지면 같은 선택을 할 수 있다. 나중에 채점하고서는 "실수예요, 실수"하겠지만 결국 AI보다 나을 게 하나도 없다.
생각해보면 실제 학생들의 입시 공부도 대부분 AI가 빅데이터를 활용하는 방식과 다르지 않을 때가 많다. 문장과 어휘의 의미를 해석하고 이해하는 것이 아니라, '문제 유형 분석!' '출제 경향 파악!' '무조건 많이 풀어봐라!' AI처럼 빅데이터를 반복적으로 입력하여 통계적 정확도를 높여가는 것이다.
아마 수능 중심의 입시제도가 이런 현상을 만들었다는 문제의식 때문에, 학생부종합전형 같은 복잡한 입시제도가 나왔을 거다. 하지만 '학종'으로 서울 의대 합격을 향해 달려가는 예서의 <이기적 유전자> 감상을 보면 그것도 그리 성공적인 것 같지 않다. 드라마 밖 실제 입시 현장에서는 얼마나 성과를 거두고 있는지 모르겠지만.
아하. <스카이캐슬> 작가는 예서의 독후감을 통해 '이런 애도 명문 사립고 수석입학 하는 현실'을 비꼬고 싶었던 거였구나. '옴파로스'의 비밀이 풀렸다.