세상 궁금한 십대’ 시리즈
이 책은 ‘세상 궁금한 십대’ 시리즈이다. 알고리즘, 알만하면 또 알쏭달쏭한 것! 자세히 알고 싶어서 10대를 겨냥한 시리즈로 읽었다.
알고리즘은 국립국어원 표준국어대사전에 ‘알고리즘 「명사」 『정보·통신』 어떤 문제의 해결을 위하여, 입력된 자료를 토대로 하여 원하는 출력을 유도하여 내는 규칙의 집합. 여러 단계의 유한 집합으로 구성되는데, 각 단계는 하나 또는 그 이상의 연산을 필요로 한다. ≒알고리듬.’이라고 되어있다. 무슨 뜻인지?
국립특수교육원 한국마이크로소프트가 디지털 정보 격차 해소를 위해 시각, 청각, 발달, 지체 장애 어린이들을 대상으로 만든 코딩 교육 프로그램 〈나랑 놀자! 소프트웨어〉에
[알고리즘은 문제를 해결하는 과정을 순서대로 표현한 것입니다.
예를 들어 양치질하는 알고리즘은 다음과 같습니다.
① 칫솔에 치약을 바른다.
② 입속에 칫솔을 넣는다.
③ 양치질을 한다.
④ 입을 행군다.]
알고리즘은 ‘절차’이다. 어떤 문제를 해결하기 위한 절차를 하나하나 구체적인 순서로 표현한 것. 알고리즘은 정보통신 분야에 국한된 용어도 아니고, 컴퓨터 사이언스에서만 사용하는 말도 아니다. ‘알고리즘’이란 말은 8~9세기 이스람 수학자 알콰리즈미의 이름에서 파생되었다. 알 콰리즈미는 더하기와 빼기의 방법이란 책을 쓰는 등 수학 체계를 만드는데 크게 이바지한 학자였다.
세상에서 나를 가장 잘 아는 존재는 누구일까? 부모, 친한 친구, 나 자신, 전부 아니다. 정답은 알고리즘이다. 알고리즘이 가족보다 성격을 잘 맞힌다는 연구 결과가 2015년에 나왔다.
영국의 케임브리지대학교와 미국 스탠퍼드대학교 공동 연구팀은 ‘좋아요’를 분석하는 알고리즘이 이용자의 성격을 알아낼 수 있다는 사실을 밝혔다. 이용자가 외향적인지 내향적인지, 적극적인지 소극적인지 맞히는데 ‘좋아요’ 10개만으로 이용자의 성격을 직장 동료들보다 훨씬 더 정확하게 파악했다.
알고리즘은 ‘좋아요’ 70개로 이용자의 마음을 친구들보다 더 잘 알아차렸다. ‘좋아요’ 150개를 분석하자, 이용자를 가족보다 훨씬 더 잘 이해했다.
알고리즘은 ‘좋아요’만으로 페이스북 이용자의 정치색을 85% 정확도로 알아냈다. 여기에 성별, 인종, 나이, 친구 등 사소한 정보 몇 개를 더하면 정확도가 90%를 넘었다. 우리는 알고리즘이 내가 무엇을 보고 듣는지, 어디를 방문하는지, 누구와 메시지를 주고받는지 등등 나의 ‘모든 흔적’을 쫓는다. 내 데이터뿐 아니라 유튜브에 접속하는 전 세계 수억 명의 데이터도 알고리즘 작동에 어떤 중요한 역할을 할 것이다.
알고리즘이 예측과 판단은 인간 전문가들보다 훨씬 더 정확하고 탁월해 보인다. 이런 믿음을 바탕으로 알고리즘은 단순한 계산과 데이터 통계 분석을 넘어 정치, 경제, 사회, 문화 등 모든 영역에서 이용되고 있다. 인공 지능 통번역 알고리즘 ‘파파고’, ‘로빈’, ‘유렉스’, ‘헬프미’, ‘로보’ 같은 법률 서비스 알고리즘을 강단한 상담을 하고 필요한 법률과 판례를 찾고 기초 서류도 작성해 준다. IBM 인공 지능 알고리즘 ‘왓슨 포 온콜로지’는 암 환자를 진단하고 의료진의 처방과 진료를 돕는다. ‘시네리틱’, ‘스크립트북’, ‘볼트’, ‘파일럿’ 같은 알고리즘은 어떤 시나리오가 흥행할지 분석하고 영화가 개봉하기 전 관객 수를 예측한다. 호주 정부는 원만한 이혼을 돕는 인공 지능 알고리즘 ‘아미카’를 개발했다.
알고리즘은 우리에게 새로운 세상을 보여 주고 우리의 취향을 넓히며 결정의 순간에 선택과 판단의 어려움을 덜어 준다. 그런데 뒤집어 생각하면, 우리는 알고리즘에 ‘분석’ 당하고 ‘추천’ 당하고 그 영향을 받아 ‘변하고’ 있다.
검색 알고리즘은 사람마다 검색 결과를 다르게 보여 준다. 구글은 수천억 개의 웹페이지와 어마어마한 데이터 속에서 이용자가 원하는 정보를 어떤 순서로 보여 줄까? 연관된 단어, 공신력 있는 사이트, 최신 데이터 여부 등을 고려해 인공 지능 랭킹 알고리즘이 정한 순서대로 보여 준다. 여기에 위치 정보와 이용자가 남긴 데이터를 매우 적극적으로 반영한다. 검색 창에 똑같이 ‘축구’를 입력해도 그곳이 영국이라면 프리미어 리그, 독일이라면 분데스리가 관련 게시물이 먼저 뜬다.
우리나라 검색 엔진인 네이버와 다음 등은 구글처럼 개인 맞춤 검색을 제공하지 않는다. 누구에게나 똑같은 검새 결과를 보여 준다. 대신 이용자가 남긴 데이터로 개인 맞춤 광고를 띄워 사람마다 전혀 다른 고아고를 보게 한다.
추천 알고리즘의 첫 번째 원리는 협업 필터링이다. 이용자 정보를 분석해 비슷한 취향을 가진 이용자들이 기존에 좋아하던 것들을 서로 추천하는 알고리즘이다. 이 알고리즘이 제대로 작동하려면 수많은 이용자에 관한 상세 정보가 필요하다. 알고리즘은 이용자들을 취향에 따라 그룹으로 묶는다. ‘편의점 그룹’, ‘백화점 그룹’ 같은 식이다.
많이 본 콘텐츠나 많이 구매한 제품을 뽑아서 아직 그 콘텐츠를 보지 않은 사람에게 추천한다. 이때, 사람들이 많이 본 콘텐츠일수록 더 많이 추천된다. 내용이 좋아도 데이터가 부족해 외면받는 콘텐츠가 생기는 이유다. 플랫폼에 처음 가입한 이용자의 경우에는 데이터가 없어서 알고리즘이 제대로 작동하지 않는다. 이런 현상을 ‘콜드 스타트’라고 부른다.
커뮤니케이션 전문가들은 이런 맞춤 추천이 에코 체임버 효과를 가져온다고 경고한다. 에코 체임버는 방송국에서 메아리 효과를 내려고 만든 밀페된 공간이다. 알고리즘에 사소한 결정을 맡기다 보면 나는 어느새 내 취향에 맞는 물건, 나와 생각이 같은 사람, 내가 옳다고 믿는 정보와 뉴스에 둘러싸이고 만다. 체코 체임버에 갇히듯 내 생각과 반대되는 생각은 아예 보이지도 들리지도 않는다.
편향된 온라인 세계에서 자신과 비슷한 사람만 만나 편향된 정보만 나누는 데 길든 사람들은 점점 더 취향과 생각이 다른 사람을 싫어하고 멀리하게 된다. 자동화된 알고리즘은 내가 좋아하지 않는 이야기, 내 신념과 결이 다른 정보를 철저하게 걸러 낸다. 현실 세계에서 우리가 응당 맞닥뜨려야 하는 이야기를 감춰 버린다. 그 결과 원래 가지고 있던 생각과 성향은 점점 더 확고해지고, 믿고 싶지 않은 정보는 외면하게 된다. 결국 알고리즘은 사람들이 세계를 균형 있게 바라보지 못하게 만든다. 이런 현상을 인지 편향, 혹은 확증 편향이라고 한다.
알고리즘을 프로그래밍 언어로 기술 한 게 바로 ‘프로그램’이다. 알고리즘은 프로그램 설계도에 해당한다. 우리는 프로그램을 흔힌 소프트웨어나 애플리케이션 혹은 앱이라고 부른다. 이때 프로그래밍 언어를 사용해 알고리즘을 하나의 프로그램으로 만들어 가는 게 바로 ‘코딩’이다.
알고리즘을 정하고, 정성 들여 코딩하고, 마지막으로 오류를 찾아내 수정하는 디버깅을 거치면 프로그램이 완성된다. 이렇게 만들어진 여러 프로그램이 컴퓨터, 네트워크 등과 결합해 작동하는 게 바로 ‘시스템’이다.
알고리즘의 종류는 매우 다양하다. 탐색 알고리즘, 정렬 알고리즘, 재귀 알고리즘, 분할 정복 알고리즘, 그래프 알고리즘, 최적화 알고리즘, 다이내믹 알고리즘, 백트래킹 알고리즘, 암호 알고리즘, 미로 탐색 알고리즘 등등 구조나 다루는 테마, 패러다임에 따라 여러 갈래로 나뉘고 새로운 알고리즘이 탄생한다.
인간의 사고방식은 논리적이다. 갈릴레이와 뉴턴 이후로 근대 과학이 발달하면서 철학자들은 ‘사고의 계산화’라는 개념을 구축했다. 라이프니트와 브레게가 싹을 튀우고 러셀과 화이트헤드가 ‘수학 원리’를 고안해 힐베르트가 수리논리학으로 발전시켰다.
수리논리학은 ‘인간의 생각은 기호로 표현할 수 있다.’는 걸 전제로 한다. 기호와 숫자로 만드는 수학적, 논리적 표현은 알고리즘과 어울린다. 이를 바탕으로 컴퓨터 산업이 발전한다. 하지만 그건 ‘자동화’였다. 인간처럼 생각하고 학습하는 인공 지능과는 거리가 멀었다.
1비트는 담을 수 있는 정보가 너무 적다 보니 데이터가 되지 못해서 8비트인 1바이트를 기준으로삼는다. 1바이트는 한 글자, 1킬로바이트는 책 1쪽, 1메가바이트는 사진 1장이나 음악 1곡, 1기가 바이트는 영화 한 편 정도라고 기억하면 편리하다.
2020년 딥 러닝 알고리즘으로 설계한 우리나라의 인공 지능 챗봇 ‘이루다’가 엄청난 물의를 일으켰다. 허락 없이 수집한 카카오톡 대화를 데이터 분석에 사용해 이름, 전화번호, 계좌 번호가 유출된 게 문제였다. 또 다른 문제는 이루다는 지하철 임산부석에 관해 대화하면 “예민하게 반응해서 미안한데 난 그 단어 혐오스러워”라고 대답했다. 장애인과 이주민을 조롱하기도 했다. 결국 ‘이루다’ 서비스는 폐지되었다.
“세상에는 세 부류의 사람이 있다. 보려는 사람, 보여 주면 보는 사람, 그래도 보지 않는 사람이다.” 레오나르도 다빈치가 한 말이다. 진짜 같은 가짜 사람 얼굴을 만드는 GANs 알고리즘이 있다. 인공 지능 스타트업인 제너레이티드 포토스는 2년간 69명의 모델과 2만 9천 장의 사진을 찍고, 엔비디아에서 개발한 StyleGAN이라는 이미지 합성 알고리즘을 이용해 10만 개의 사람 얼굴을 만들어 냈다. 이 세상에 존재하지 않는 사람들의 모습이다. 누구의 초상권도 침해하지 않는 가짜 얼굴인 창작물에 잘 쓰이면 좋을 텐데, 안타깝게도 가짜 뉴스를 만드는 데 쓰인다.
이런 가짜 얼굴은 유심히 살펴보면 알 수 있다. 사진을 반반씩 나눠 비교하면 양쪽의 귀 모양, 귀고리 모양, 안경테 모양이 확실히 다르다. 또 눈의 초점이 한곳으로 모이지 않고 동공이 각각 정면을 향한다. 인공 지능 알고리즘으로 사진이나 동영상을 합성하는 딥 페이크도 정치인의 연설을 조작하고, 19금 콘텐츠에 유명 배우 얼굴을 합성해 논란을 일으켰다.
스키를 타고 수많은 나무를 피해 산에서 내려가야 할 때, ‘나무를 피하겠다’라고 생각하면 나무만 눈에 들어오고, ‘길을 찾자’라는 마음을 먹으면 풍경이 달라 진다. 나를 방해하는 나무가 아니라 앞으로 나아가야 할 길을 눈에 그득 담으면 어디에도 부딪히지 않고 무사히 산에서 내려갈 수 있다.
지능이란 무엇일까? IQ라고 생각했다면 너무 좁고 지우친 생각이다. 지능을 점수로 그것도 높고 낮음으로 평가할 수 있는 것이 아니다. 지능은 문제를 해결하는 능력이다. 지구라는 행성에서 매 순간 문제를 해결하며 살아가는 존재는 바로 생명체다. 바위나 구름, 바다는 그대로 존재하면 된다. 하지만 생명체는 자신을 위협하는 문제를 해결해야만 영양분을 섭취하고 성장하고 번식하며 살아남을 수 있다. 박테리아도, 식물도, 바퀴벌레도 문어도, 인간도 다 마찬가지다. 알고리즘의 다른 이름이 ‘지능’이다.
생명체는 저마다 문제 해결을 위한 알고리즘을 가지고 있다. 이 알고리즘은 수십억 년에 걸쳐 진화했다. 그 진화 끝에 양치질도 하고, 인공 지능도 개발할 수 있게 되었다. 인공 지능 알고리즘 중에 그림을 그리거나 음악을 작곡하는 것들이 있다. 구글이 딥드림은 두 가지 이미지를 입력하면 새로운 이미지를 만들어 낸다.
알고리즘은 어디에나 있고 언제나 우리 곁에서 작동하고 있다. 알고리즘이 보여 주는 결과가 객관적이고 공정할 거라 믿지 말고, 알고리즘이 무조건 우리보다 나을 거라는 기대를 버려야 알고리즘과 제대로 마주할 수 있다.
책 소개
『알고 있니? 알고리즘』 소이언 지음. 2022.05.16. (주)우리학교. 151쪽. 14,000원.
소이언. 서울대학교에서 철학 공부. 지은 책. 『타고 갈래? 메타버스』 등