brunch

You can make anything
by writing

C.S.Lewis

by 마냐 정혜승 Sep 12. 2019

<안녕, 인간> 알고리즘도 인간도 완벽하지 않다면


최근 GAFA(구글 애플 페이스북 아마존)에 대한 분노 가득한 책 <생각을 빼앗긴 세계>를 읽은 직후, 감정은 좀 거두고, 담담하게 살펴보고 싶어 고른 책입니다. ‘부와 권력을 지배하는 인공지능의 보이지 않는 공포가 온다’는 부제에도 불구하고, 그렇게 부정적이지 않은 책이죠. ‘착취당할 것인가, 지배할 것인가, 아니면 완벽하게 공생할 것인가’에 대한 뒷표지 질문은 사실상 답을 품고 있는 질문이고요.


저자인 해나 프라이는 영국 런던대의 수학자입니다. 도시수학(the mathematics of cities)이란 분야를 처음 보는데, 수학 모델을 통해 행동 패턴 뿐 아니라 정부, 경찰, 의료분석, 마케팅, 테러리즘, 교통 관련 연구를 한다고요. 일단 유명 TED연사 답게 설명이 쉽습니다. 수학은 거의 나오지 않아요. 대신 흥미진진한 사례들을 통해 철학적, 사회적 질문을 던집니다. 책은 9월 시작한 트레바리 ‘디지털 시대 읽기’라는 클럽에서 함께 읽었고, 다양한 시선의 목소리를 들어 좋았습니다.


공평한 알고리즘?


토론을 위한 발제 주제는 알고리즘, AI의 윤리와 규범 문제, 그리고 알고리즘의 미래에 대한 얘기로 굳이 나눠봤습니다. 예컨대 현실의 불공정 혹은 불균형을 그대로 반영하는 알고리즘은 공정한 것일까요?


공평한 알고리즘? 전세계 살인자 중 96%는 남성. 살인자 감별 알고리즘이 있다면 남성은 고위험군.. 결과가 한쪽으로 치우친 원인은 현실....미국에서 마리화나 흡연죄는 흑인과 백인이 같은 비율로 저지르지만 체포되는 확률은 흑인이 8배 높다. 알고리즘은 피부색에 따라 판정하는게 아니라 역사적으로 심하게 불평등했던 미국 사회의 뻔한 예측 결과를 근거로 판단..." (109~112쪽)


알고리즘에게 인종 차별의 의도가 없다해도, 데이터 덕분에 현실의 차별적 인식이 고스란히 반영될 수 있습니다. ‘알고리즘이 지난날의 불평등을 얼마나 쉽게 유지하는지’ 알 수 있죠. 그리고 상황을 더 나쁘게 만들 소지도 있습니다.


차별의 악순환에 빠지는 알고리즘

“범죄와 싸우고자 알고리즘 예측을 근거로 경찰을 어느 지역에 보낸다면, 범죄의 순환고리에 빠질 위험...예컨대 처음에 가난한 동네의 범죄율이 높으면, 알고리즘 예측도 높아지고, 순찰을 나와 더 많은 범죄를 찾아내고, 계속 위험 지역으로 예측하고, 더 많은 경찰을 보내고..”(239쪽)

‘마이너리티 리포트’는 초능력을 가진 이들의 예언처럼 범죄를 예측하지만, 알고리즘은 데이터를 기반으로 하는데, 좀 들여다보면 빈곤 계층에 무조건 불리합니다. 흑인에게 불리하고요. 새로운 형태의 무전유죄, 인종차별입니다. 실제 저 알고리즘을 판결에 활용한게 오히려 신기합니다. 알고리즘은 판사에게 일은 덜 하면서도 책임은 피할 길을 열어준다는게 저자의 지적입니다.


"미국 위스콘신주 판사들은 민간 기업이 개발한 위험평가 알고리즘 이용. 위험도 계산 질문에는 ‘배고픈 사람은 훔칠 권리가 있다. 동의하는가?’, ‘부모님이 이혼하셨는가? 그때 당신은 몇 살이었는가?’ 알고리즘은 피고가 2년 안에 다시 범죄를 저지를지 예측하는 목적으로 설계. 정확도는 약 70%. 셋에 하나꼴로 틀린 예측.
고위험군으로 잘못 분류할 확률이 흑인이 백인에 비해 두 배. 저위험군으로 잘못 예측할 확률은 백인이 흑인의 두 배. 16년 프로퍼블리카 분석. 누군가의 미래를 바꿀 결정에 불완전하고 편향된 알고리즘을 쓴다는 비난.."(104-108쪽)

알고리즘의 정확도가 70%에서 95%로 높아지면 다를까요? 글쎄요. 참고는 하더라도, 사례를 좀 더 분명히 들여다봐야 하지 않을지. 책에 나온 사례를 보면, 판사들이 기계적으로 알고리즘을 적용할 뿐 사건을 제대로 들여다보고 변론을 이해한건지 의문이 듭니다. 그렇다면 참고용으로만 쓰면 되는 걸까요. 알고리즘은 현실의 거울인데요. 현실을 그대로 비추는 것에 대한 아쉬움도 있습니다.

구글 이미지 검색창에 ‘수학 교수’를 쳐보면, 대부분 백인 중년 남성들. 상단 20개 이미지 중 여성은 딱 한 명. 실제 수학교수 94%가 남성이니 현실을 맥이 빠질 만큼 정확하게 반영한 결과...거울에 비친 현실이 몇 백 년 편향 때문에 존재한다면.. 알고리즘을 살짝 수정해 백인이 아니거나 여성 교수 모습을 먼저 보여준다면? 좀 더 균형을 맞춰 우리가 지금 사는 세상이 아니라 목표로 삼는 사회를 반영할 수도.." (113쪽)

현실의 불균형을 그대로 드러내고, 강화하고, 고착시키는 느낌. 이것은 다소 기우일 수도 있습니다. 그렇다고, 저 현실을 무시하고 수학교수 이미지에 남녀 반반 드러내는 것 또한 왜곡입니다. 어려운 지점입니다.


알고리즘은 당신을 더 잘 안다


1994년 영국 유통회사 테스코는 고객카드를 통해 어떤 고객이 날마다 점포에 들르는지, 어떤 고객이 주말까지 쇼핑을 미루는지 파악하고 맞춤형 마케팅을 진행합니다. 당시 테스코 회장은 "내가 30년 동안 고객을 파악한 것보다 (해당 팀이) 석 달 동안 파악한 정보가 많다는 사실이 참 두렵다"고 말합니다. 사실 유통업만큼 고객 정보에 빠삭한 곳이 있을까 싶어요. 최근 망설이던 채칼을 새로 산 것은 쿠팡에서 검색한 뒤, 페이스북, 인스타그램에서 날마다 제게 채칼 광고를 보여준 탓이 있죠. 이건 유통업체와 소셜미디어 업체가 고객 관심 정보를 다 공유한다는 얘기입니다. 맞춤형은 제 관심사를 보여준다는데서 편리하지만, 집요함에 가끔 지쳐요. 더 중요한건, 실제 마트의 고객카드에는 제가 온오프로 뭘 사들이고 있는지, 모든게 축적됩니다. 데이터에서 뭘 추론할 수 있는지, 그건 데이터를 관리하는 자들의 역량입니다. 저자가 인용한 연구에 따르면 집에서 밥을 해먹는 가정일수록 주택보험 보험금을 덜 청구한다는 인과관계가 밝혀졌다고 합니다. 그런데, 책임감 있고 집을 아끼는 사람이라는 점을 가장 잘 알려주는 의미심장한 상품이 서양 허브의 일종인 펜넬이었다고요. (59쪽)

데이터를 기업이 들여다보고 분석한 건 이미 오래됐어요. 미국에서 2009년에 출간된 책 <뉴머러티>에 보면, 엑시엄은 이미 10년 전에 약 2억명의 미국인에 대해 어떤 사람이 집을 얼마에 샀는지, 어떤 잡지를 구독하는지, 클럽메드 통해 알프스로 휴가 가기 이틀 전 어떤 책을 샀는지 파악했다고 했어요. 블로그 텍스트를 자동 분석해 글쓴이가 10대인지, 30대인지 남녀 구분까지 하게 10년 전 얘기라고요. 고양이를 키우는 사람은 민주당일 가능성이 높다는 식의 분석은 더 오래됐고요. 오래된 리뷰 하나 퍼옵니다.


진짜 당신을 찾을 수 있을까?


좀 찜찜한 건 이런겁니다. 그동안 익명화된 정보는 괜찮다고 했거든요. 저자 해나 프라이는 독일 언론인과 데이터 과학자의 실험을 소개합니다. (68~69쪽) 익명처리된 300만명의 브라우저 사용 데이터를 갖고 개인을 추적하는 실험인데요, 일부 사이트 프로필 URL 주소에 이용자 신상 정보가 드러납니다. 방문 주소가 이렇게 나오는 거죠. www.xing.com/profile/Hannah_Fry?sc_omxb_p

"트위터에 웹사이트 주소를 올리거나 유튜브에 자신의 재생 목록을 공개하는 것도 디지털 그림자의 흔적.. 어느 정치인은 온라인에서 약물을 찾았고, 어느 경찰관은 민감한 사건기록을 구글 번역기에 복사하는 바람에 상세 내용이 URL에 포함되었고. 어느 판사는 선정적 사이트를 날마다 들락거리는 사실이 확인됨. 영국 정치컨설팅 회사 케임브리지 애널리티카에서 일어난 일이 바로 이런 것."


EU는 2016년 일반 데이터 보호 규정(General Data Protection Regulation), 일명 GDPR을 제정합니다. 데이터 브로커가 하는 일 대다수를 불법화했다고 저자는 평가합니다. 분명한 목적 없이 타인의 데이터를 저장하거나, 본인 동의 없이 당사자 관련 정보 추론 금지하는 거죠.

"그렇다고 데이터 브로커 관행이 끝난 건 아님...온라인 클릭하며 돌아다닐 때 이용 약관에 크게 주의를 기울이지 않으므로 자신도 모르게 데이터 수집에 동의할 수 있기 때문. 또 데이터 분석과 전송이 대부분 음지에서 일어나는 세상에서는 불법행위를 식별하기도, 규정을 강화하기도 어렵다. 그러니 지켜봐야. 아르헨티나, 브라질, 대한민국 등이 모두 GDPR과 비슷한 법률을 통과시켰다. 국제적으로도 올바른 방향으로 나아가는 추세다." (81쪽)


데이터 시대, 어디까지, 어떻게


저는 GDPR의 강력한 개인정보 보호에 다 찬성하지 않습니다. 구글, 페이스북, 아마존에 시장을 다 내어주고 괜찮은 인터넷 기업을 키우지 못한 유럽에서 미국 기업들을 견제하기 위해 날카롭게 벼린 '칼' 중 하나가 GDPR 인 측면이 있습니다. 현재 국내 개인정보 규제는 국내 기업과 공공기관 누구도 데이터를 제대로 쓸 수 없게 만들었습니다. 구글, 페북은 다 하는 일들도 못합니다. GDPR이 올바른 방향이라고 하는 저자에게 마냥 동의할 수 없습니다. 규제가 다 필요없다는게 아닙니다. 2013년 페이스북은 이용자의 감정을 조종해서 기분에 영향을 끼칠 의도로, 미리 알리거나 동의를 받지 않은채 이용자 68만9003명의 뉴스 피드를 조작했습니다. (76쪽), 실제 영향은 미미했다지만, 동의 없이 이러면 안되는 거잖아요. 사실 알게 모르게 동의하는게 많아서, 동의 만으로 의미 있는 허들이 된다고 생각하지 않지만, 그래도 그건 아니죠. 동의에 더해 다른 허들이 필요해요. 동시에 사회적 편익이 가능한 부분에 대해, 데이터를 활용하는 문제를 좀 더 열어줘야 한다고 생각합니다. 감독을 잘 받으면 되지 않을까요. 그 감독의 방향이 관건 같아요.

"(구글) 딥마인드는 영국 NHS 신탁과 협약을 맺고 신부전증 발견 앱 개발 추진.. 160만명의 5년 치 기록에 접근. 누가 언제 병원에 입원했는지, 병문안 온 사람은 누군지, 병리검사 보고서와 X선 촬영 결과는 어떤지, 누가 임신중절 수술을 받았고, 누가 우울증을 앓았으며, 누가 에이즈 진단을 받았는지.. 데이터 제공에 대해 환자에게 한 번도 동의를 구하지 않았을 뿐더러 거부할 권한도 주지 않고, 연구대상인지 알려주지도 않았던 것. 공정하게 말하자면 데이터 보안에서 구글이 훨씬 뛰어나지만, 이미 믿기 어려울만큼 강력한 세계 최고의 기술 기업이 그런 개인 정보에 접근한다니.. 꽤 걱정스러운" (161쪽)

사실 데이터 기반으로 AI가 가장 실력을 발휘할 수 있는 분야가 질병 진단입니다. 실제 수혜자들이 등장할 수 있을텐데, 또한 가장 위험한 정보가 의료정보입니다. 개인정보를 더 많이 활용할수록, 질병 진단 및 치료 등 인류에 도움이 된다면, 어디까지 열어야할까요. 그것은 누가 결정할까요. 저는 일단 기업마다, 정부 기관마다 데이터 칸막이가 필요하다고 생각합니다. 편히 공유하지 못하게, 병리검사 결과와 우울증, 에이즈 정보가 최소한 한꺼번에 어딘가 넘어가지 않도록. 신부전증 발견을 위한거면, 그 데이터만 가도록 해야하지 않을까요. 정부가 관계 전문가, 이용자 시민단체의 의견을 충분히 들어서 결정하면 좋겠습니다만, 대체로 입장이 평행선인 이슈. 기술 변화 속도에 따라 제 때 결정할 수 있을지 궁금합니다. 


인간도, 알고리즘도 완벽하지 않다


"2001년 영국의 판사 81명에게 가상의 피고 41명을 보여주고 보석 신청 인용 질문. 대다수가 같은 사건에 대해 같은 판결을 내리지 않았고 제각각. 판사끼리만 의견이 엇갈리는게 아니라, 자신의 이전 판결과도 충돌하는 판결을 내리기 일쑤... 알고리즘은 유죄 여부를 판정하지 못한다. 그렇지만 개인정보를 이용해 재범 위험률을 계산할 줄 안다. 사법 제도가 데이터와 알고리즘을 받아들인지 100년 가까이 된다. 미국 로드아일랜드주는 알고리즘을 이용해 교도소 수감 인원을 17% 줄이고 재범률을 6% 낮췄다...

부당함은 인간의 제도 안에 자리 잡고 있다.. 비록 알고리즘이 불완전할지라도 판사가 재판에서 종종 그릇된 인식을 할 때 이를 보완할 수단으로 활용한다면.. 알고리즘을 세심하게 설계하고 적절히 규제한다면, 적어도 사법 제도가 일으키는 편향과 무작위 오류를 제거하는데 도움이 된다. (123쪽)


판사를 잘만나거나, 변호사를 잘만나면 판결이 달라지고, 판사가 점심 먹기 전후 기분에 따라 보석률이 달라질 수 있다는 것을 우리는 상상하지 않습니다. 그러나 무한 신뢰는 깨지고 있어요. 법원에 대한 신뢰도 휘청이는게 우리 만의 일은 아닌 모양입니다. 미디어에 대한 신뢰는 벌써 깨져서, 포털의 경우, 사람이 편집하는 걸 편향적이라 했습니다. 조선일보도 한겨레도 사람이 편집합니다. 그래서 편향적인가요. 대통령이 금괴를 숨기고 있다는 정보와 그렇지 않다는 정보를 나란히 보여주면, 기계적 중립을 지켜서 공정한걸까요? 알고리즘이 편집하면 편향성이 줄어들어요? 알고리즘의 도움은 받을 수 밖에 없습니다. 하루 수 만 개의 기사를 사람의 힘으로만 볼 수는 없어요. 그런데 무엇이 더 옳고 그른 문제는 아닙니다. 인간이 하는 일에도 실수가 있고, 기계가 하는 일에도 한계가 있어요. 상호 보완을 위한 적절한 균형점은 어디일까요.


"2014년 CCTV 화면의 은행강도와 닮았다는 이유로 체포된 스티브 탤리는 확실한 알리바이에도 불구, 1년이 지나서야 혐의를 벗고.. 현재 세계 최고의 얼굴 인식 알고리즘은 중국 텐센트 산하 인공지능연구소인 유튜랩이 만든 것으로 정확도가 83.29%. 즉 여섯 번에 한 번 꼴로 진범을 놓친다는 뜻. (256쪽)

알고리즘이 사람 잡는 사례가 극적인 스토리로 소개되고 있어요. 그렇다고 알고리즘을 쓰지 말라고 하는 건, 시대 변화에 맞지 않습니다. 틀린게 있다면 피드백에 따라 수정하는 시간을 더 단축해 빠른 대응을 하는게 낫다고 봅니다. 저자는 "완벽한 공정함이라는 불가능한 기준을 충실히 지키는 알고리즘 대신, 어쩔 수 없이 실수를 저질렀을 때 쉽게 교정하는 알고리즘을 설계한다면" 어떨지 구상을 내놓습니다. (299쪽) 어차피 알고리즘도 사람이 변수와 가중치를 결정합니다. 스스로 이를 결정하는 AI도 등장하고 있지만, 인간이 계속 봐야만 합니다. AI가 고의성을 갖고 인간을 해하지는 않겠지만, 예컨대 자연보호라는 더 큰 목적을 위해 다른 짓을 한다는 영화가 꼭 상상은 아닐 수 있으니까요.

안녕, 인간... 미래의 속도


"GM은 1939년 뉴욕 세계박람회에서 무선으로 조종하는 무인 자동차를 “1960년에 마주할 세상”이라고 소개. 1950년대 GM은 파이어버드2로 도전. 영국 연구진은 1960년대에 시트로엥을 개조해 도로에 묻어둔 전선과 신호를 주고받는 실험. 1980년대에는 카네기멜런대가 내브랩이라는 자율주행차를, 1990년대에는 EU가 10억 달러를 투자한 유레카 프로메테우스프로젝트가 개발에 나섰고."
 (180쪽)


무인자동차가 1939년에 발표되고, 1960년을 목표로 했다는 역사에 사실 놀랐습니다. 1950년대에도 실험이 있었군요. 1990년대에 EU 예산도 엄청 들어갔고요. 그랬으니, 지금 상용화 단계를 말하고 있는 거겠죠. 그런데 생각보다 시간이 오래 걸린다 싶습니다.
손정의 소프트뱅크 회장은 최근에도 문재인 대통령을 만나 "첫째도 AI, 둘째도 AI, 셋째도 AI"라고 지금 우리가 모든 역량을 집중해야 한다고 했습니다. 같은 얘기를 김범수 카카오 의장이나 네이버 이해진 의장이 한 것은 2016~2017년 무렵인데, 사실 지금도 유효한거죠. AI의 미래를 공포로 예견하는 목소리도 적지 않은데, 최소한 그건 아닌듯요. AI 4대 천왕으로 꼽히는 앤드류 응 박사는 현 시점에서 사악한 초지능의 등장을 걱정하는 것이 화성의 인구 과잉을 걱정하는 것과 같다고 한 적 있어요.
알고리즘은 사실 이용자의 행태를 읽어내는 수준에서는 많이 발전했고, 재범률을 계산도 오래됐지만, 알파고의 등장에도 불구하고 아직 모든게 진행형입니다. 속도는 점점 빨라지겠죠. 그게 바로, 이런 책을 보는 이유라고 생각합니다. 진지하게 미래를 준비하고, 예측하고, 만들어야 합니다. 알고리즘을 이해하고, 알고리즘의 규범, 윤리, 기술 진화의 방향에 대해 논의하고, 이것을 어느 단위에서 어떻게 결정하고 이끌어나갈지, 복잡한 과제들을 하나씩 풀어나가지 않으면 안되는 시대라는 건 분명하니까요.

'안녕 인간'은 컴퓨터가 'Hello, world'라고 띄우도록 한 1978년 프로그래밍 교재에 등장하는 말을 의역한 제목입니다. 우리는 알고리즘이 그렇게 인사하는 날을 지나가고 있습니다. 해나 프라이 영상 두 개 참고용으로 붙여놓습니다.

이건 자막이 없고요ㅠ


조회수 79만의 이 TED 영상에는 자막이 있군요!


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari