AI와 알고리듬(Algorithm)의 작동원리

믿을 수 있는 인공지능을 향해

Jun 10. 2021

대용량분산처리와 숨겨진 패턴

인공지능, 즉 A.I.(Artificial Intelligence)를 이해하기 위해 꼭 알아야 할 두 개의 개념이 있다. ‘대용량분산처리’와 ‘숨겨진 패턴’.

컴퓨터가 읽는데 1초쯤이 걸리는 아주 큰 파일이 있다고 하자. 하드웨어의 발전이 없이도 이 파일을 읽는 속도를 획기적으로 높이는 방법이 있다. 이 파일을 백 개의 조각으로 잘라서 백 개의 하드디스크에 분산 저장하는 것이다. 이제 이 파일을 불러 올리면 각각의 하드디스크가 읽는 속도는 1/100로 줄어든다. 말하자면 한명이 하던 일을 백명이 나눠서 하는 것이다. 불러 올린 백 조각을 하나로 꼬매는 데 드는 시간을 감안하더라도 파일을 읽는 속도는 비할 수 없이 빨라진다.

GPU(Graphic Process Unit)는 컴퓨터 그래픽을 처리하는 장치다. 컴퓨터에서 보여주는 그림들은 흔히 ‘픽셀’이라고 불리는 점이 최소단위다. 정밀한 동영상들은 초당 픽셀을 최소 1억 번이상 그려내야 한다. 이런 픽셀을 그리기 위한 ‘반복 계산’에 특화된 장치가 GPU다.

엔비디아라는 회사의 GPU V100은 5,120개의 CUDA Core와 640개의 Tensor Core, 합해서 5,760개의 코어를 가지고 있다. ‘코어’란 하나의 독립된 GPU라고 말할 수 있다. 그러니까 5,760개의 GPU를 병렬로 묶었다는 뜻이다. 역시 분산처리다.

V100은 125테라플롭스(TFLOPS) 연산을 한다. 1 테라플롭스는 1초에 1조번 실수를 더하고 곱한다는 뜻이니, V100은 1초에 125조번 실수 연산을 한다. 이런 GPU를 100대, 1,000대 병렬로 연결해 계산을 하는게 현대의 AI다.

이제 숨겨진 패턴에 관해 알아보자. 현대의 인공지능을 한 문장으로 얘기를 하면, 숨겨진 패턴을 찾아 분류하거나 예측하는 일을 한다. 예를 들어 고양이를 인식한다고 해보자. 예전의 AI는 ‘전문가시스템’이라고 해서 사람이 고양이의 특징을 다 입력을 했다. 귀가 어떻게 생겼고, 털이 어떻게 생겼고, 수염이 어떻고… 그런데 이런 방식으로는 아무리 해도 한계가 있었다. 예외가 너무 많았기 때문이다. 그래서 한동안 인공지능의 겨울을 겪어야 했다. 두 차례에 걸쳐 각각 10여년씩 지속됐다.

인공지능이 다시 각광을 받은 것은 알파고로 유명한 구글의 딥마인드가 썼던 인공신경망 기법의 발전과, 컴퓨팅 파워의 급격한 발전에 따른 것이다. 이 방식은 특징을 잡아내는 작업부터 아예 통째로 인공지능에 다 맡긴다. AI는 주어진 이미지에서 온갖 요소들을 다 구분한 다음에, 그 각각의 요소들마다 가중치를 어떻게 줄때 최적의 결과가 나오는지를 끝없이 시뮬레이션해서 최적의 값을 찾아낸다. 요소들마다 서로 다른 가중치를 줘가며 결과를 보는 것이다.

지금까지 나온 가장 뛰어난 인공지능 GPT-3(Generation Pre-trained Transformer -3)는 무려 1,750억 개의 매개변수를 가지고 있다. 이 정도 사이즈라 컴퓨팅 파워도 엄청나게 많이 든다. 한번 사전학습을 시키는데 필요한 비용이 50억 원이 넘는다. 그 덕분에 유례없는 정확성을 자랑하게 됐는데, 문제는 왜 그렇게 정확하게 나오는지를 사람이 설명할 수가 없다는 것이다. 1,750억 개의 매개변수에 대해 각기 가중치를 주게 되는데, 1,750억 개를 일일이 열어가며 왜 이런 가중치를 줬는지를 무슨 재주로 셈을 하겠는가? 2백만 개쯤을 열다 늙어서 죽을지도 모를 일이다. 이때문에 ‘설명할 수 있는 인공지능’(XAI, Explainable AI)이 이 분야의 새로운 주제중 하나가 됐다. 미국 방위고등연구계획국(DARPA, Defense Advanced Research Projects Agency)은 일찌기 2016년부터 XAI 투자 프로그램을 가동중이다.

AI의 자연독점적 성격

이때문에 인공지능의 자연독점적 성격에 관한 우려도 있다. 지금까지 밝혀진 바로는, 데이터의 양이 많을수록, 매개변수의 양이 많을수록, 컴퓨팅 파워가 클수록 더 좋은 결과가 나왔다. 여기에 이런 연구를 주도할 수 있는 수퍼 천재급 학자도 반드시 있어야 한다. 이런 요소들이 다 자연독점적 성격을 갖는다는 것이다. 중국처럼 십수억 개의 얼굴데이터를 개인의 프라이버시를 신경쓰지 않고 마음껏 쓸 수 있거나, 미국의 페이스북, 구글, 아마존처럼 데이터와 돈이 모두 많아서 어마어마한 데이터를 엄청난 컴퓨팅 파워를 돌릴 수 있지 않으면 최신의 인공지능 연구에서는 필연적으로 뒤쳐질 수 밖에 없다는 것이다.

그 놈은 바둑을 둔 게 아니다

우리가 오해를 하면 안되는게, 이게 이름에 ‘지능’이라는 말이 붙었다고 해서 실제로 생각을 하는 건 아니라는 거다. 예를 들어 알파고는 바둑을 배운게 아니다. 엄청난 연산을 통해서 최적에 가까운 값을 찾은 것뿐이다. 그게 바둑이든, 고양이 그림을 찾는 것이든 컴퓨터에겐 똑같다. 가령 알파고가 두점 접바둑을 두려면 처음부터 모든 학습을 새로 해야 한다. 맞바둑일 때 먼저 두는 흑이 여섯집반을 백에게 주는 조건에 최적화했기 때문이다. 사람이 바둑을 배웠다면 있을 수 없는 일이다.

숨겨진 패턴을 찾기 때문에 입력 데이터가 이상하면 결과도 터무니가 없어진다. 예를 들어 인공지능에 여자와 남자를 구분하라는 과제를 주었다고 해보자. 우연히도 주어진 모든 여자 사진이 입을 벌리고 있는 장면이고, 모든 남자 사진이 입을 다물고 있는 사진이라면 인공지능은 아주 간단히 ‘입을 벌린 게 여자’라고 결론을 내버린다. 아무리 성능이 좋은 인공지능이라도 결과는 마찬가지다. 가장 명확한 패턴이 입을 벌린 것이기 때문이다. 이때문에 인공지능 계산에서 전체 시간의 80%가 데이터를 정제하는데 쓰인다. 아무리 알고리듬이 훌륭하고, 컴퓨팅파워가 막강해도 오염된 데이터를 넣으면 오염된 결과가 나온다.

오염된 데이터, 오염된 결과

<인공지능의 시대>에서도 썼듯이 유명한 애플과 아마존 사례가 있다. 몇년 전 애플의 신용카드발급을 위한 신용평가 알고리듬이 동일한 조건의 남성에 비해 여성에게 더 낮은 신용한도를 부여하고 있다는게 드러났다. 이 소식은 소셜미디어를 통해 금새 퍼져나갔고, 미 금융당국도 조사에 착수했다.

이 사건은 2가지 점에서 큰 주목을 받았다. 첫번째, 애플이 사용한 금융 데이터에는 처음부터 고객이 남성인지 여성인지는 들어 있지 않았다. 그러니까 고객이 남자인지, 여자인지를 인공지능은 애초에 알 수가 없었다는 것이다. 두번째, 애플 스스로도 왜 자신들의 알고리듬이 이런 편향된 결과를 불렀는지를 설명하지 못했다. 그저 인공지능이 저지른 일이었던 것이다. 애플과, 카드발급을 맡은 골드만삭스는, 남성에게 유리한 평점을 매겼던 과거의 관행이 데이터 어딘가에 묻어 있었을 것이라고 짐작했다. 이 알고리듬은 폐기됐다.

아마존 역시 몇년간 개발해서 채용에 적용해오던 인공지능 툴을 폐기했다. 최근 10년간의 채용 데이터를 근거로 수많은 채용후보자중에서 적합한 사람을 가려내는 툴이었는데, 그 결과가 남성 편향적이었다는게 드러난 것이다. 지난 10년간 남자직원이 훨씬 많았는데, 인공지능은 이것을 주요한 입력요소로 판단한 것이다. 아마존은 이 편향을 제거할 적절한 방법이 없다고 판단해 결국 툴을 개발해온 팀 자체를 해체했다.

이 두 가지 사례는 인공지능과 알고리듬이 안고 있는 잠재적 위험을 잘 보여준다. 입력한 데이터가 적절하지 않으면 결과값은 언제든 오염된 형태로 나타날 수 밖에 없는데, 그 이유를 알고리듬을 만든 사람조차 알 수 없을 때가 많다.

믿을 수 있는 인공지능을 향해

AI가 사회에 미칠 영향이 막대하기 때문에, 그 숨겨진 편향과 불공정의 위험도 대단히 엄중하게 다뤄져야 한다. 관련해서 EU는 2021년 4월 21일인공지능 영역을 규율하기 위한 법안을 발표했다. 부속서를 포함해 120쪽이 넘는 긴 법안이다.

위험도가 특히 높기 때문에 금지되는 기술은 다음의 네 가지 유형이다.

첫째, 사람이 의식하지 못하는 사이에 사람의 행동양식에 왜곡을 가져오거나 피해를 초래할 수 있는 인공지능 시스템.

둘째, 나이, 신체적 장애, 정신적 장애 등 특정 집단에 속하는 사람의 취약점을 이용해 이들이나 제3자에게 해를 끼칠 우려가 있는 인공지능 시스템.

셋째, 개인의 사회적 행동양식이나 속성에 기초해 사회적 신뢰도 등에 대해 공공기관이 점수화하고 이로부터 부당한 불이익이 발생할 수 있는 유형의 인공지능 시스템.

넷째, 공공장소에서 법집행을 목적으로 실시간 원격 생체정보 식별을 하는 인공지능 시스템 중 납치, 테러, 범죄자 확보 등 법에서 허용하는 예외 상황에해당하지 않는 경우.

금지되지 않지만 위험도가 높은 것으로 분류되는 인공지능도 있다.

생체정보를 이용한 식별 및 유형화,

교통이나 전기 등 중요한 사회적 인프라 관리,

교육 및 직업훈련, 고용 및 인사관리, 신용도 평가 등 주요 사적 및 공적 서비스,

법집행, 이민, 사법 및 민주적 절차 등 여러 인공지능 기술이 포함된다.

미국은 주로 연방거래위원회에서 지침을 내놓고 있다. 역시 지난 4월 19일 ‘기업이 인공지능 기술을 개발하는 과정에서 어떻게 진실성, 공정성, 형평성을 추구해야 할 것인지’에 관한 지침을 제시했다.

이번 지침에는 다음 사항들의 중요성이 강조됐다.

△인공지능 모형의 개발에 이용되는 데이터셋 자체의 편향을 최소화하기 위한 노력

△인공지능 모형을 적용한 결과 불공정하거나 차별적 상황이 발생하지는 않는지에 대한 모니터링

△투명성과 개방성의 확보

△개별 기업이 자신의 인공지능 기술이 공정하다거나 편향이 없는 결과를 가져온다는 식의 과장된 언급을 함부로 하지 않도록 주의

△이용자의 데이터를 이용할 경우 용도에 관한 명확한 고지

△인종이나 성별 등이 고려된 맞춤형 광고를 제공할 경우 부당한 차별이 초래될 가능성에 유의

△문제가 발생하면 책임을 질 준비를 할 것 등이다.

한국의 인공지능 사례

한국에서도 인공지능이니 알고리듬 활용과 관련한 이슈들이 나타나고 있다. 대표적인게 네이버의, 포털에 올라오는 기사를 사람이 개입하지 않고 순수히 알고리듬으로만 배치한다고 하는 주장과, 요기요라는 음식배달업체에서 배달 기사 등급을 순수하게 인공지능이 부여하고 있어서 자기들은 모른다고 했다는 것이다.

요기요 경우를 보면

요기요 기사인 K씨는 열흘전 오토바이 배달을 하다 차에 치였습니다.

K씨는 발목을 다쳤지만, 바로 배달에 복귀하겠다고 했습니다. 혹시라도 쉬었다가 등급이 떨어질까봐 두려워서였는데, 요기요는 사고 때문에 쉰 거니 그럴 일 없다며 이틀간 쉬고 나오라고 했습니다.

[K씨 요기요 기사]

"(요기요에) 제가 일부러 계속 물어봤어요. (등급 영향이) 없다고 확실하게 저한테 얘기했거든요. 전 가정이 있기 때문에 이걸로 생계유지하고 있는데, 2등급 되면 더 힘들어져요."

하지만 쉬고 나온 K씨의 등급은 바로 2등급으로 떨어졌습니다.

요기요에선 인공지능 AI가 배달기사들의 근무평점을 매겨 등급을 부여하는데, 2등급으로 떨어지면 일감을 잡기 힘들어 월 수입이 수백만원씩 줄어들 수 있습니다. K씨가"쉬라고 해서 쉬었는데 왜 등급을 떨어뜨렸느냐"고 항의하자, 요기요는 인공지능이 하는 일이라 모른다고 답했습니다.

[요기요 콜센터]

(아니 (배달주문) 거절도 안했고 (근무시간) 100%까지 유지했는데 2등급이 됐다 이건 말이 안되는 거잖아요?)

"(인공지능) 판단 기준은 저희도 알 수가 없어요."

내용을 보면 정확히 미국 연방거래위원회가 해서는 안된다고 한 것들을 고스란히 하고 있다.

△인공지능 모형을 적용한 결과 불공정하거나 차별적 상황이 발생하지는 않는지에 대한 모니터링

△투명성과 개방성의 확보

△개별 기업이 자신의 인공지능 기술이 공정하다거나 편향이 없는 결과를 가져온다는 식의 과장된 언급을 함부로 하지 않도록 주의

△문제가 발생하면 책임을 질 준비를 할 것

네이버의 기사 편집도 마찬가지다. 네이버는 알고리듬으로 객관적으로 하고 있다고만 말한다. 네이버 홈페이지에 실린 설명을 보면 네이버는 협업필터링(CF, Collaborative Filtering)과 QM(Quality Model)을 쓴다. 협업 필터링은 다른 사람들의 데이터를 참조해서 추천을 어떻게 할지를 정한다고해서 붙은 이름이다. 간략히 설명하면 ‘상품 기반’과 ‘사용자 기반’으로 나눌 수 있다. 그러니까 이 상품을 산 사람이 같이 산 상품을 추천한다 이게 상품 기반이다. 너랑 비슷한 사람이 이런 상품을 주로 사더라, 이게 사용자 기반이다. 쇼핑몰에서 흔히 만나게 되는 추천방식이다. 잠재요인 기반은 숨겨진 패턴을 찾아서 ‘너 이거 좋아할거야’라고 알려주는 것이다.

네이버가 말하는 QM알고리듬을 뉴스 추천과 배열에 쓸 수 있는가? 혹은 써도 좋은가?는 회의적이다. 이 알고리듬은 중국의 안면인식이나 알파고처럼 이제는 ‘사람보다 낫다’라고 할만큼 발전한게 아니기 때문이다. MIT에서 가짜뉴스를 가려내기 위해 이 모델을 돌려본 결과 신뢰도가 60~70% 언저리더라는게 최근의 리포트다. 상용화할 수준이 못된다는 것이다.

공정성에 관한 근본적인 질문도 남아 있다. 인공지능으로 고양이를 인식할 수 있게 학습을 시킨다고 해보자. 내가 가지고 있는 모든 고양이 사진을 다 인공지능을 학습시키는데 넣어선 안된다. 그중 일부를 검증용으로 따로 빼놓아야 한다. 그래야 학습이 끝난 다음, 따로 빼둔 사진을 이용해서 진짜 인식을 제대로 하는지 검증을 할 수 있다. 모든 사진을 학습하는데 넣어버리면 당연히 미리 학습한 사진들에 대해선 인식을 잘 할 수 밖에 없기 때문이다. 가령 20만장의 사진이 있다면 그중 14만장을 학습용으로 쓰고, 6만장을 학습결과에 대한 검증용으로 쓴다.

뉴스 추천도 마찬가지다. 인공지능에 의한 추천이 공정한 것인지를 확인하려면, ‘공정하게 추천하면 이런 모습일거야’라는 모델이 있어야 한다. 비교 셋이 있어야 추천 결과가 정확한지를 검증할 수 있을 것이다. 이 모델은 누가 만드나? 결국 사람이 하는 일이다. ‘사람이 관여하고 있지 않다’는 류의 말은 기술을 하는 사람이 함부로 해선 안되는 말중에 하나다. 아마도 그 말을 한 사람은 엔지니어가 아닐 것이다.

함께 만들어 가야할 규율

인공지능은 만능이 아니다. 집어넣는 데이터가 오염이 돼 있거나, 알고리듬을 잘못 짜면 편향되고 공정하지 않은 결과를 뱉어낼 수 밖에 없다. AI가 사회의 전 영역에 침투하고 있는 이즈음, 편향성과 불공정성을 체크하고 투명하고 믿을 수 있는 인공지능을 만드는 것은 시급한 과제다. 앞서 말했듯 설명가능한 AI가 중요한 주제중의 하나가 된 것도 그때문이다. 유럽연합은 2018년부터, 알고리듬에 의해 자동으로 결정된 사안에 대해서는 회사에서 반드시 설명을 제공할 수 있어야 한다고 못박고 있다. 미국에서도 회사가 내린 신용카드 발급, 주택담보대출 등의 주요 금융 결정에 대해서는 반드시 그 대상이 된 사람에게 이유를 제시하도록 법적으로 강제하고 있다

AI로 했기 때문에 믿을 수 있다거나, 알고리듬으로 했기 때문에 객관적이라는 말은, 앞서 애플과 아마존의 사례에서 보듯 완전히 틀린 말이다. 전문가가 알고도 그런 말을 한다면 속임수가 된다. 우리는 인공지능을 아직 잘 모른다. 함께 익혀나가고 있다는 것, 잠재력이 큰 만큼이나 숨겨진 위험도 크다는 것을 인지하고 공통의 규범을 함께 신중하게 만들어 나가야 한다.

keyword

박태웅 IT 분야 크리에이터

IT업계에서 일하고 있습니다. IT와 사회에 관해 주로 씁니다. 한빛미디어 이사회 의장. 전 kth 부사장.

팔로워 2,595

작가의 이전글물은 땅이 패인 모양을 따라 흐른다포털의 뉴스 독과점 공급, 해결책이 갖춰야할 조건들 작가의 다음글