brunch

You can make anything
by writing

C.S.Lewis

by 박태웅 May 20. 2021

AI와 알고리듬 이해

뉴스공장 5월 20일 출연 분

뉴스공장에 나가 AI와 알고리듬이 무엇인지, 어떤 장단점이 있는지를 설명했다. 

인터뷰 전문은 여기 https://www.tbs.seoul.kr/cont/FM/NewsFactory/interview/interview.do?programId=PG2061299A

동영상은 여기 https://www.youtube.com/watch?v=vJYsUx2t5uI 1:45:35 부터 나온다.

◎ 4부

[인터뷰 제5공장]

AI에 대한 오해와 맹신

“알파고는 바둑을 두지 않았다”

- 박태웅 의장 (한빛미디어)


▶ 김어준 : 뉴스공장에 오랜만에 모셨습니다. 어느 날 <눈 떠 보니 선진국>이라는 칼럼 하나로 많은 분들의 호응과 박수를 받으신 한빛미디어의 박태웅 의장님 모셨습니다. 안녕하십니까. 


▷ 박태웅 : 안녕하십니까.


▶ 김어준 : 의장님이 커리어가 보면 큰 축이 두 가지가 있습니다. 하나는 언론인이셨고, 그 이후로는 쭉 20년간 IT 분야에 계셨습니다. 그래서 두 가지를 다 걸치고 있는 분이 많지는 않거든요. 희소가치가 높아지고 있다, 요새. 자, 오늘은 그런데 IT 전문가로 나오신 겁니까? 


▷ 박태웅 : 네. 


▶ 김어준 : 2주 전에는 따릉이 이야기 하셨고. 그것도 IT하고 연결된 이야기죠.


▷ 박태웅 : 그렇죠. 


▶ 김어준 : 오늘은 어떤 이야기입니까? 


▷ 박태웅 : 지금 인공지능이 사회 전체로 스며들고 있지 않습니까? 


▶ 김어준 : 인공지능. AI. 


▷ 박태웅 : 알고리듬 이슈도 있고.  


▶ 김어준 : 최근 포털 관련해서 이야기 많이 나오는데.


▷ 박태웅 : 네. 그 이야기를 하려고 합니다. 


▶ 김어준 : AI 전반에 대해서 한번 짚어 보자.


▷ 박태웅 : 네. 그러니까 인공지능과 알고리듬이 도대체 뭔가를 이해하고 있어야 네이버가 됐든 요기요가 됐든 이상한 일들이 생길 때 그 사태가 왜 생긴 건지, 어떻게 대처해야 되는지를 사람들이 알 수가 있잖아요. 


▶ 김어준 : 알겠습니다. 요기요는 배달업체 요기요입니다. 최근에 어떤 일이 있었냐 하면 요기요에서 라이더들, 배달하시는 분들을 어떻게 배정하느냐. 사람이 배정하면 불만이 나오니 AI를 도입하겠다. 그런데 이제 AI에게 배정을 맡겼더니 이상한 일들이 벌어졌다는 거죠. 


▷ 박태웅 : 그렇습니다. 


▶ 김어준 : 왜 그런 일이 벌어지느냐 설명하시려고 오셨는데.


▷ 박태웅 : 최근 AI를 이해하려면 두 가지 개념을 이해를 먼저 해야 되는데요. '대용량 분산처리'라는 개념하고 '숨겨진 패턴'이라는 두 개의 개념이 있습니다. 


▶ 김어준 : 전문 영역으로 들어가시는데. 


▷ 박태웅 : 최대한 쉽게 해 보겠습니다. 


▶ 김어준 : 알겠습니다.


▷ 박태웅 : 대용량 분산처리가 뭐냐 하면 CPU나 하드디스크의 성능이 하나도 좋아지지 않아도 속도를 100배나 1,000배 올릴 수 있는 방법이 있어요. 뭐냐 하면 긴 문서를 하나 하드디스크에 저장을 했다 꺼내서 읽어야 되는 일이 있잖아요. 그 문서를 100 조각이나 1,000 조각을 내서 100개나 1,000개의 하드디스크에 저장하는 겁니다. 그리고 불러오면 각 하드디스크는 100분의 1이나 1,000분의 1의 시간 만에 읽어 올릴 수 있잖아요. 


▶ 김어준 : 그러니까 쉽게 비유하자면 같은 성능인데 그 PC를 100대를 두고 한 문서를 100쪽으로 나눈 다음에 각각의 PC가 네가 담당한 부분만 읽어, 그런 거죠.


▷ 박태웅 : 네. 그렇게 해서 불러 올리면 꿰매는 시간이 조금 더 걸리긴 하지만 실제로는 굉장히 빨리 계산할 수 있게 되는 거죠. 


▶ 김어준 : 그렇게 처리하는 방식을 대용량 분산처리라고 한다.


▷ 박태웅 : 그렇죠. 이게 왜 대용량이냐 하면 뒤에 붙는 게 천억 이렇게 가거든요. 


▶ 김어준 : 아, 그래요? 100개가 아니라. 


▷ 박태웅 : 네.


▶ 김어준 : 그 대용량이라는 규모가 천억.


▷ 박태웅 : 그렇죠. 


▶ 김어준 : 어머나. 여기서 이제 천억은 CPU를 의미하는 거죠?


▷ 박태웅 : 좀 이따 설명드릴게요. 


▶ 김어준 : 예, 알겠습니다. 


▷ 박태웅 : 인공지능이 하는 일을 한마디로 말을 하면 숨어 있는 패턴을 찾아내는 거예요. 그러니까 옛날에는 인공지능을 전문가 시스템으로 했어요. 전문가 시스템이 뭔가 하면 내가 고양이를 인식을 하겠다 하면 고양이의 특징으로 사람이 말할 수 있는 걸 다 넣는 거예요. 털이 어떻다 코에 수염에 어떻다 꼬리가 어떻다 쭉 넣는데 이 방식으로는 아무리 해도 예외를 다 처리할 방법이 없는 거예요. 


▶ 김어준 : 왜냐하면 평균적인 고양이 모양이 아닌 고양이도 있으니까. 털이 너무 많아서 고양이처럼 안 보이는데 실제로는 고양이인. 


▷ 박태웅 : 그렇죠. 그런데 학자들이 생각을 합니다. 사람은 4살만 넘어도 개, 고양이를 정확히 인식하는데 왜 컴퓨터는 못 할까. 그래서 여기에 숨겨진 패턴이 있을 거라고 하는 거예요. 그런데 이게 마침 컴퓨터가 어마어마하게 발전하면서 무지막지한 계산을 할 수 있게 됐잖아요. 그래서 어떤 일을 하냐 하면 인공신경망 기법이라는 게 새로 발명이 돼서 그 패턴을 찾아내는 것까지 컴퓨터에 맡겨 버리자. 


▶ 김어준 : 사람이 고양이는 털이 있고 눈이 어떻게 생겼고 꼬리가 어떻고 그렇게 찾지 말고. 


▷ 박태웅 : 그렇게 찾지 말고 그냥 사진을,


▶ 김어준 : 우리가 못 찾은 패턴이 있을 테니까 그 패턴마저도 맡겨 버리자. 


▷ 박태웅 : 네. 그렇게 해서 지금까지 나온 것 중에 역사상 가장 뛰어난 인공지능이 GPT-3라는 건데 얘가 개 변수를 1,750억 개를 갖고 있어요. 


▶ 김어준 : 아, 그런 숨겨진 변수를 다 찾아내는 거군요, 말하자면.


▷ 박태웅 : 뭔지 모르겠지만 이 사진과 저 사진의 다른 점이 이거고 이거고 쫙 다 꺼내서 1,750억 개. 


▶ 김어준 : 1.750억.


▷ 박태웅 : 여기서 두 가지 이슈가 생기는데요. 하나는 엄청나게 많은 고양이 사진이 필요해요. 그러니까 하품을 하는 고양이, 점프하는 고양이, 귀가 하나 없는 고양이, 절름거리는 고양이, 나이 든 고양이, 새끼고양이, 눈 위에 앉은 흰 고양이.


▶ 김어준 : 털이 완전히 자라서 고양이인지 구분도 안 가는 고양이까지.


▷ 박태웅 : 네. 거기다가 치타 새끼, 사자 새끼, 호랑이 새끼, 강아지. 오만 사진이 다 들어가 있어야.


▶ 김어준 : 그렇죠. 공부를 할 것 아닙니까?


▷ 박태웅 : 예. 예외가 없을 정도로 많은 사진을 넣어야 돼요. 그러니까 데이터가 21세기의 원유라는 말이 나온 이유가 그거예요. 그리고 두 번째는,


▶ 김어준 : 그러니까 그렇게 많이 들어가면 들어갈수록 오류가 줄어들겠죠. 


▷ 박태웅 : 정확해지죠. 예외가 없을수록. 그리고 또 하나는, 


▶ 김어준 : 지금 얼마만큼 진도가 나갔나요? 9분밖에 안 남았는데.


▷ 박태웅 : 그런 어마어마한 매개 변수를 갖고 있으니까 사전 학습을 한번 시키는 데 50억이 들어요. 


▶ 김어준 : 아, 돈이. 


▷ 박태웅 : 네. 그러니까 데이터와 자원 두 가지 측면에서 자연독점적 성격을 갖고 있을 수밖에 없다. 


▶ 김어준 : 어떤 의미입니까? 


▷ 박태웅 : 그러니까 어마어마하게 돈이 많거나 어마어마한 수퍼 과학자를 데리고 있거나. 


▶ 김어준 : 아니면 어마어마한 자료에 접근이 가능하거나. 아무나 못 하는 거죠, 이제.


▷ 박태웅 : 네. 그래서 안면 인식 쪽에서 중국이 세계 최고일 수밖에 없는 이유가.


▶ 김어준 : 아, 그렇구나. 인구가 워낙 많으니까.


▷ 박태웅 : 십몇억 개 얼굴을 자기 마음대로 쓰잖아요. 그런데 다른 나라는 프라이버시 이슈도 있고 일단 십몇억 개가 없어요. 


▶ 김어준 : 그렇지. 학습시킬 데이터가 기본적으로 압도적으로 많다 보니까 더 발전할 수밖에 없는 거구나. 


▷ 박태웅 : 그러니까 미국, 중국이 압도적으로 앞서가는 이유가 이런 자연독점적 성격 때문에 그래요. 그래서 한국도 굉장히 애를 쓰고 있습니다. 정부에서 데이터 막 생산하고 광주에 인공지능 집적단지라고 해서 GPU팜을 만들기도 하고 애를 쓰고 있습니다. 


▶ 김어준 : AI가 기본으로 작동하는 원리는 가볍게 이해했는데. 그런데. 


▷ 박태웅 : 그런데 이 숨겨진 패턴을 찾기 때문에 입력값이 다르면 터무니없는 결과를 뱉어 냅니다.


▶ 김어준 : 그렇겠죠. 고양이를 넣어야 되는데 고양이를 구분하려면 이제 상상 가능한 모든 고양이 사진을 넣어야 되는데 예를 들어서 주로 집에서 키우는 깨끗한 고양이, 잘 관리된 고양이만 넣으면 길거리에 있는 다리를 다친 고양이라든가 이런 건 고양이로 인식을 못 할 것 아닙니까? 


▷ 박태웅 : 못 찾아요.


▶ 김어준 : 데이터가 중요해지는 거네요. 처음에 넣는.


▷ 박태웅 : 그렇죠. 예를 들어서 남자와 여자를 구분하는 과업을 주는데 여자 사진은 전부 입을 벌린 걸 주고 남자 사진은 다 입을 다문 걸로 넣으면 얘는 아주 깔끔하게 입 벌린 건 여자, 이렇게 나옵니다. 


▶ 김어준 : 그렇겠죠. 


▷ 박태웅 : 이게 실제 사례를 말씀을 드리면,


▶ 김어준 : 데이터가 오염되지 않는 게 되게 중요하네.


▷ 박태웅 : 네. 애플하고 아마존 사례가 있는데 애플이 몇 년 전에 신용카드를 발급을 해 주는데 동일한 조건의 남성에 비해서 여성에 대해서 차별한다는 게 드러난 거예요. 


▶ 김어준 : 리젝트가 많다?


▷ 박태웅 : 네. 그런데 문제는 애플이 인공지능에 집어넣은 데이터의 어디에도 남자, 여자를 구분한 식별 자료가 안 들어가 있었어요.


▶ 김어준 : 이 AI가 지금 말씀하신 인간은 감지 못 했는데 어떤 숨겨진 패턴을 찾아내서 여성을 더 많이 리젝트하게 그냥 결론을 내 버렸네요.


▷ 박태웅 : 그동안 그렇게 해 왔기 때문에 남자, 여자의 식별 자료를 지웠음에도 불구하고 데이터에는 그 패턴이 남아 있었던 거예요.


▶ 김어준 : 우리는 인지 못 하는데. 


▷ 박태웅 : 우리는 못 하지만. 그래서 이걸 폐기했어요. 


▶ 김어준 : 해결 못 했어요? 


▷ 박태웅 : 못 해요. 


▶ 김어준 : 이유를 찾을 수가 없으니까? 


▷ 박태웅 : 이유를 찾을 수 없잖아요.


▶ 김어준 : 인간은 지워 버렸는데, 그 식별 자료를. 


▷ 박태웅 : 매개 변수가 1,750억 개인데 이걸 가중평균을 낸단 말이에요. 


▶ 김어준 : 1,750억 개를 어떻게 찾습니까.


▷ 박태웅 : 1,750억 개를 어떻게 찾아요. 못 찾죠.


▶ 김어준 : AI가 왜 그런 결론에 도달했는지 찾을 수가 없다. 


▷ 박태웅 : AI의 가장 큰 단점이 아주 정확해져서 쓰긴 쓰는데 왜 그런 결론이 나왔는지는 알 수 없다예요. 


▶ 김어준 : 그렇죠. 숨겨진 패턴을 AI가 찾으라고 맡겨 버렸으니까. 


▷ 박태웅 : 또 하나의 사례가 아마존인데.


▶ 김어준 : 여기서 무서워지는 거죠.


▷ 박태웅 : 또 하나가 아마존 사례인데 아마존이 몇 년 동안 개발해서 채용에 적용하던 인공지능 툴이 있었어요. 최근 10년간 채용 데이터를 근거로 좋은 사람을 뽑자 했는데 


▶ 김어준 : 사람의 편견이 개입하지 않도록. 


▷ 박태웅 : 네. 그랬는데 이게 또 남성 편향적이라는 게 드러난 거예요. 지난 10년 동안 남자 직원을 훨씬 많이 뽑아 왔으니까 그게 그대로 그 데이터가 들어가 있었던 거죠. 


▶ 김어준 : 남녀를 구분해서 데이터를 넣은 건 아님에도 불구하고.


▷ 박태웅 : 아니지만. 


▶ 김어준 : 그리고 그렇게 하지 않도록 하려고 AI를 짰는데 애초에 들어간 원소스가 이미 편향을 그 안에 담고 있었기 때문에 사람은 감지 못 할 편향을 AI는 고도로 정밀하게 판독해 내서 자기 패턴을 만들어 버린. 


▷ 박태웅 : 네. 그래서 아마존이 어떻게 했냐 하면 이 편향을 제거할 방법이 없다. 그래서, 


▶ 김어준 : 아무리 해도? 


▷ 박태웅 : 이 툴을 개발한 팀 자체를 해체해 버립니다. 


▶ 김어준 : 아이러니하네요. 그 편향을 사람을 뽑을 때 어떤 선입견도 개입하지 않도록 하려고 AI한테 맡겨 버리려고 했더니 인간이 이미 편견을 가지고 만들어 낸 데이터가 무수히 쌓여 있기 때문에 그걸 기반으로 학습했더니 AI는 더 편향되게 결과를 내서 고쳐 보려고 했더니 아무리 해도 안 고쳐진다. 그래서 없애 버렸다. 


▷ 박태웅 : AI는 정확히 지금까지 해 온 대로밖에 해 줄 수 없습니다. 


▶ 김어준 : 그러니까 인간이 찾아내지 못하는 편향조차 찾아내서 그걸 학습해 버리니까. 


▷ 박태웅 : 네. 


▶ 김어준 : 역설이네요, 역설. 


▷ 박태웅 : 그래서 AI가 사회에 미칠 영향이 너무 막대하고 숨겨진 편향하고 불공정을 인간이 잘 구분할 방법이 없기 때문에 정말 엄중하게 다뤄져야 돼요. 


▶ 김어준 : 그러네요.


▷ 박태웅 : 그래서 유럽연합이 지난달 21일에 인공지능 영역을 규율하기 위한 법안을 발표해요. 


▶ 김어준 : 왜냐하면 저도 그 대목에서 무서웠거든요. 어떤 대목에서 무서웠냐 하면 AI가 그런 결론을 냈을 때 왜 그런 결론을 냈는지 인간은 모른다. 


▷ 박태웅 : 설명할 방법이 없어요.


▶ 김어준 : 이걸 좀 더 과장하면 인간을 위해서 AI를 도입해서 인간의 복지에 기여하도록 AI를 학습시켰는데 AI가 최종적으로 이 인간은 제거하도록 결론을 내 버렸으면 우리는 이유를 알 수 없는 채. 


▷ 박태웅 : 이유를 몰라요.


▶ 김어준 : 그런 권한을 주면 안 되겠네요, AI한테. 


▷ 박태웅 : 그렇죠.


▶ 김어준 : 그리고 애초에 데이터를 입력할 때도 굉장히 엄정해야 될 것 같고.


▷ 박태웅 : 그렇습니다. 


▶ 김어준 : 그래서 기준들을 마련하기 시작했다?


▷ 박태웅 : 그래서 인공지능과 관련해서 보통 사람들이 잘 모르고 있는데 데이터 정제에 전체 작업시간의 80%가 들어갑니다. 


▶ 김어준 : 데이터를 정제하는 데. 요기요의 케이스에 그대로 대입해서 설명해 주십시오. 


▷ 박태웅 : 여기 나오는데요. EU가 지난달 21일에 그 법안을 발표했는데 위험도가 특히 높기 때문에 AI를 써서는 안 된다고 하는 게 네 가지 유형이 있어요. 첫 번째가 사람이 의식하지 못하는 사이에 사람의 행동 양식에 왜곡을 가져오거나 피해 초래할 수 있는 인공지능 시스템. 사람들이 다 자기가 알지 못하는 어떤 취향이나 경향성이 있거든요. 


▶ 김어준 : 편견이 있죠.


▷ 박태웅 : 인공지능은 그걸 다 읽어내요. 데이터만 충분하면. 그래서 얘는 이렇게 하면 이렇게 할 거야, 유도할 수가 있다는 거예요. 


▶ 김어준 : 옳고 그름이 없으니까, AI는. 


▷ 박태웅 : 그렇죠. 두 번째는 나이나 신체적 장애, 정신적 장애 등 특정 집단에 속하는 사람의 취약점을 이용해서 이들이나 제3자에게 해를 끼칠 우려가 있는 인공지능 시스템. 세 번째가 개인의 사회적 행동 양식이나 속성에 기초해서 사회적 신뢰도 등에 대해서 공공기관이 점수화하고 이로부터 부당한 불이익이 발생할 수 있는 유형의 인공지능 시스템.


▶ 김어준 : 사람 등급을 매길 수 있겠네요. 


▷ 박태웅 : 그렇죠. 네 번째는 공공장소에서 법 집행을 목적으로 실시간 원격 생체 식별을 하는 인공지능 시스템 중에서 납치, 테러, 범죄자 확보 등 법에서 허용하는 예외 사항에 해당하지 않는 경우. 이건 주로 안면 인식을 이야기합니다. 


▶ 김어준 : 안면 인식도 무서운 거죠. 내가 어딜 가든. 중국은 그런 사회로 가고 있지 않습니까? 


▷ 박태웅 : 그럼요. 미국은 연방거래위원회가 주로 지침을 내놨는데요. 지난달 19일 날 그러니까 유럽이 내놓기 이틀 전에 기업 인공지능 기술을 개발하는 과정에서 어떻게 진실성, 공정성, 형평성을 추구해야 할 것인지에 대한 지침을 내놨는데요. 여기 보면 요기요와 네이버 케이스가 나옵니다. 


▶ 김어준 : 아, 네이버, 요기요. 포털과 지금 이 요기요 케이스가 해당되는 기준들이 나온다는 거죠? 


▷ 박태웅 : 인공지능 모형이 개발에 이용되는 데이터셋 자체의 편향을 최소화하기 위해서 노력해야 한다. 인공지능 모형을 적용한 결과 불공정하거나 차별적 상황이 발생하지 않는지에 대한 모니터링을 해야 한다. 


▶ 김어준 : 이게 요기요를 모르시는 분들이 있을 테니까 잠깐만 설명하자면, 왜 자꾸 요기요를 예를 드냐 하면 어떤 라이더가 일감을 배당을 안 해 주는 거예요, AI가. 이유를 알아봤더니 과거에 교통사고가 나서 복귀했는데 그걸 기준으로 잡아서 배당을 안 해 주는 거죠. 그래서 이 라이더가 본인은 이제 복귀했는데 배당이 안 되면 어떻게 하냐. 그런데 업체에서는 AI가 한 것이기 때문에 어떻게 할 수 없다, 이렇게 답변을 내놓은 거예요. 


▷ 박태웅 : 네이버도 뉴스 결과가 편향되게 나오는데,


▶ 김어준 : 다음도 마찬가지입니다.


▷ 박태웅 : 다음도 마찬가지고 그런데 여기 보면,


▶ 김어준 : AI가 했기 때문에 우리는 어떤 편향도 여기 들어가지 않은 것이다, 라고 답을 내놓고 있죠. 


▷ 박태웅 : 그런데 이 미국 연방거래위원회 지침에 보면 이렇게 나와요. 투명성과 개방성을 확보해야 한다. 그다음에 개별 기업이 자신의 인공지능 기술이 공정하다거나 편향이 없는 결과를 가져온다는 식으로 과장된 언급을 하면 안 된다. 그리고 문제가 발생하면 책임을 질 준비를 해야 한다. 


▶ 김어준 : 이 기본 로직은 이해했고요, 이제. 다음 주에 지금 국내 케이스들, 방금 언급하셨던 국내 케이스들을 지금 만들어지고 있는 미국과 유럽의 기준으로 볼 때 무엇이 문제인가. 한 발 더 들어가서 이야기를 해 보죠, 그러면. 


▷ 박태웅 : 공부를 좀 해 보겠습니다. 


▶ 김어준 : 매우 유익한 시간이었고 문자도 굉장히 많이 왔습니다. 이해가 쏙쏙 된다고. 이렇게 또 한 번 더 출연이 확보되었습니다. 내일 뵙겠습니다. 안녕. 

작가의 이전글 셰익스피어가 필요한 때

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari