머신러닝

남윤선의 미래생활사전 5

Mar 20. 2018

<남윤선의 미래생활사전>은 KBS 라디오 '성공예감 김원장입니다'의 고정 코너입니다. 매주 화요일 오전 8시 45분 생중계 됩니다. KBS의 간판 경제기자인 김원장 기자와 함께 한개의 키워드를 중심으로 세상의 변화를 짚은 코너입니다.

라디오 원고를 이곳에 기록해 둡니다. 전문가 분들께는 가벼운 얘기겠지만, 4차산업혁명 시대 새롭게 쏟아지는 용어가 생소하신 분들께는 세상 돌아가는 걸 이해하는 데 도움이 되실 것 같습니다. 페이스북 라이브 영상도 여기에서 보실 수 있습니다.

- 오늘은 어떤 단어를 말씀하시나요?

= 오늘의 단어는 ‘머신러닝 큐레이션’ 입니다. 말 그대로 머신, 기계 혹은 알고리즘이 ‘러닝’ 배워서 ‘큐레이션’ 골라준다는 얘기인데요. 요즘 넷플릭스 같은 영상 플랫폼, 중국의 진르토우탸오 같은 콘텐츠 플랫폼, 그리고 의류 쇼핑몰 비즈니스에서 가장 핫한 주제라고 할 수 있습니다. 제가 하는 일과도 연관이 있고요.

- 좀 복잡한데 머신이 어떻게 러닝을 하는 거죠?

= 머신러닝이라는 단어는 작년에 이세돌 9단이 구글의 알파고와 대전 하면서 유명해졌는데요. 물론 매우 복잡하지만 아주 간단히 말하면 이런 식입니다. 이전의 일반적 알고리즘의 개념은 명령 내린 걸 시행하는 거였죠. 1+1이라는 걸 넣으면 2라고 답하는 것이죠. 그런데 머신 러닝은 과거의 데이터를 학습해 새로운 결과물을 도출해 내는 겁니다. 말은 그럴 듯 하지만 사실 기본 원리는 간단합니다. 콘텐츠의 예를 들겠습니다. 김 기자님께서 여러 기사들을 보지 않습니까. 그런데 요즘 이사갈 계획이 있으셔서 나도 모르게 부동산 기사를 많이 본거죠. 그러면 알고리즘의 기사의 키워드를 분석해서 기자님이 본 기사에는 주로 ‘부동산’이라는 단어가 많이 나온다는 것을 배운 겁니다. 그래서 다음에 인터넷에 부동산이라는 단어가 많이 들어가 있는 기사가 나오면 그걸 추천해 주는 것이죠.

- 쉽게 말하면 소비자가 결정한 사항의 요소를 분석해서 다음 스텝을 내다보는 거네요.

= 그런데 ‘나’ 한 사람이 본 데이터만 분석하면 데이터 수도 적고, 여러 문제가 생겨서요. ‘동료 그룹’을 만듭니다. 다시 김 기자님의 예로 돌아가서요. 부동산 기사를 보셨잖아요. 그런데 저도 부동산 기사를 본거죠. 그러면 저와 김 기자님 사이에는 ‘부동산 기사를 좋아한다’는 교집합이 생깁니다. 그런데 예를 들어 저는 부동산 기사와 함께 시계 기사를 많이 봤다고 치죠. 그러면 머신러닝은 “남윤선과 김원장은 성격이 비슷해, 그런데 남윤선이 시계 기사를 봤어, 그러면 김원장도 시계 기사를 좋아할 가능성이 높다”라고 판단해 시계 기사도 추천할 수 있는 거죠. 만약에 이 수식이 매우 정교하다면, 김원장이라는 사람 입장에서는 컴퓨터가 자기가 별 다른 데이터, 즉 시계라는 데이터를 입력하지 않았는데, 내가 시계를 좋아한다는 것을 알고 시계 기사를 추천한 것 처럼 느끼는 거죠. 말 그대로 기계가 내 비서처럼 내가 좋아할 만한 것을 알아서 추천해주는 시스템이 가능한 겁니다. ‘개인화’인 거죠. “나보다 나를 더 잘아는 인공지능”이라는 말은 그래서 나온 겁니다.

- 내가 좋아하는 것만 알아서 골라주는 거네요.

= 네. 요즘 정보의 홍수 시대라고 하지 않습니까. 백화점 가면 예를 들어 옷이 너무 많잖아요. 내가 뭘 사야 할 지도 모르는거죠. 근데 큰 쇼핑몰은 나와 나와 비슷한 사람의 과거 쇼핑 데이터가 있는 거죠. 그러면 콘텐츠 추천과 똑같습니다. 내가 산 옷의 특징, 뭐 예를 들어 빨간색 이런 걸 찝어 내는 거죠. 그래서 위와 마찬가지로 동료 그룹을 만들고 이런 저런 수식을 더해 내가 좋아할 것 같은 옷을 알아서 보내주는 거죠.

- 업계에서 활발히 쓰이고 있는 거죠?

= 대표주자가 넷플릭스인데요. 요즘 보시는 분들 많을텐데 모든 사람의 홈 화면이 다 다릅니다. 네이버 같은 플랫폼이 모든 사람이 다 똑 같은 화면에서 정보를 찾아들어가는 것과 다른 구조죠. 보면 내가 이전에 봤던 것과 비슷한 콘텐츠가 있거나, 혹은 내 세대의 사람들이 좋아할 만한 것으로 가득 차 있습니다. 스타트업으로 시작한 넷플릭스가 쟁쟁한 콘텐츠 플랫폼을 역전한 방법인데요. 돈이 없다보니 갓 나온 비싼 영화 같은 건 살 수 없잖아요. 그래서 옛날 영화의 데이터를 많이 모은 대신 정교한 개인화 서비스를 한 거죠. 사실 사람들이 꼭 최신 영화만 보고 싶어하는 건 아니잖아요. 옛날 영화지만 모르고 지나갔는데 자신한테 추천이 된 거죠. 그렇게 고객을 사로잡고 데이터를 얻고, 그래서 이제는 아예 사용자가 좋아할만한 프로그램을 만들어내는 단계까지 간 거죠. 요즘엔 한해에 콘텐츠 만드는 투자비용으로만 우리돈으로 8조원을 쓰니까요.

- 어마어마 하네요. 또 어떤 사례가 있습니까.

= 미국에 ‘스티치픽스’라는 회사가 머신러닝을 기반으로 옷을 골라줍니다. 2011년에 설립됐는데 창립 7년만에 연 매출 10억달러를 목전에 두고 있고요. 최근 나스닥에 성공적으로 상장했습니다. 중국에는 진르토우티아오라는 회사가 있는데요. 우리말로는 ‘오늘의 이슈’라는 뜻인데, 역시 머신러닝 기반으로 내가 좋아할만한 콘텐츠를 골라주는 플랫폼입니다. 성장세가 정말 놀라운데 창업 5년만에 기업가치가 13조원이 됐습니다. 중국의 3대 IT 기업이라고 하는 바이두, 알리바바, 텐센트의 대를 잇는 차세대 IT 기업이 될 것이라는 얘기도 나옵니다.

- 시장이 점점 커지겠네요.

= 특히 요즘 많이 나오는 AI 스피커가 상용화 되면 더더욱 그렇습니다. AI스피커한테 “나한테 어울리는 옷 골라줘”그러는데 100개를 골라줄 수는 없잖아요. 더더욱 정교한 AI가 필요해 질 수 밖에 없습니다.

- 그런데 그런 식의 AI, 머신러닝 추천이 문제점은 없나요?

= 뭐 옷이나 이런 쪽이야 좋아하는 걸 골라주니 문제 될게 크게 없습니다만, 이게 뉴스 쪽으로 오면 상황이 좀 다릅니다. 예를 들어 아까는 부동산 기사를 얘기했지만 이걸 정치 기사로 돌려보면요. 제가 현재 여당 팬이라고 치면, 저는 주로 여당 기사를 많이 보겠죠. 그리고 저랑 동료 그룹으로 엮이는 사람들도 여당 기사를 많이 볼 테고요. 그러면 내가 보는 기사가 모두 여당 기사로 채워집니다. 정치라는 게 성향은 있을 수 있지만 정답은 없는 거잖아요. 다양한 기사를 보면서 균형감각을 키울 필요가 있는데 AI에 콘텐츠 선택을 맡기다 보면 이런 시각을 키울 수가 없습니다.

그리고 이 알고리즘이 어디까지나 사람이 만든 산식에 따라 돌아가는 것이거든요. 엄밀히 말하면 인공지능이나 머신러닝이라기 보다는 수학이나 통계에 가깝습니다. 즉 조작이 가능하다는 점이죠. 예를 들어 어떤 플랫폼이, 한국의 네이버 같은 지위를 차지해서 사람들이 다 거기서 뉴스를 본다고 치는 거죠. 그런데 극단적인 예입니다만 독재정권과 결탁해 알고리즘을 조작하면 입맛에 맞는 뉴스만 막 퍼질 수 있는거죠. 이런 문제를 필터 버블이라고 합니다. 그래서 알고리즘도 항상 투명하게 공개하고 적당히 견제해야 한다거나, 알고리즘에만 의존하기 보다는 중요한 소식을 따로 접할 수 있는 창구를 마련하는 게 중요하다는 얘기도 나옵니다.

keyword

매거진의 이전글로봇 생리의 혁신매거진의 다음글