brunch

You can make anything
by writing

C.S.Lewis

by Jake공원 Nov 13. 2020

유튜브가 절대 알려주지 않는 진실

- AI와 알고리즘에 대하여

네이버는 지난 10월 쇼핑 동영상 분야 검색서비스를 운영하며 알고리즘을 인위적으로 조작해 자사 상품과 서비스 검색결과를 자사에 유리하도록 상단에 올리고 경쟁사를 하단에 내린 행위로 인해 공정위로부터 267억원의 과징금을 받았습니다. 카카오택시에서 배차를 신청하면 ‘지금 근처에 가능한 택시가 없다’면서 살짝 더 비싼 카카오 블루로 연결하겠느냐는 메시지가 자주 뜨는 걸 경험한 사람들도 많을 것입니다. 모두 네이버와 카카오가 그렇게 알고리즘을 짜놓은 덕에 나타난 결과라고 볼 수 있습니다.


그렇다면 동영상계의 제왕 유튜브는 어떨까요? 유튜브의 최고 상품 담당자(CPO) 닐 모한(Neal Mohan)은 2019년 뉴욕타임즈와의 인터뷰에서 ‘유튜브 이용자들의 시청시간 70%가 유튜브가 구성한 추천 알고리즘에 의한 결과이며 이로 인해 총 비디오 시청시간이 20배 증가했다’과 밝혔습니다. 지금도 유튜브를 검색하면 ‘오늘도 알 수 없는 유튜브 알고리즘이 나를 이 영상으로 끌고 왔다’는 댓글이 높은 공감수를 받으며 상위를 랭크하는 것을 쉽게 찾을 수 있습니다. 유튜브에서 추천 동영상은 매우 중요한 경쟁요소이고 유튜브가 구성한 알고리즘이 이를 받혀주고 있습니다. 최소한 체류시간을 늘리는 것은 그렇습니다. 하지만 유튜브 AI와 알고리즘이 유튜브에 올라온 동영상 콘텐츠 내용을 정렬하고 꼼꼼히 걸러내서 고객 브랜드가 부적절한 콘텐츠와 연결되지 않도록 해결하고 있을까요?  


현재 유튜브에는 분당 450시간, 하루 648,000개, 한달 19,440,000개의 영상이 올라옵니다. 영상의 보고인 유튜브, 바다가 넓은 만큼 부적절한 콘텐츠도 바다 넓이와 깊이만큼이나 많이 있습니다. 가짜뉴스를 비롯해, 폭력적이거나, 혐오를 담거나 공격적이거나 정치적으로 민감하거나 범죄를 표출하거나 인종차별적이거나 아동학대를 표방하는 등 사회적으로 논란이 많고 부적절한 콘텐츠도 그 어디보다 많은 곳이 바로 유튜브입니다.  짐작컨대 AI와 알고리즘이 유튜브의 모든 콘텐츠를 정확하게 컨트롤하는 것 같아 보이진 않습니다.


유튜브도 이점을 의식한 듯 스스로 ‘커뮤니티가이드’를 만들어 유해영상 등 추천 노출과 부적절한 콘텐츠를 브랜드와 같이 노출되지 않도록 방지한다고 하지만 인공지능을 활용하여도 하루 10억 시간에 달하는 영상이 시청되고 있는 현실에서 1%도 걸러내지 못하고 있다고 합니다. 대안으로 유튜브는 권위 있는 출처에 가중치를 주는 방식으로 알고리즘을 수정해나가고 있으며 권위 있는 출처란 결국 검증된 콘텐츠라 불리는 언론사와 방송사 콘텐츠가 주요 대상일 수밖에 없는 것이 현실입니다.


유튜브 엔진이 추천영상을 제공하는 알고리즘의 핵심은 콘텐츠입니다.  그런데 유튜브는 업로드되는 모든 콘텐츠의 내용을 인지할 수는 없습니다. 그래서 유튜브에 영상이 올라오면 크롤링(자동화 bot을 이용, 콘텐츠를 탐색하는 행위)를 통해 콘텐츠의 제목, 설명, 태그를 읽어내고 영상 안에 들어있는 오디오(스크립트)를 인식해 어떤 콘텐츠인지를 추정합니다. 그리고 그 영상 내 키워드를 분석해 순위를 매깁니다. 키워드를 토대로 지금 시청자가 보는 영상과 가장 유사한 영상 가운데 최신의 영상 중에서 시청시간이 길며, 영상길이가 긴 것을 추천하는 형식입니다. 하지만 여기서 문제가 되는 것은 영상내용과 맥락의 이해가 어렵다보니 사회적으로 문제소지가 될 만한 콘텐츠를 제대로 걸러내지 못하고 심지어 추천까지 하게 된다는 것입니다. 또한 시청자가 추천 알고리즘에 갇혀 다양한 정보를 얻지 못하고 자신과 비슷한 관점의 콘텐츠만 접하게 되어 인지적 편향이 생기는 ‘필터버블’효과가 큰 문제가 되기도 합니다. 유튜브는 키워드 맥락성 보다는 제목의 일치도 등으로 영상을 파악하는 경향이 강하며 ‘영상 소개글’영상이미지(섬네일) 등으로 콘텐츠를 구분한다고 추정하고 있습니다. 물론, 이러한 AI의 작동원리나 알고리즘에 대해 유튜브는 ‘기업상의 기밀’을 이유로 어떠한 내용도 밝히지 않고 있습니다. 다만, 그 작동원리를 궁금해 하는 사람 및 기업들의 유튜브 실험연구로 밝혀낸 것들에 불과하기 때문에 단정적으로 말하기는 어렵습니다. 하지만 분명한 것은 의도한 바든 통제가 불가능하든 논란과 상관없이 지금 이 시간에도 유튜브 추천 동영상에는 여전히 수많은 부적절한 콘텐츠가 올라오고 있고, 수많은 브랜드들이 이와 함께 노출되면서 오디언스에게 부정적 인식을 심어주고 있다는 것은 분명한 사실입니다.




유튜브 광고는 어떨까요? 정확한 타깃팅에 넓은 커버리지로 정확한 데이터를 추출해내면서 효율적인 광고집행이 진행되고 있는 걸까요? 유튜브로 돈을 벌 수 있다는 소식이 전해지며 수익 창출 요건인 ‘구독자 천 명, 시청 시간 4천 시간’은 많은 초보 크리에이터들의 꿈이 되었습니다. 그리고 이러한 목마름을 파악한 조회수/구독자 어뷰징 업체들이 등장했습니다. IT조선의 2019년 8월 기사에 따르면 사업자등록번호까지 내건 이들 업체는 수백 곳에 이르고 최대 50분의 시청시간+조회수 천 회 등을 보장한다며 영업을 하고 있습니다. 인위적인 조작은 플랫폼에 악영향을 끼친다는 의견이 점차 많아지자 유튜브 역시 비난을 피하지 못하게 되었습니다. 문제는 100만, 200만 조회수가 광고를 본 사람이 아니라 콘텐츠를 본 사람이라는 것이며, 우리 광고를 몇 명이 봤는지는 오직 유튜브가 알려주는 애널리틱스를 봐야만 알 수 있습니다. 그 조회수의 의미도 정확히 파악하기 어렵습니다. 100만명이 봤다는 것인지, 10만명이 10번 봤다는 것인지, 호스트서버에 광고호출신호가 갔다는 카운팅인지, 개인별 디바이스에 광고가 로딩되었다는 숫자인지 전혀 알길이 없습니다. 과연 SBS가 오늘 새로운 드라마의 시청률이 20%가 나왔다는 말을 제3자 측정기관인 닐슨의 발표가 없다면 이를 믿고 광고를 집행할 광고주는 몇 명이나 될까요? 과연 이러한 숫자가 신뢰할 수 있고 공정한 내용으로 구성되어있을까요? 구글이 자사에게 유리한 알고리즘을 사용하거나 우리가 합리적이라고 판별할 수 없는 내용들을 반영한 것은 아닐까요?


알고리즘 자체만으로 공정성을 확보하기는 어려울 것 같습니다. AI나 알고리즘에 대한 가이드라인을 제도화하여 투명하게 공개하고 제3자가 검증하는 시스템 마련이 되어야 이에 대한 신뢰가 생기겠지요. 국내에서 정치권의 포털 통제 의혹이 계속 불거지면서 콘텐츠 노출을 결정하는 알고리즘에 대한 ‘사회적 감시’요구가 거세지고 있습니다. 방송이나 광고분야는 어떨까요? 유튜브가 제출한 광고집행 통계 데이터를 닐슨의 시청률데이터처럼 믿어도 되는 걸까요?




알고리즘은 사람이 설정한 목표나 목적 등에 맞게 만들어집니다. 사람이 생각한 것을 그대로 실천하는 하나의 프로그램일 뿐이며 인간의 주관이 개입할 수 밖에 없다고 합니다. 알고리즘 자체가 공정하다는 것은 성립되기 어려운 명제이며 AI가이드라인을 제도화 하거나 알고리즘 구성과 변수 등 기준 항목 공개가 필요할 수 밖에 없는 이유기도 합니다. 더불어 제3자의 감독과 평가를 받을 수 있는 검증 시스템을 마련하는 것이 필요합니다. 알고리즘을 공개해 투명성을 확보해야하는 것이죠. 마치 여론조사기관이 여론을 조사할 때는 조사대상지역이나 성별, 연령대, 조사방법, 조사의 한계 등을 반드시 공개하듯이 말입니다.


무엇보다 광고에 꼭 필요한 요소는 해당 미디어에 대한 “신뢰”입니다. 신뢰받는 콘텐츠, 신뢰받는 광고가 함께 움직일 때 미디어와 시장의 성장이 이루어질 수 있습니다.




참고자료


알고리즘으로 본 유튜브의 미디어 지향 (관훈저널 2019년 봄호(통권제150호) 2019.03
 PP11-17, 오세욱, 한국언론진흥재단 선임연구위원)


21세기 보이지 않는 손, 알고리즘의 경제학, 매경이코노미 2020. 11. 4 2082호, PP24-32



brunch book
$magazine.title

현재 글은 이 브런치북에
소속되어 있습니다.

작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari