<인터넷> 페이스북의 알고리즘

완벽한 데이터는 없다. 끝없이 개선하고 또 하고

Jan 7. 2016

페이스북의 알고리즘은 대체 어떻게 작동할까.

좀 길지만, 상당히 흥미로운 이야기. 알고리즘도 결국 사람이 결정한다는 얘기가 핵심. (이라고 썼더니, 어마어마한 알고리즘을 폄하하고, 사람이 했다고 해버렸노라 어느 트친이 지적. 그런 얘기는 아닌데..어쩔)

Who Controls Your Facebook Feed 결국은 A small team of engineers in Menlo Park. A panel of anonymous power users around the world. And, increasingly, you... 가 한다고

Who Really Controls What You See in Your Facebook Feed—and Why They Keep Changing It

Every time you open Facebook, one of the world’s most influential, controversial, and misunderstood

http://www.slate.com/articles/technology/cover_story/2016/01/how_facebook_s_news_feed_algorithm_works.html

발췌하여, 내 맘대로, 관심 가는대로, 코멘트를 덧붙여 정리해보면...

페이스북 이용자는 일주일 평균 1500개의 포스팅, 친구가 수백 명에 달한다면 1만개의 포스팅에 노출된단다. 그런데 페북 뉴스피드 알고리즘에 따라 대부분의 이용자는 이 중 몇 백 개만 보게 된다고. 이용자가 맘에 들어할 일부만 골라주는게 페북의 능력이다.

왜 알고리즘에 매달리게 되는지는 결과가 말해준다. 페북 알고리즘 덕에 버즈피드나 Vox는 날개를 달고, 100년 전통의 신문은 죽어간다. 징가나 리빙소셜을 수십억 달러 가치의 기업으로 키운 것도 페북이요, 페북이 코드 좀 바꿨더니 빈털털이 투자자와 해고된 노동자들만 남기기도 하고.

페북 알고리즘에 따라 노출 좀 잘 되려고 안간힘을 쓰는 건 당연. 사실 검색최적화(Search Engine Optimization)라든지, 어뷰징이라든지, 모두 검색 엔진, 즉 알고리즘에 따라 눈에 잘 띄기 위한 발버둥이다. 검색최적화는 마케팅 하는 분들이 열심이고, 어뷰징은 언론사들이 열을 올리는 정도. 매체들, 광고주들, 온갖 전문가들이 알고리즘을 통한 바이럴 비법에 혈안이다. the right words to use, the right time to post, the right blend of words and pictures을 연구한다. 그리고 이런 '의도'에 걸리지 않고 그냥 순수하게 적합도에 따라 노출하는 걸 목표로 하는게 알고리즘. 알고리즘은 언제나 어뷰징과 싸우게 마련이다.

페북도 마찬가지. 페북 바이럴 마케팅을 연구하는 이들이 뭔가 노하우를 찾아내면, 금새 또 코드를 바꾼다고 한다. 페북 알고리즘은 놀라울 정도로 우아하지 않고, 미칠듯이 변덕스럽고, 고집스럽게 불투명하다는 얘기를 듣게 되는게다. surprisingly inelegant, maddeningly mercurial, and stubbornly opaque.

우리의 선택을 필터링하고, 머신러닝 소프트웨어를 통해 우리의 결정을 이끌어내는 페북이나 실리콘밸리의 거인들에 대해, A.I에 대한 우려들도 당연히 나오고.

글쓴이는 페북 사무실을 방문, 실제 어떻게 알고리즘을 조정하는지, 어떻게 하는지 이야기를 들었다고. 그리고 결론적으로 머신러닝의 한계, 데이터 기반 결정의 함정을 확인했다고 한다. 더 많은 데이터로 더 치밀하게 분석하고 알고리즘을 계속 바꾸지만, 이용자 패널 조사도 늘리고 있다고.

페이스북 알고리즘의 문제는 우리가 꿈꿔온 공상과학의 알고리즘이 아니라 사람이 만든다는게 핵심. 수많은 데이터 중 어떤 데이터를 쓸지, 그 데이터로 뭘할지 결정하는 건 사람이다. 알고리즘에 문제가 있다면 그건 사람 탓이란 얘기다. 사람이 하는 것에 비해 자동 알고리즘으로 하면 낫다고 여겨지는 분야 중 하나가 뉴스. (우리만 그럴지도. 야후는 기계가 아니라 사람이 편집한다고 얼마나 자랑하는지..) 막상 자동 알고리즘을 도입했더니, 알고리즘의 원리가 뭐냐, 알고리즘도 이상하게 짠게 아니냐고 시비를 걸기도 한다. 그러나 알고리즘의 목표는 대개 단 하나. 이용자를 만족시켜서 더 몰입하게 하는 것. 그러니 최선을 다하는 것 외에 다른 의도는 들어가기 어렵다.

그리고 그렇게 최선을 다하는 것 조차 어렵다. 예컨대 오랜 친구, 혹은 팔로우 하는 유명인사의 포스팅 중 어떤 것이 더 적합할까. 페북은 이용자가 좋아요를 클릭할지, 댓글을 달지, 공유할지, 숨길지. 예측하고자 한다. 사실 '좋아요'는 이용자 상호작용을 위한 것일 뿐 아니라 뉴스피드 필터를 조정하는 솔루션. 반응을 보고 알고리즘을 바꾸게 된다.

이용자가 들여다보는데 5초면 좋다. 그러나 2초는 나쁘다. 어디서 차이가 나올까. 페북은 녹스빌 이란 곳에서 이용자 패널을 운영했다. 그러나 이제는 전 지역으로 확대했다. 데이터만으로 해석되는 것은 없기 때문. 이용자를 다양한 타입 별로 미세한 조정 등의 결과를 체크하고 밸런싱해야 된다. 스크롤하고 지나가거나, ‘Hide post’하는 현상에 대해 연구할 때, 페북은 5%의 이용자가 ‘숨김’ 처리의 85%를 차지하는 사실을 발견했다. 패널 연구를 통해서야 밝혀진 가설은 superhider 들의 ‘숨김’ 처리는 dislike 하지 않은 것도 별 뜻 없이 hide 한다는 것.

페북의 알고리즘 조정은 매번 오프라인 시뮬레이션과 사내 테스트, 일부 이용자 상대로 테스트를 거친다. 단계별로 데이터를 수집해 분석한다. 일부 이용자 그룹은 원 상태로 수 개월까지 그냥 두면서 비교한다. 알고리즘은 수백 가지 작은 알고리즘의 집합 정도가 아닌게.. 이런 테스트 덕분에 십여 가지 알고리즘 버전이 실시간 운영된다는 얘기다. 온 정성을 다해, 다만 몇 초라도 이용자들을 더 붙들기 위한 노력이 알고리즘이다. 이용자들이 너무 편리하고 재미나서 다른데 가지 못하도록 하는게 알고리즘이다.

중요한 한가지 사실은 Facebook had become, in effect, the global newspaper of the 21st century 라는 점. 그동안 미디어들은 editorial judgment를 통해 뭐가 얘기되는지 결정해왔다. 진실과 뉴스 가치, 공공의 이익 등에 어필할 수 있는. 그러나 페이스북은 이용자들이 원하는 정보가 뭐냐에 뉴스피드를 결정한다. '좋아요'하는 이유들을 분석하여 뉴스피드를 만들고, 그에 따라 매체 기사도 노출된다. 게이트키핑이 오롯이 언론의 몫이었던 시대가 있었다면, 이제는 알고리즘이 게이트키퍼다. 그게 더 공정한가? 완전히 다른 얘기다. 구글이 자동 알고리즘 뉴스를 자랑할 떄, 야후가 사람의 편집을 뿌듯해 하듯, 그 또한 서비스 색채이고, 미디어 다양성이다. 페북 뉴스피드 알고리즘에 대해, 혹은 그 어떤 서비스의 알고리즘에 대해서도 옳다 그르다 판단은 의미가 없다. 알고리즘이란, 이처럼 온갖 방식을 동원해 '적합한 결과'를 찾는 과정일 뿐이다.

데이터는 만능이 아니다. Full story를 말해주지도 않는다. 알고리즘은 결코 완벽할 수 없다는게 페북이 10여년 얻은 교훈. 그래서 계속 더 나은 알고리즘을 위해 데이터를 더 수집하고, 더 많은 이용자 피드백을 받아보고, 끝없이 테스트를 반복한다. 우리가 단 몇 개라도 포스팅을 더 보도록, 푹 빠지도록 유도한다. 다시 미디어로 돌아가서, 이게 최선일까? 알 수 없다. 나는 사람의 편집을 신뢰하는 사람이다. 그러나 그 못지않게 괜찮은 결과물을 위해 애쓰는 알고리즘도 신뢰한다. 사람도 알고리즘도 비판적 피드백 속에 진화하는 수 밖에 없다.

덧붙여, 페북을 비롯해 데이터 기업들은 끊임 없이 코드를 바꾸고 알고리즘을 개선한다. 알고리즘에 최적화해서 바이럴을 일으켰는데 어느날 순위가 고꾸라질 수 있다. 의존도가 높을수록 리스크가 커진다. 그때마다, 당신네 알고리즘이 이상하다고 분노해봐야 어렵다. 플랫폼이 힘이 센 이유다. 콘텐츠 기업은 플랫폼 의존도를 낮추기 위해 다양한 플랫폼에 도전하고 그 콘텐츠가 이용자 선택을 더 많이 받는 전략을 구사할 수 밖에 없다.

사족.. 글을 쓰기 앞서서.. 또 헷갈려서 찾았고. 이런 결과물을 얻었다. algorithm인데.. 알고리즘, 알고리듬 다 맞다고. 흠흠.

국립국어원 on Twitter

“'알고리즘'과 '알고리듬' 모두 옳은 표기입니다. #외래어 RT '알고리즘'과 '알고리듬' 중에 어떤 것이 맞는 표기입니까?”

https://twitter.com/urimal365/status/413851694171033600

매거진의 이전글<포털 미디어> 기승전 페북의 시대엔 어찌 될까'받은글'의 시대, 뉴스가 뭐라고.매거진의 다음글