어제 슈가맨에서 90년대 탑골GD라고 불리는
양준일이 출현해서 큰 화제를 몰고왔다.
하루종일 검색어 1위에 있어도 모자랄 텐데
어쩐지 리스트에 보이지 않는다.
때문에 화가난 10대 20대 양준일 팬들이 네이버 실검조작을 운운하고 있다.
근데 어쩐지 내가 보기엔 '조작'이 아니라
그냥 '로직의 문제'처럼 보인다.
조작을 한다고 해도 밖에서는 알 수는 없지만.
네이버는 실검도배 방지를 위해 최근 '이슈 묶어보기'를 도입했는데 난 이 기능이 의심이 간다.
이슈 묶어보기 최대치일 때 30대 실검
위는 이슈 묶어보기 강도를 최대로 했일 때 30대의 실검이다.
2위에 있는 김건모는 슈가맨에 출연한 이소은, 양준일과 관계가 전혀 없는 이슈인데 여기에 묶여있다. 그 뒤의 장지연, 오또맘도 전혀 상관없는 이슈들인데 이렇게 보인다.
네이버는 진짜 이슈단위로 연관을 분석한다기보다는 몇가지 기준을 가지고 엮는다고 보인다.
예를 들어 동시다발적으로 비슷한 시기에 발생된 기사들의 키워드를 묶거나 하는 식이면 두가지 이슈를 연속으로 조회하는 사람이 많았다면 구분하지 못할 가능성이 있다.
묶어보기 수준을 좀 낮춰봤다 묶어보기 수준을 좀 낮췄더니 이소은과 한채영이 분리됐다. 단, 이소은은 여전히 양준일과 묶여서 대표성을 띄고있다. 그런데 이소은의 묶인 키워드는 전부 양준일관련 키워드뿐이다.
대체 왜 이소은이 대표 키워드가 된 것일까?? 30대는 이소은을 더 많이 검색한 것일까?
아예 수준을 낮춰봤다
더 낮춰보았는데도 분리가 되지 않아서 아예 제로 수준으로 낮춰 봤다. 드디어 양준일이 보인다. 근데 이소은 키워드 옆에 다양하게 필터링되던 키워드 중에 오로지 양준일만 보인다. 다른 키워드는 리스트에서 사라졌다.
이슈모아보기의 수준이 낮아도 비슷한 검색어들을 이미 필터링해서 빼고 있다는 것을 추론해볼 수 있다.
그럼 다른 가능성은 없을까???
40대로 넘겨보았다 다른 연령대로 옮겨서 이슈 모아보기 수준을 조정해보았다. 재밌는 현상이 나타났다. 무조건 이소은으로만 합쳐지던 키워드가 양준일로 뭉쳐져서 노출됐다.
어? 대체 뭐지??
40대가 이소은보다 양준일로 더 검색한게 아니라면 진짜 다른 기준이 있다고 예상된다. 예를 들면 기존에 유명도라든가 기존 네이버 검색에서 좀 더 이슈가 되었던 누적 데이터가 있거나.
어떤 로직인지 몰라도 아래의 3가지를 추론할 수 있다.
이슈모아보기는 시점에 붐업된 것들을 묶어낸다
이슈모아보기는 키워드를 뽑아내는 과정에서 대표성을 띄는 단어를 찾아내는 별도의 규칙이 존재한다.
이슈모아보기는 앞으로 좀 더 학습이 필요하다.
어차피 서비스는 첨부터 완벽할 수 없다.
지금 상황으로 본다면 이것은 조작의 문제이기보다는 로직이나 머신러닝 학습량의 문제라고 보인다.
앞으로 더 어떻게 개선할지 네이버가 잘 판단하면 좋겠다.
덧. 어쩐지 가수 카테고리로 묶는것같다