Subjective Video Quality Assessment
흑백요리사에 나온 최현석 셰프가 요리에서 셰프의 기술보다 중요한 건 재료라고 했다. 재료가 없으면 용빼는 재주가 있는 셰프도 요리를 할 수 없다고. 데이터 사이언스 역시 데이터가 80퍼센트다. 데이터가 없으면 용빼는 재주가 있는 데이터 사이언티스트라도 할 수 있는 게 없다.
회사에서 필요로 하는 데이터 중 많은 경우는 라벨링(labeling)이 필요하다. 오디오나 비디오 데이터의 경우 라벨이라 함은 트랜스크립트(transcript)나 어노테이션(annotation), 품질 평점(mean opinion score)같은 것들이다. 이런 라벨링은 사람만이 제대로 할 수 있다. 불행히도 사람들을 이런 일에 동원하는 것은 값이 굉장히 비싸다. 그래서 사람처럼 라벨링을 하는 AI 툴을 만들려는 많은 노력들이 존재한다. 그러나 사람처럼 라벨링을 하는 AI 툴을 만들기 위해서는 우선 사람이 라벨링 해놓은 질 좋은 데이터가 존재해야 한다. 그래야 그걸 따라하는 AI 툴도 만들 수 있으니.
*P.910은 비디오 품질 평가를 하려는 이들을 위해 ITU-T(International Telecommunication Union - Telecommunication Standardization Sector)가 만들어놓은 권고안이다. 어떤 비디오 데이터를 사람들에게 보여주고 그 품질을 평가하게끔 하고 싶다면 이 권고안을 따라서 라벨링을 하면 된다. 내 동료 둘이 ICASSP 2024에 낸 논문 - https://github.com/microsoft/P.910/blob/main/README.md - 은 이 p.910을 amazon mechanical turk, prolific과 같은 크라우드소싱 플랫폼에서 실행할 수 있도록 구현을 해놓았다.
이런 플랫폼에서 활동하는 사람(crowdsourced worker) 하나가 10~20초짜리 비디오 12개(=1세트)를 보고 각각 1점에서 5점 사이 평점을 매겨주면 우리는 그에게 보통 1~2불을 지불한다. 이는 미국 최저임금을 살짝 웃도는 수준이다. 한 세트를 보통 10~20명에게 똑같이 보여주고 그들의 평점을 모아 평균을 내서 최종 라벨, 품질 평점을 얻는다. 내가 하는 라벨링들은 대체로 규모가 커서 한번에 100~500세트 정도가 된다. 가령, 총 300세트의 20초짜리 비디오를 세트당 15명에게 라벨링을 시킨다 치면 $9000(=300x$2x15)에다가 플랫폼 수수료 40퍼센트가 붙어 총 $12,600 비용이 든다. 꽤나 큰 비용이다.
지난 몇 년간 많은 노력을 기울였지만 우리는 아직까지 P.910을 대체할 AI툴을 찾지 못했다. 그나마 쓸만했던 건 고객인지 품질 지표(Perceptual quality metrics)라 불리는 VMAF와 LPIPS였다. 이 둘은 P.910과 매우 높은 상관관계를 보였다. 객관적 비디오 품질 지표(objective video quality metrics)라고 불리는 PSNR, SSIM같은 것들도 있는데 이런 것들은 P.910과의 상관관계가 상당히 낮다. 그러므로 PSNR, SSIM에 기대어 분석을 하거나 상품을 개발하면 그 결과물이 현실의 소비자에게 도달했을 때 기대했던 성과가 나지 않을 가능성이 아주 높다.
얼마 전, 무슨 연유에서였는지 네이버에서 이것들을 죄다 검색해봤다. PSNR, SSIM에 대한 한글 웹페이지는 많았고 LPIPS도 좀 있었는데, P.910과 VMAF에 대한 한글 자료는 놀랍게도 찾아볼 수가 없었다. P.910은 미국 회사들에서도 제대로 안 쓰는 경우가 많으니 그렇다 친다. 근데 VMAF는 넷플릭스가 10년 전에 만들어 낸 유명한 비디오 품질 지표다. 넷플릭스가 제공하는 스트리밍 서비스 품질 관리의 근간에 VMAF가 있다. 자신들이 전송하는 비디오의 품질을 소비자들이 어떻게 평가할지 매번 찾아가 물어볼 수가 없으므로 만들어낸 것이 VMAF다. 품질 평가가 필요한 비디오에 대고 VMAF를 돌리면 그 결과값이 0에서 100 사이로 나오는데 100에 가까울 수록 소비자 만족도가 높다는 뜻이다.
이제 브런치에 글도 올릴 수 있겠다, 맨날 하는 일이 이런 류의 일이니, P.910과 VMAF에 대해서 자세한 글을 한번 올려볼까 싶다. 겁나 인기는 없겠지만. 언젠가 누군가에게는 유용하리라 믿으며. 한국에서도 장차 이런 것들을 활용해 데이터를 분석하고 각자의 상품을 개발해가길 바라며.
*오디오 권고안으로는 ITU-T P.800이 있다