AI 원유 '데이터 품질' 중요성 짚어준 콘텐츠 몇가지

데이터 정제와 검증 필요성

by 딱정벌레
사진=픽사베이

이루다 사태는 인공지능을 학습시키는 데 있어 데이터 정제와 검증 중요성을 여실히 보여준 사건이었다. 처음에는 사용자들의 이루다 성희롱으로 논란이 시작됐다. 그러나 이루다 소수자 차별 발언과 이루다를 학습시키는 데 쓰인 데이터 문제점이 더 큰 논란을 낳았다. '연애의 과학' 사용자 허락 여부 문제도 있고. 여기서 수집한 대화 데이터 가운데 '이루다가 소수자를 차별하는 걸로 오해받을 수 있는' 데이터가 쓰였던 걸로 분석됐다. 대화 데이터 안에 개인정보 유출 문제까지. 이런저런 깨달음이 있지만 그중에서도 'AI 성능은 학습 데이터 수준을 벗어나지 못한다'는 걸 이루다 사태에서도 새삼 실감할 수 있었다.

이후 이루다 사태를 돌아보면서 수많은 논의가 나왔다. 인간과 AI 관계라든지, 데이터 정제와 검증 필요성이라든지. 덕분에 나도 이 사태를 계기로 데이터 품질을 논하는 콘텐츠에 관심이 갔다. 관련 콘텐츠를 연달아 접했는데 언젠가 모아서 한번 이야기하고 싶었다. 양만 중요한 게 아니라 질도 중요하다고. 이루다 사태에서는 데이터를 합법적으로 수집하는 것도 중요하지만- 올바른 방식으로 대화하는 AI를 선보이려면 좋은 데이터로 이를 훈련시켜야 한다고. 데이터 품질은 더욱 중요하고, 개발사에서 이를 정제하고 검증할 수 있어야 한다고.

MIT 테크놀로지 리뷰는 기술 분야에 관심 있는 사람이라면 누구나 챙겨보는 권위 있는 매체다. 나도 기자 시절이나 지금이나 글을 쓰면서 이 매체 기사에서 많이 도움을 얻고 있다. 올해는 한국에도 번역 기사가 서비스되고 있는데 무척 반가웠다. 처음에는 콘텐츠가 많지 않은 듯해서 구독하기 망설였다. 요즘은 초기보다 콘텐츠가 많이 쌓인 듯하고 정기 구독해도 나쁘지 않을 것 같다. 해외판에 나온 기사도 생각보다 빨리 번역되는 듯하고. 좋은 콘텐츠가 많고, 이게 한국어로도 번역되면서 SNS에 공유도 많이 되는 듯하다.

사진=앤드류 응 교수 홈페이지

이루다, 데이터 이야기를 하다 갑자기 MIT 테크놀로지 리뷰를 언급하는 이유는- 이달 초 앤드류 응 교수 발언을 번역한 기사에서 데이터 중요성을 다룬 내용이 있었기 때문이다. 새로운 통찰을 얻었을뿐더러 평소 피상적으로 했던 생각에 근거를 얻고, 공감도 돼서 인상 깊게 읽었다. 비슷한 생각을 하는 이들이 많은지 이 기사는 SNS에서도 공유가 많이 됐다. 얼마 전 코세라가 상장했는데 앤드류 응 교수는 코세라 공동 창업자다. 뜬금없이 코세라 투자를 운운하는 사람도 있더라만- 어쨌든 응 교수님 말에는 배울 점이 많다.

이 기사에서는 MIT 테크놀로지 리뷰 연례 AI 이벤트 ‘Em테크 디지털(EmTech Digital)’에서 응 교수가 한 말을 요약, 발췌했다. 그는 "2017년 랜딩AI이라는 벤처 기업을 창업했는데 방대한 데이터 세트가 없는 기업도 AI 혁명에 동참할 수 있게 하는 길을 모색하고 있다"라고 한다. 인터뷰 시작부터 뼈 때리는 내용이었는데 그는 “‘AI-퍼스트 (AI-first) 비즈니스를 어떻게 구축해야 하나?'라는 질문을 자주 들을 텐데, 보통 뭐라고 하나?"라는 질문에 "보통 '그렇게 하지 말라'라고 말한다"라고 답했다.

이어 "어떤 팀에 가서 'AI를 우선으로 해달라'라고 말하면, 그 팀은 기술에 집중하게 되는 경향이 있다. 연구소라면 이 편이 좋을지도 모른다. 하지만 실제 비즈니스는 고객이나 해야 할 업무(mission)가 주도하는 것이지 기술이 주도하는 경우는 거의 없다"라고 말했다. 이건 데이터와 결이 조금 다른 이야기이긴 한데- 응 교수 의미는 정확히 모르겠지만 난 이렇게 이해했다. 간혹 기술이 사업을 주도한다는 생각을 하기 쉽다. 기술이 훌륭하면 고객이 따라올 걸로 판단할 수 있고.

사진=픽사베이

그러나 기술 중심 접근을 하기 앞서 이 기술로 풀어야 할 고객 문제가 무엇인지 생각하는 게 우선이어야 한다. 이어 기술로 이를 어떻게 해결할 수 있을지 뒤따라야 하고. 기술은 그 자체가 목적이라기보다 수단이니까. 고객 또는 업무를 수행하는 데 쓰이는 지렛대. 그렇기 때문에 고객이 기술을 사용하는 맥락을 파악해야 한다. 이게 어떻게 기여할 수 있는지를 고민하고 실제 상황에 적용해서 그들의 삶과 문제를 개선해야 하고. 그래야 기술이 유의미하다. 기술 고도화로 자기만족하면 '그들만의 리그'에 그치기 쉽지 않을까.

난 요즘 엔터테인먼트 플랫폼을 보면서 이런 생각이 드는데- 엔씨소프트 유니버스에서 제공하는 연예인 음성합성 서비스가 그렇다. 실제 연예인 음성을 합성해서 인위적인 목소리로 대화하고 메시지를 전달받으면 신기하고 팬들이 좋아할 거라고 생각했을지 모르겠지만- 불편해하는 반응도 많다. 목소리를 만드는 작업에 해당 연예인이 참여했을지 모르지만. 음성합성으로 만든 목소리로 내게 전하는 메시지는 실제 그 연예인이 전달해주는 건 아니니까. 아무리 비슷해도 결국 기계음이고. 생각보다 좋은 사용자 경험을 주지 않는 듯하다.

이야기가 멀리 갔는데 다시 돌아오면- 응 교수는 좋은 데이터 필요성을 이렇게 설명한다. "CEO와 CIO가 자주 하는 실수는 다음과 같다. 그들은 나에게 이렇게 말한다. '앤드루, 데이터가 그렇게 많지 않다. 데이터가 엉망이다. IT 인프라를 잘 구축하려면 2년을 달라. AI를 구축할 수 있는 훌륭한 데이터를 얻을 것이다.' 그러면 항상 '그건 실수다. 그렇게 하지 말라'라고 답한다. 첫째, 오늘날 세계 어느 기업도 심지어 거대 기술 기업들마저 데이터가 완전무결하고 완벽하다고 생각하지 않는 것 같다. 훌륭한 데이터 인프라를 구축하는 데 2년, 3년을 소비하는 것은 구축할 IT 인프라의 우선순위를 정하는 데 도움이 되는 AI 팀의 피드백이 부족하다는 뜻이다.

사진=픽사베이

예를 들어, 사용자가 많은 경우 데이터를 더 많이 얻으려면 사용자들에게 설문조사를 먼저 해야 할까? 만약 공장이라면, 진동 기록 주기를 초당 10번에서 100번으로 늘이도록 센서를 업그레이드하는 것을 먼저 해야 할까? 많은 경우 AI 팀이 어떤 추가 데이터를 수집할지 우선순위를 정할 수 있도록 이미 가지고 있는 데이터에 대한 피드백을 받는 것이 AI 프로젝트의 시작점이다. 소비자 소프트웨어 인터넷만큼 방대한 데이터를 얻기 힘든 산업에서는 사고방식을 ‘빅데이터’에서 ‘좋은 데이터’로 전환할 필요가 있다. 백만 장의 이미지를 가지고 있다면 계속 사용해 보라. 그것도 좋다. 그러나 깔끔하게 라벨링 되고 세심하게 선별된 훨씬 더 작은 데이터 세트를 사용할 수도 있다."

그가 말하는 좋은 데이터는 이렇다. "음성 인식을 예로 들어 보자. 음성 검색과 관련된 작업을 위해, '음 오늘의 날씨'라는 음성이 담긴 오디오 클립을 받았다고 하자. 문제는, 그 오디오 클립을 글로 어떻게 옮겨야 맞는가 하는 것이다. '음 (,) 오늘의 날씨'라고 해야 할까? 아니면 '음 (…) 오늘의 날씨'라고 해야 할까? 또는 '음' 같은 것은 글로 옮길 필요가 없을까? 이 중 어느 것을 사용해도 좋지만, 여러 작업자가 각기 다른 라벨링 규칙을 사용하면 안 된다. 그렇게 하면 데이터에 노이즈가 발생하여 음성 인식 시스템이 손상된다. 사용자가 수백만 명 또는 십억 명 규모이면 노이즈가 심한 데이터를 학습 알고리즘을 사용하여 평균화할 수 있다. 하지만 데이터 세트가 더 작은 환경, 예를 들어 100개라면 이러한 유형의 노이즈 데이터는 성능에 큰 영향을 미친다.

제조업 사례를 하나 이야기하겠다. 우리는 철강 품질 검사에 관한 작업을 많이 수행했다. 차의 옆면은 이전에 강철판으로 만들어졌다. 때때로 강철에 작은 주름이나 찌그러짐이나 얼룩이 생긴다. 그래서 카메라와 컴퓨터 비전을 이용해서 결함이 있는지 확인할 수 있다. 그러나 라벨링을 하는 사람에 따라 데이터의 라벨이 달라진다. 영역 전체에 크게 표시를 하는 사람이 있는가 하면, 작은 흠집 주위에 작게 표시하는 사람도 있다. 데이터 세트가 충분하지 않을 때, 여러 검사자가 데이터에 라벨을 일관되게 붙이는 것이 가장 중요한 작업이다.

사진=픽사베이

많은 AI 프로젝트의 경우 깃허브(GitHub)에서 다운로드한 오픈소스 모델, 즉 기존 문헌에서 얻을 수 있는 신경망 기술로 충분하다. 모든 문제에 대해 충분하지는 않지만, 주요한 문제에 대해선 충분히 쓸 수 있다. 나는 함께 일하는 사람들에게 이렇게 말한다. '신경망 성능은 충분히 좋다. 더 코드를 건드리지 말자. 이제 데이터 품질을 개선하기 위한 프로세스를 구축하는 일만 남았다.' 이렇게 하면 종종 알고리즘 성능을 더 빨리 개선하는 결과를 낳는다."

음성인식이나 음성합성 분야만 봐도 적은 데이터를 학습시켜 양질의 결과물을 산출할 수 있는 기술이 이미 쓰이고 있기는 하다. 일례로 '액티브 러닝'은 "학습 데이터 중 성능 향상에 효과적인 데이터를 선별해서 이를 활용해 학습을 진행하는 방법"이다. 음성인식기에서도 쓸 수 있다. 데이터가 적을수록 데이터 품질은 더 중요하다. 음성인식에서는 '어떤 음성 데이터를 먼저 선별해서 음성인식기를 학습시킬 것이냐'가 관건이고. 콜센터 가운데에는 이미 음성인식 엔진을 활용하는 곳도 있는데- 이 엔진이 인식하기 어려운 고위험군 데이터를 골라서 학습하는 데 액티브 러닝을 활용할 수도 있다고 한다.

응 교수님이 이야기한 데이터 품질은 이루다 사례와는 결이 좀 다를 수 있을 듯하다. 데이터 라벨을 일관되게 붙이는 게 AI 성능에 미치는 영향을 이야기하니까. 이루다에게 요구되는 좋은 데이터 요건은- 대화 데이터에 남은 개인정보를 치밀하게 지우는 것, 교묘한 언어폭력(혐오발언 포함)에 대응할 수 있도록 충분히 학습하고, 관련 대화 시나리오를 정밀하게 짜는 것 등이 아닐까 싶고. 난 '위클리 NLP'라는 자연어 처리 관련 뉴스레터를 구독하는데 구글 엔지니어인 박지호 님이 글을 쓰신다. 이분은 전문적인 기술 이야기를 굉장히 쉽게 설명해주셔서 많이 배우고 있다. 이루다 사태가 있었을 때도 이루다에 지적된 문제를 기술로 어떻게 풀 수 있는지 시리즈로 연재하셨는데 다시 봐도 너무 좋은 내용이다. 눈이 열리는 느낌. 이건 링크만 걸어보려고 한다.

출처=박지호 님 홈페이지 중 뉴스레터 '위클리 NLP' 코너 화면

데이터 세트 신뢰도 문제를 다룬 기사는 지난주 MIT 테크놀로지 리뷰에 또 나왔다. 이미지 인식 데이터 세트인 이미지넷 이야기인데 이 데이터 세트도 오류가 많다는 이야기. MIT에서 가장 많이 인용된 AI 데이터 세트를 연구한 결과 중 일부다. 이미지넷은 이미지 인식 데이터를 대량으로 배포하고 있고, "머신러닝 모델 평가에 쓰는 핵심 데이터 세트"라는 점에서 심각한 문제이지 않을까 싶은데- 기사에 따르면, 여기에는 "인종차별 또는 성차별주의 라벨이 있고, 사람 동의 없이 얼굴 사진도 쓰고 있다"라고 한다. "틀린 라벨도 많고".

데이터 정제 중요성을 실감하게 한 연구결과가 있었는데- "연구팀은 이미지넷 테스트 세트와 비교하여 성능이 평가된 적 있는 34개의 모델을 조사했다. 그런 다음, 데이터 라벨이 잘못된 약 1,500개의 사례에 대해 각각의 모델을 재측정했다. 연구원들은 원래 라벨이 틀렸을 경우 성능이 그다지 좋지 못했던 모델이 수정 이후 탁월한 모델이 되었다는 것을 알았다. 특히 복잡한 모델보다 간단한 모델이 수정된 데이터에서 더 뛰어난 성능을 발휘했다"라는 내용이 그랬다.

연구팀에 참여한 MIT 대학원생 커티스 G. 노스컷은 이렇게 권장했다고 한다. "AI 분야가 모델 평가 및 관련 분야 현황 파악을 위해 더 정제된 데이터 세트를 개발할 것을 권장한다. 또한 연구원들이 자신의 데이터로 작업할 경우 데이터 정제화(Data Hygiene)를 개선할 것을 권한다. '만약 불량 데이터 세트와 여러 모델을 현실에 배치하면, 결국 잘못된 모델을 선택하게 될 것이다'라고 주장한다." 여기서 또 다른 시사점 중 하나는 정확한 라벨이 달린, 정제된 데이터가 복잡 정교한 모델보다 간단한 모델에서 성능 향상에 주효한 영향을 끼칠 수 있다는 점.

사진=픽사베이

위클리 NLP에서도 박지호 님이 '모델 중심에서 데이터 중심의 AI 개발로'라는 제목으로 비슷한 내용을 다루셨다. 실은 이번 뉴스레터는 앤드류 응 교수 세미나 리뷰였는데 내용은 MIT 테크놀로지 리뷰에 실린 응 교수 인터뷰 내용과 비슷하다. 내가 언급하고 싶은 내용은 박지호 님이 엔지니어로 일하시면서 느낀 데이터 중요성인데- "최근 몇 년간 가장 주목을 많이 받은 AI 연구는 항상 모델"이었으며 "연구를 뛰어넘어 실전에서 AI 개발 일을 하다 보니 가장 중요한 것은 모델이 아니라 데이터라는 것을 깨닫는다"라고 하셨다.

또 현업에서 일하다 보면 데이터의 어떤 부분이 AI 시스템 개발에 영향을 끼치는지를 자세히 언급해주시는데 발췌보다 이건 직접 읽어보는 게 더 좋을 것 같다. 역시 현장에서 일하는 사람들 목소리가 참 도움이 된다. 난 전문가가 아니라서 응 교수나 박지호 님처럼 전문성에 기반한 생각을 글로 쓰기에는 부족하고, 그저 이분들에게서, 또는 기존 콘텐츠에서 배운 내용을 복습 차원에서 다시 언급하고 생각을 정리하는 데 글 주안점을 뒀다. 끝으로 데이터 정제와 검증 중요성을 보여주는 한 영상이 있어서 이를 첨부하고 글을 마무리하려 한다.

이 영상은 LG유플러스와 어느 AI 기업의 한 실험을 보여준다. 디지털 휴먼으로 어린이 두 명을 개발했는데- 한 어린이에게는 교육적이고 정제된 콘텐츠를, 다른 어린이에게는 정제되지 않고, 거친 표현이 무분별하게 들어간 콘텐츠를 보여준 다음, 이들이 어떤 표현을 쓰는지 실험했다. 전자는 예쁜 말을 많이 썼고, 후자는 아이답지 않게 거친 말을 주로 썼다. 애 앞에서 물도 함부로 마시지 말라는 말이 있듯 AI도 마찬가지다. AI 성능에 있어 데이터 정제와 품질이 얼마나 중요한지 보여주는 대목. 특히 자유로운 대화를 주고받는 소셜 챗봇 또는 소셜 AI라면 언어폭력, 혐오발언에는 더욱 엄격해야 하니 데이터 품질 관리에 철저해야 할 듯하다.

출처=LG유플러스 유튜브


keyword
매거진의 이전글팬데믹 1주년과 챗봇 유용성 돌아보는 글쓰기 회고