작년 여름의 일이다. 옆구리가 콕콕 찌르는 듯 아프고 평소와 다르게 소변 색깔이 불그스름해졌다. 인터넷에서 의학 관련 지식을 뒤지던 중 연관 검색어에 요로결석부터 신장암까지 섬뜩한 단어들이 눈에 들어왔다. 무서웠다. 별의별 생각이 다 들었다. 혼자 병명을 예측해 가며 갖가지 경우의 수를 생각하다 결국 병원으로 향했다.
나이 지긋하신 의사 선생님이 엑스레이 사진과 각종 수치들이 적힌 검사결과를 번갈아 가며 보시더니 심각한 얼굴로 말씀하셨다.
'중요하니까 지금부터 제 말 잘 들으세요. 커피를 좀 줄이고 물을 많이 마시세요. 됐으니까 이제 가보세요.'
너무나도 간단하고 명쾌한 처방에 모든 걱정이 눈 녹듯 사라지며 실소가 나왔다. 의사 선생님 말대로 커피를 줄이고 물을 아침저녁으로 많이 마시니 며칠 안 가 증상이 거짓말처럼 말끔히 사라졌다.
1. AI = Code + Data
이처럼 문제의 정답은 의외로 가까이에 있는 경우가 많다. 인공지능 모델 개발과 같은 복잡하고 어려워 보이는 일도 예외는 아니다. 인공지능 개발자 혹은 데이터사이언티스트들은 머신러닝(딥러닝) 모델을 개발할 때 모델의 성능(예측 정확도 및 오차)에 목을 맨다. 밤잠을 설쳐가며 모델을 돌리다가도 단 1%라도 성능이 개선되면 희열을 느낀다.
원하는 만큼 좋은 성능의 모델이 나오지 않으면 개발자들은 갖은 수단과 방법을 동원해서라도 성능을 올리고 싶어 한다. 코드를 들여다보면서 가설을 세우고 모델의 하이퍼파라미터(Hyperparameter)를 수정해 가며 실험을 반복한다. 그래도 모델의 성능이 개선되지 않으면 위험을 무릅쓰고 모델을 처음부터 다시 만들기도 한다. 하지만 투입된 시간과 노력만큼 극적으로 모델의 성능이 향상되는 경우는 생각보다 드물다.
그러나 많은 데이터사이언티스트들이 간과하는 사실은 인공지능 모델이 잘 작동하기 위해서는 데이터(data)가 필요하다는 간단한 사실이다. 미국의 컴퓨터 과학자이자 인공지능 분야에서는 모르는 사람이 거의 없는 Andrew Ng 스탠퍼드대 교수에 따르면 인공지능 모델은 '코드'와 '데이터'로 이루어져있다고 한다. 즉 인공지능 모델을 구성하는 '코드'를 자동차에 비유한다면, '데이터'는 자동차를 움직이는 석유와 같은 것이다.
2. 정답은 데이터에 있다
경험상 정답은 복잡한 모델이 아니라 의외로 데이터에 있는 경우가 많다. 본격적으로 모델을 만들기에 앞서 석유를 정제하여 불순물을 제거하듯이 데이터를 정제하는 작업이 필요하다. 이러한 작업을 거쳐 불순물이 섞이지 않고 깔끔하게 구조화된 데이터를 클린 데이터(clean data)라고 한다.
정해진 규칙에 따라 표준화되고 구조화된 정형 데이터(Structured Data)의 경우 결측치(Missing value)와 이상치(Outlier)는 없는지, 간단하면서도 분석에 꼭 필요한 변수(Feature)가 빠져있는 것은 아닌지, 반대로 필요 없는 변수가 포함되어 있는 것은 아닌지 등 데이터를 꼼꼼히 살피다 보면 많은 경우 성능 좋은 모델을 만들기 위한 실마리를 찾을 수 있다.
모델 개선과 데이터 개선이 성능에 미치는 영향
텍스트, 이미지와 같은 특별히 구조화되지 않은 비정형 데이터(Unstructured Data)의 경우도 마찬가지다.실제로 작년에 진행했던 텍스트 분석(Text Analysis) 프로젝트에서 언어모델(Language Model)을 개발할 때에도 데이터는 모델 성능 개선에 지대한 역할을 했다. 대화형 텍스트 데이터를 기반으로 한 분류 모델(Classification Model)을 개발할 때 '네, 예, 어, 음'과 같은 의미 없는 단어 즉 데이터의 불순물을 제거해 준 것만으로도 10%대 이상의 극적인 정확도(Accuracy) 향상을 이루어 낼 수 있었다.
3. 머신러닝 시스템 개발: 모델 중심에서 데이터 중심으로
다시 Andrew NG 교수의 이야기로 넘어가 보자. 그는 2021년 3월, ‘머신러닝 시스템 개발: 모델 중심에서 데이터 중심으로(A Chat with Andrew on MLOps: From Model-centric to Data-centric AI)'라는 세미나에서 그동안 모델 연구에 치우쳐 있던 인공지능 분야에 ‘데이터 중심(Data-centric) AI’라는 새로운 화두를 던졌다. 그의 세미나는 알고리즘 연구에 치우쳐졌던 기존의 인공지능 분야에 데이터의 중요성을 부각한 중요한 계기가 되었다.
전체적인 MLOps사이클에서 모델링은 작은 부분일 뿐이다
앞으로도 클린 하고, 모델에 적합하며, 잘 표준화되고 구조화된 데이터의 중요성은 더욱 부각될 것이다.이러한 움직임은 대규모의 데이터를 학습한 pre-trained 모델들의 출현과 데이터 파이프라인 구축 및 관리가 중요한 MLOps 플랫폼의 발전이라는 트렌드와 무관하지 않다. 문제의 정답은 의외로 가까이에 있는 경우가 많다. 우리는 항상 그래왔듯 복잡한 것보다는 간단한 것에서, 그리고 먼 곳보다는 가까운 곳에서 정답을 찾을 수 있을지도 모른다.