과연 AI학습을 위한 데이터는 충분한가?
안녕하세요.
데이터 스포일러입니다.
기술 트렌드를 이해하실 수 있도록 정보를 요약해서 공유해 드리겠습니다. 많은 관심 부탁 드립니다.^^
이번 글에서는 'AI 학습을 위한 데이터 부족(Lack of Data)'를 주제로 정리해보겠습니다.
소프트웨어정책연구소(SPRi)에서 24년 4월에 발행한 '인공지능산업 실태조사' 문서를 보면,
많은 기업체들은 데이터 확보에 어려움이 있다고 느끼고 있습니다.
그 이유를 자세히 보면, 다음과 같은 의견이 포함되어 있습니다.
AI 비즈니스에 적합한 데이터가 많지 않아 BM 발굴이 어려움
고품질의 공공데이터가 별로 없고 진입장벽이 존재함
양질의 학습용데이터 확보가 어렵고, 확보한 데이터의 질이 떨어짐
정보 동의 등 데이터 수집 과정이 복잡하고 시간이 많이 할애됨
저 역시 현장에서 관련 프로젝트를 수행한 경험이 있어, 위 내용에 깊이 공감합니다.
양질의 데이터를 확보하는 데는 많은 시간과 비용이 소요될 뿐만 아니라, 이를 지속적으로 유지하는 것이 중요한 과제입니다.
또한 마케팅 등에서 데이터를 활용하려면 반드시 고객의 동의를 받아야 하는데, 이 과정에서 동의를 받는 데 시간이 걸려 Time to Market을 놓치는 경우도 종종 발생합니다. 물론, 무엇보다도 서비스를 이용하는 고객의 동의가 최우선입니다.
왜 고품질의 데이터를 확보하는 데 많은 시간과 비용이 수반될까요?
아날로그에서 디지털로 전환되고, 하드웨어 투자 비용 감소 및 Bigdata 기술의 발전으로 인해 대부분의 서비스 로그들이 저장되고 있습니다.
AI 초창기에는 기존에 저장된 데이터를 활용하면 머신러닝, 딥러닝을 통한 서비스 혁신이 될 줄 알았죠.
여기서 핵심은 '어떤 데이터를 얼마나 잘 활용하냐'입니다.
AI 프로젝트에 소요되는 시간 비율(출처: NIA)을 보면,
대부분의 시간은 AI 모델에 학습시키기 위한 데이터 준비에 소요되고 있습니다.
고품질의 데이터를 확보하기 위한 데이터 준비 과정에 대해 자세히 정리해 보겠습니다.
[데이터 수집]
데이터는 정형(테이블 형식) 또는 비정형(텍스트, 이미지, 비디오 등) 데이터로 나눌 수 있으며, 수집 방법에는 웹 스크래핑, API 사용, 데이터베이스 추출, 센서 데이터를 이용하는 방식 등이 있습니다.
잘못된 데이터는 모델이 왜곡된 학습을 하게 만들어 성능이 떨어지거나 잘못된 결과를 초래할 수 있으므로 양질의 데이터 확보는 필수입니다.
충분한 양의 데이터를 확보하지 않으면 모델이 일반화에 실패할 가능성이 높습니다. 반면, 데이터가 너무 많아도 처리 비용과 시간이 증가하게 됩니다.
[데이터 정제]
수집된 데이터는 대개 불완전하거나 노이즈가 포함되어 있을 수 있기 때문에, 이를 정제하는 과정이 필요합니다. 결측값 처리, 중복 제거, 데이터 포맷 통일, 이상치 제거 등의 작업이 포함됩니다.
잘 정제된 데이터는 학습 알고리즘이 데이터를 올바르게 이해하고 패턴을 학습하는 데 중요한 역할을 합니다. 노이즈가 많으면 모델이 잘못된 패턴을 학습할 수 있습니다.
데이터 정제를 통해 데이터의 품질을 높이면, 모델이 학습 과정에서 불필요한 노이즈에 영향을 받지 않게 됩니다.
[데이터 라벨링]
라벨링은 지도 학습에서 필수적인 과정으로, 데이터에 대해 정답(라벨)을 부여하는 작업입니다. 예를 들어 이미지 분류에서는 이미지마다 무엇을 나타내는지 라벨을 달아주는 것이 필요합니다.
지도 학습 모델의 성능은 데이터에 부여된 라벨의 정확도에 의존합니다. 라벨이 잘못 부여되면 모델은 잘못된 예측을 하게 됩니다.
라벨링 작업은 주로 수작업으로 이루어지지만, 최근에는 반자동화된 라벨링 도구나 AI 기반의 라벨링 도구도 사용되고 있습니다.
[데이터 증강]
데이터 증강은 수집된 데이터셋을 인위적으로 확대하는 방법입니다. 이미지에서는 회전, 반전, 확대, 밝기 조절 등을 통해 데이터를 증강할 수 있고, 텍스트 데이터에서는 단어 순서를 변경하거나, 유사한 단어로 교체하는 방식 등을 사용할 수 있습니다.
모델 학습에 필요한 데이터가 부족할 때 데이터 증강을 통해 추가 데이터를 생성해 데이터셋의 크기를 늘릴 수 있습니다.
증강된 데이터는 모델이 다양한 상황에서도 일관된 성능을 보일 수 있도록 돕습니다. 이를 통해 (*)오버피팅을 방지하고, 더 많은 패턴을 학습하게 할 수 있습니다. (*오버피팅: 모델이 특정 데이터에 지나치게 맞춰져서 새로운 데이터에 대한 일반화 능력이 떨어지는 현상)
위 글을 읽다보면, '라벨링 도구를 활용해서 라벨을 다 부여하면 되지 않나?', '정제만 잘 하면 품질이 올라갈 수 있겠네?' 등의 다양한 질문이 떠오를 수 있습니다.
하지만, 현실은 그렇지가 않습니다.
한 예로, 이상탐지 모델을 통해 설비에 대한 이상 상황을 사전에 탐지하는 것이 목표라고 했을 때, 모델이 학습할 수 있는 정상 데이터에 비해 고장 데이터가 부족해 데이터 불균형 문제가 발생할 수 있습니다.
그리고 고장 데이터를 임의로 만들어낼 수 있으나, 라벨링 작업에 많은 공수가 들어가고 작업의 오류가 발생할 수 있다는 점에서 기업들은 어려움을 겪고 있습니다.
데이터 부족 문제는 민간 기업에만 국한된 현상이 아니므로, 국가 차원에서 대응이 필요하다고 생각합니다.
한국지능정보사회진흥원(NIA)은 '국가 데이터 인프라 추진 전략'을 담은 이슈 페이퍼에서
데이터 소재 파악과 접근성을 높이기 위해 '국가 데이터 카탈로그'를 제공한다고 합니다.
데이터 이용자는 공공 및 민간 데이터 중 필요한 데이터의 소재를 쉽게 파악하고, 데이터 공급자에게도 제공한 데이터의 이력을 관리하고 출처를 정확하게 밝힐 수 있다는 것을 목표로 두고 있습니다.
앞으로 국가 차원에서 데이터 부족 현상이 해결되어 많은 기업들의 AI 사업이 활성화되었으면 좋겠습니다.
오늘은 '데이터 부족'에 대해 정리해 보았는데요.
다음 편에서는 '초개인화'에 대해 정리하여 공유해 보겠습니다.
즐거운 하루 보내세요.^^