1. 데이터중심AI란?

데이터중심 AI강좌: 데이터세트 구축 및 효율적인 데이터 학습 방법

Mar 1. 2025

데이터중심 AI(Data-centric AI)라는 용어가 대중화되기 시작한 계기는 Andrew Ng가 2021년 3월 “A Chat with Andrew on MLOps: From Model-centric to Data-centric AI” 강연에서 비롯되었습니다.

Andrew Ng가 Data-centric AI를 아래와 같이 정의합니다.

참조URL: https://youtu.be/06-AZXmwHjo

참고 URL: https://datacentricai.org/neurips21/

NeurIPS Data-Centric AI Workshop

https://datacentricai.org/neurips21/

Data-centric AI is the discipline of systematically engineering the data needed to successfully build an AI System. (데이터중심 AI란, AI 시스템의 구축을 성공적으로 이끌기 위해 필요한 데이터를 체계적으로 설계 및 개발하는 학문분야입니다.)

즉, Data-centric AI를 직역하면 데이터 중심 AI가 되지만, 실제 AI 개발에 참여해본 사람이라면 개발공정의 상당부분이 데이터와 관련된 작업에 투자된다는 것을 잘 알고 있을 것입니다.

데이터 중심 AI는 단순히 데이터의 양이나 질을 이야기하는 것이 아니라, ‘systematically engineering’ 즉, 데이터를 체계적으로 설계하고 개선하는 접근법에 주목합니다.

기존 모델 기술과의 대비

머신러닝 알고리즘 및 모델 기술은 오랜 학문적 역사와 체계화가 진행되어 왔습니다.

데이터 관련 기술은 개발자 개인의 경험, 직관, 암묵적 지식에 의존하는 경우가 많습니다.

데이터중심 AI의 목표는 데이터 설계, 개발 및 개선을 위한 체계적인 공학적 접근법을 확립하여 개인 역량에 의존하는 정보를 줄이고 재현성을 높이는데 주력합니다.

데이터중심 AI에서는 아래와 같은 기술요소들을 포함합니다.

데이터 중심 및 어노테이션 효율화: 효과적인 데이터 수집 및 라벨링 기법 개발

데이터의 정량적 평가: 데이터 품질 및 특성을 수치화하여 평가하는 방법론 도입

데이터 문제점 발굴: 평가 결과를 바탕으로 데이터의 양이나 질등 문제점을 식별

문제해결방안 제시: 식별된 문제점을 해결하기 위한 개선 전력 수립

운용시 데이터개선 지표 모니터링: 실시간 운용환경에서 데이터 개선에 필요한 지표를 지속적으로 모니터링

이제부터 Andrew Ng의 강연내용을 토대로 데이터중심 AI에 대해 깊숙히 다루고 개발자들이 이를 통해 데이터중심 AI 접근법에 대한 이해를 높이고, 실무에서 보다 체계적으로 데이터 관리 및 개선방법을 수립하는데 참고가 될 것입니다.

(1) 모델중심 AI와 데이터중심 AI

AI시스템을 단순화하면 머신러닝 모델과 데이터의 조합으로 볼 수 있습니다. 지난 수십년동안, 다양한 AI 기술분야에서는 표준 데이터세트를 벤치마크로 사용하여 모델의 성능을 반복적으로 개선해왔으며, 이로 인해 AI기술은 비약적인 발전을 이루어 왔습니다. 이런 접근법은 모델중심(Model-centric AI)라고 부릅니다. 반면에 데이터 중심 AI(Data-centric AI)는 모델을 고정한 상태에서 데이터 자체를 개선하는 방법론입니다. 이에 대해 구분하여 설명합니다.

이미지 분류 분야를 예를 들면, 대표적인 데이터세트인 ImageNet과 널리 사용되는 모델인 RestNet을 시작점으로 두고, 모델중심AI와 데이터중심AI 각각의 접근방식에 따른 분류 정확도 개선 사례를 아래와 같이 제시됩니다.

기본라인 모델의 성능개선에서 모델중심AI와 데이터중심AI의 비교

오랜 시간 동안 AI개발은 모델중심AI, 즉 고정된 데이터세트에서 모델을 지속적으로 변경하며 성능을 개선하는 접근이 주류였습니다. 하지만, 이런 방식은 데이터세트에 과도하게 의존하게 되어, 데이터세트 고유의 문제에 과적합(Overfitting)되는 한계가 있으며, 실제 응용분야에서는 기대한 만큼의 성능개선이 어려운 문제가 지적되고 있습니다. 또한, 모델에 집중한 나머지 데이터 관련 문제를 간과함으로써, 후속작업에 부정적 영향을 마치고 장기적으로 데이터 개스케이드(data cascade)라고 불리는 기술부채로 이어질 수 있다고 보고도 있습니다. 이러한 배경 속에서 Andrew Ng를 비롯한 많은 전문가들이 모델뿐만 아니라 데이터에도 충분히 주의를 기울여야 한다는 의견을 제시하며 데이터중심AI의 중요성이 점차 커지고 있습니다.

Andrew Ng의 강연 내용에서 철제제품의 결함 검출, 태양열 패널 검사, 표면검사 등 3가지 과제에 대해 모델중심AI와 데이터중심AI 2가지 접근법을 비교하는 실험을 진행했습니다. 이 실험에서는 기존 데이터세트와 모델을 기준선으로 삼아,

모델중심AI: 데이터는 고정한 상태에서 모델을 개선

데이터중심AI: 모델은 고정한 상태에서 데이터를 개선

하는 방식으로 각각 성능개선을 시도했습니다. 그 결과, 3가지 예제 모두에서 데이터중심AI가 기준선 대비 더 큰 성능 향상을 달성하였습니다. 이는 전세계적으로 여러차례 정밀한 개선이 이루어진 모델에 비해 처음부터 직접 준비한 데이터가 개선 여지가 크고 시스템 최종 성능에 미치는 영향이 더 크다는 점을 시사합니다.

비록 데이터중심AI의 중요성과 효과가 강조되더라도, 향후 AI 개발 접근법이 전적으로 데이터중심AI로 전환되어 모델중심AI가 완전히 사라진다는 의미는 아닙니다. 예를 들어, 해결해야 할 과제의 난이도나 데이터양에 비해 명백히 용량이 부족한 소형(파람미터수가 적은) 모델을 사용할 경우, 데이터 개선만으로는 한계가 있으며, 보다 큰(파라미터수가 많은) 모델로의 전환이 필수적입니다.

또한 이미지 분류나 음성인식과 같이 주요 과제에 대해서는 사실상 표준모델이 존재하지만, 실제 응용에서는 다양한 과제를 다루어야 하므로, 스크래치에서 모델을 개발해야 하는 경우도 많습니다. 따라서 모델중심AI와 데이터중심AI는 상호 배타적이지 않으며, 과제 성격이나 프로젝트 단계에 따라 2가지 접근법을 적절히 조합하여 활용하는 것이 필요합니다. 이러한 이유로 지금까지 주로 개인 경험과 암묵지에 의존해왔던 데이터중심AI 기술도 모델중심AI처럼 체계적 기술축적과 정형화가 필요합니다.

(2) 라벨 일관성

데이터중심AI 관점에서 중시하는 요소는 데이터의 품질이며, 그중에서도 라벨의 일관성이 핵심입니다. 라벨은 현재 가장 널리 사용되는 머신러닝 기법인 지도학습에서 학습을 위한 정답 정보를 의미하며, 데이터에 라벨을 부여하는 작업을 어노테이션(annotation)이라고 부릅니다.

예를 들어, 음성인식 모델의 학습데이터를 준비하기 위한 어노테이션 과정에서 “음오늘르나르씨느”라는 음성텍스트로 변환할 때 아래와 같은 3가지 표기중 어떤 것이 올바른지 고려해 볼 수 있습니다.

“음! 오늘 날씨는”

“음~ 오늘 날씨는”

“오늘 날씨는”

실제로는 어느 방식이든 문제될 것은 없지만, 중요한 것은 어노테이션마다 서로 다른 표기를 선택하면 라벨 일관성이 깨진다는 점입니다. 라벨 일관성이 떨어지면 학습 시, 노이즈가 발생하여, 모델이 원래 데이터의 패턴뿐만 아니라, 노이즈에도 과도하게 적합하려 하므로 일반화 성능이 떨어진 잘못된 학습으로 이어질 수 있습니다.

물체검출의 경우를 살펴보면, 예를 들어, 이미지 내의 ‘이구아나(iguana)’를 검출하는 모델 개발을 목표로 할 때 어노테이션 규칙이 ‘이구아나를 사각형으로 둘러싸라’로 단순히 정해져 있다면, 어노테이션마다 약간씩 다른 방식으로 사각형을 그릴 가능성이 있습니다. 이런 경우에도 모두 어노테이션 규칙에는 위배되지 않지만, 결과적으로 일관성 없는 라벨이 생성될 수 있습니다.

전통적으로 이러한 데이터 문제는 개별 엔지니어의 경험이나 우연에 의해 발견되고 해결되어 왔습니다. 그러나, 데이터중심AI의 목표는 개인 역량이나 운에 의존하지 않고, 체계적인 공학적 접근을 통해 문제를 해결하는 것입니다. 라벨 일관성 문제에 접근하는 방법은 다음과 같이 정리할 수 있습니다.

1. 다수의 어노테이터 활용: 동일한 데이터에 대해 여러 어노테이터가 라벨을 부여하도록 하여 편차를 확인합니다.

2. 일관성의 정량적 평가: 어노테이터 간 라벨 일관성을 수치화하여 평가합니다.

3. 규칙 재검토: 라벨 일관성이 낮은 데이터를 조사하고, 필요에 따라 어노테이션 규칙을 개선합니다.

4. 반복적 개선: 데이터 전체에서 일관성이 충분히 확보될 때까지 1~3번 과정을 반복합니다.

이와 같은 체계적인 접근법을 통해 데이터 품질을 높이고 AI시스템의 최종 성능 개선에 기여할 수 있습니다.

(3) 데이터세트 크기와 데이터 품질 간의 관계

AI 시스템 개발에서는 수억명의 사용자를 대상으로 하는 서비스의 경우, 대규모 데이터세트 구축이 가능하지만, 의료, 농업, 제조업 등에서는 수백건에서 최대 1만건 정도의 작은 데이터세트만 구축할 수 있는 경우가 많습니다. 이러한 상황에서는 데이터세트의 크기보다 데이터품질이 훨씬 더 중요해집니다.

예시: 전압으로 모터속도 예측

작은 데이터세트 낮은 품질: 크기가 작고 측정값에 노이즈가 섞여 있는 낮은 품질의 데이터세트에서는 데이터로부터 정확한 예측함수를 추정하기 어렵습니다.

큰 데이터세트: 데이터세트 크기를 확장하면, 데이터 품질이 낮더라도 노이즈가 상쇄되어 함수 피팅시 정확한 예측이 가능해집니다.

작은 데이터세트, 높은 품질: 데이터세트 크기를 작더라도 데이터품질을 높이면 동일하게 정확한 예측이 가능합니다.

예시: 이구아나 검출의 경우

이구아나 이미지를 500장 보유하고 있으며, 그 중 12%의 라벨에 노이즈가 포함되어 있다고 가정해 봅시다. Andrew Ng의 관점에 따르면, Shannon의 정보이론을 적용할 때, 다음 2가지 대책은 동등한 효과를 나타냅니다.

노이즈 샘플 수정: 12%에 해당하는 60장의 노이즈가 포함된 이미지 라벨을 찾아 수정한다.

데이터세트 확장: 데이터세트 크기를 2배로 늘려 1000장의 이구아나 이미지를 확보한다.

데이터세트 크기를 2배 늘리려면 추가로 500장 이미지를 수집하고 어노테이션작업을 수행해야 합니다. 반면에 데이터 품질을 개선하는 방법은 전체의 12%인 60장만 수정하면 되므로, 특히 작은 데이터세트의 경우, 데이터 품질 개선이 데이터세트 확장보다 훨씬 효율적입니다.

Andrew Ng가 진행한 실제 프로젝트 사례에서는 물체 검출에서 라벨(바운딩 박스)의 일관성을 높여 데이터품질을 개선했을 떄, 검출 정확도가 약 10포인트 향상되었습니다. 비교를 위해 데이터품질을 변화시키지 않고 데이터세트의 크기를 단계적으로 늘렸을 경우, 동일한 수준의 정확도 향상을 위해서는 약 3배 크기의 데이터세트가 필요했습니다. 또한 데이터세트 크기가 큰 경에도 문제는 존재합니다.

예를 들어,

검색엔진: 방대한 쿼리 데이터세트에도 불구하고 극히 드물게 나오는 쿼리가 소수 존재할 수 있습니다.

자율주행: 도로에서 발생하는 희귀 이벤트

전자상거래: 수백만개의 제품 중 거의 판매되지 않는 제품들

이러한 실제세계의 문제에서는 롱테일(long tail) 데이터가 항상 존재하며, 롱테일에 해당하는 데이터는 양이 적어 데이터 품질 문제에 직면할 가능성이 높습니다. 따라서, 대규모 데이터세트에서도 데이터 품질에 대한 논의와 개선은 여전히 매우 중요한 과제로 남습니다.

(4) MLOps의 역할

MLOps는 AI 시스템 개발부터 배포, 운영까지를 체계적으로 수행하기 위한 새로운 분야입니다. AI 시스템 개발의 라이프사이클은 대략 아래와 같이 구성하며, 기존 소프트웨어 개발이 좌에서 우로 단방향으로 진행되는 것과 달리 운영중에도 데이터 개선이나 모델 재학습을 위한 피드백이 우에서 좌로 진행되는 특징이 있습니다.

데이터중심 AI의 관점에서는 MLOps팀의 가장 중요한 역할은 AI시스템 개발 라이프스타일 전반에 걸쳐 고품질 데이터를 보증하는 것입니다. MLOps팁은 주로 다음 3가지 단계에 관여하며, 각 단계마다 아래와 같은 질문에 대해 답할 수 있어야 합니다.

데이터구축: 어떻게 일관성있는 데이터를 정의하고 수집할 것인가?

모델학습: 어떻게 데이터전처리를 통해 효율적으로 모델성능을 개선할 것인가?

배포: 어떻게 컨셉 드리프트나 데이터 드리프트를 감지하고 적절한 데이터를 이전 단계로 피드백할 것인가?

데이터중심 AI에서는 단한번 데이터세트를 구축하고 끝나는 것이 아니라, 해당 데이터세트의 품질을 지속적으로 개선하는 프로세스를 AI시스템 개발 라이프사이클에 내재화하는 것이 필수적입니다. 이를 MLOps의 한 부분으로 체계적으로 수행함으로써, 특정 개발 대상에 과도하게 의존하지 않고 항상 데이터중심AI 원칙을 실천할 수 있는 개발흐름을 확립하는 것이 앞으로 매우 중요해질 것입니다.

(5) 빅데이터에서 굿데이터로

AI 발전의 요인 중 하나는 방대한 양의 데이터를 AI학습에 활용할 수 있게 된 점입니다. 초기에는 인터넷을 통해 데이터를 수집할 수 있는 IT 테크기업들이 빅데이터와의 시너지 효과로 AI를 빠르게 도입했지만, AI가 다양한 산업으로 확산됨에 따라 대규모 데이터세트이 어려워진 사례도 늘어나고 있습니다.

이러한 상황에서 데이터양 자체가 집중하기보다는 데이터품질에 초점을 맞춘 굿데이터(Good data)구축으로 마인드셋을 전환하면, 데이터 양의 제약을 극복하고 AI활용범위를 이전보다 더욱 넓힐 수 있습니다.

굿데이터는 다음과 같은 특징을 갖습니다.

일관성: 라벨 정의에 모호함이 없고, 데이터 간 일관성이 확보됨

중요 사례 커버리지: 핵심케이스를 충분히 포함하여 다양한 상황에 대응 가능함

피드백 기반 개선: 운영 중 수집된 데이터를 통해 지속적으로 데이터품질을 개선할 수 있음

적절한 크기: 문제 해결에 필요한 최적의 데이터 크기를 유지함

또한 도메인 특성에 따라 추가적인 요구사항이 있을 수 있습니다. 예를 들어,

헬스케어: 환자 개인정보 보호 및 보안이 필수적입니다.

사회적 인프라: 데이터 편향성과 공정성을 세심하게 관리해야 합니다.

MLOps 팀의 지원하에 도메인에 특화된 적절한 접근법으로 굿데이터를 확보하면, 데이터 양이 적은 경우뿐만 아니라 대규모 데이터세트에서도 AI가 효과적으로 작동하도록 할 수 있습니다.

(6) 정리

데이터중심AI의 핵심포인트

모델은 오픈소스로 충족가능, 데이터는 프로젝트별 특화 문제: AI시스템 개발에서 모델은 우수한 오픈소스를 통해 쉽게 활용할 수 있지만, 데이터는 대부분 각 프로젝트에 특화되어 있어 공개된 데이터만으로는 충분하지 않습니다. 따라서, 먼저 전체 개발 라이프사이클에서 고품질 데이터를 보증할 수 있는 MLOps 체게를 마련하고, 이를 기반으로 모델을 결합함으로써 AI시스템의 성능과 개발 효율을 동시에 향상시킬 수 있습니다.

AI시스템은 데이터의 반영, 데이터중심AI의 중요성: AI시스템은 데이터의 상태를 그대로 반영합니다. 많은 프로젝트에서 모델중심AI가 주류를 이루기는 하지만, 앞서 설명했듯이 데이터중심 AI역시 매우 중요합니다. 체계적인 에러 분석을 통해 모델성능 개선을 위해 데이터에 어떤 수정이 필요한지 정확하게 판단해야 합니다.

미래 AI개발의 프론티어 – 체게적인 MLOps 도구: 앞으로 AI개발의 가장 중요한 과제 중 하나는 데이터중심 AI를 효율적이고 체계적인 프로세스로 구현할 수 있는 MLOps 도구의 개발입니다. 데이터 관련 문제의 발견과 해결을 개별 엔지니어의 역량에 맡기기보다는 모든 팀원이 활용할 수 있는 체계적인 프레임워크를 구축하는 것이 필수적입니다.

필자경험에 따르면 데이터중심 AI를 실천할 때는 다음과 같은 접근이 필요합니다.

문제점 도출 후 우선순위 결정: 자신들의 AI 개발 프로젝트에서 데이터와 관련된 문제를 먼저 명확히 파악하고, 그 영향도에 따라 우선순위를 정해 해결해야 합니다. 명확한 문제 인식 없이 무리하게 데이터중심AI를 도입하려고 하면, 결과가 중도에 머무르거나 충분한 효과를 얻지 못할 수 있습니다.

자동 어노테이션 도입 사례 주의: 한가지 실폐사례로 사전조사를 충분히 하지 않고, 효과가 있을 것이라 기대하여 AI기반 자동 어노테이션을 도입한 결과, AI가 실수한 부분만 어노테이터가 수정하게 되어, 기존에 처음부터 어노테이션 작업에 익숙해진 어노테이터들에게 오히려 작업 부담을 가중시킨 사례가 있습니다.

선행지식과 경험의 흡수: 데이터중심AI라는 용어는 비교적 새로울 수 있지만, 관련된 학술분야와 여러 조직들이 진행해 온 창의적 접근법에는 이미 데이터중심AI와 밀접한 관련이 있는 사례들이 많이 존재합니다. 선행자의 지식과 결험을 적극 흡수하면, 문제해결을 위한 다양한 방법을 마련할 수 있고 중복 작업을 피할 수 있습니다.