brunch

3. 데이터품질의 중요성

데이터중심 AI강좌: 데이터세트 구축 및 효율적인 데이터 학습 방법

by AI개발자
data-centric-ai-top.jpg

데이터중심 AI에서는 체계적인 접근법을 통해 데이터 품질을 지속적으로 향상시키는 것이 가장 중요한 활동 중 하나입니다. AI 시스템 개발에서 고려해야 할 데이터 품질 관점은 다양하지만, 이번에는 AI 개발을 위한 기존 가이드라인을 인용하여 일반적인 데이터품질 개념을 설명합니다. 또한, 주로 데이터 품질에 초점을 맞춘 학술 연구 사례들을 소개함으로써 데이터 품질의 중요성에 대한 이해를 심화시키고자 합니다.



(1) AI 시스템에서의 품질 특성

기계학습을 활용한 AI 시스템의 라이프사이클 전반에 걸친 품질 관리에 대해, AI 시스템 서비스 제공에 필요한 품질 요구사항을 충족하기 위한 노력과 점검 항목들이 체계적으로 설명한 자료를 프로젝트를 진행하면서 확인했던 내용을 소개합니다. AI 시스템의 데이터 품질에 관해 2가지 분야를 정의하고, 각 분야에서 다음 7가지 특성 축을 도출합니다. 각각의 개념을 도식적으로 나타내면 아래 그림과 같습니다.


A분야: 품질 구조 및 데이터세트 설계

A-0: 문제 구조 사전 분석의 충분성: 데이터 그 자체에 대해 고려하기 전에, 대상 시스템과 관련된 문제의 요인 및 구조를 사전에 분석할 필요가 있습니다. 예를 들어, 시스템의 안전성을 고려할 때는 어떤 상황에서 어떻게 사용되는지와 같은 외부요인의 영향을 감안해야 합니다. 또한, 주로 시스템을 통해 의사결정을 수행하는 경우, 고려해야 하는 공정성측면에서는 인종이나 성별에 따른 불공정의 원인이 되는 사회적 상황과 그 배경구조, 그리고 시대적 변화등을 반영해야 합니다.

A-1: 문제 영역 분석의 충분성: 시스템에 입력되는 실제 데이터의 성질을 분석합니다. 이 분석결과는 예상되는 모든 이용상황을 포괄할 수 있어야 합니다. 이후 단계에서 데이터 정리나 필요한 데이터의 존재여부를 확인하느데 활용할 수 있도록, 데이터 범위를 여러 부분으로 세분화하는 것이 목표입니다. 시스템의 이용상황과 관련된 독립적인 여러 조건을 분류 및 정리하고, 특정 이용상황을 이러한 조건들의 조합으로 파악하는 방법을 고려할 수 있습니다. 이때 실제로 발생할 수 없는 조합이 발견되면 이 단계에서 배제합니다.

A-2: 데이터 설계의 충분성: 시스템이 대응해야 할 다양한 상황 각각에 대해, 필요한 데이터를 수집하고 정리하기 위한 프레임워크 설계가 필요합니다. 가장 단순하게는 이미 특정한 '상황조합' 모두에 대해 충분한 데이터를 확보하는 것을 고려하면 되지만, 일반적으로 상황조합의 수는 방대해지는 경우가 많습니다. 따라서, 일부 상황조합은 통합하되, 특히 중요성이 높은 영역에서는 세분화된 상황조합에도 빠짐없이 대응할 수 있도록 설계해야 합니다.


B분야: 데이터세트의 품질

B-1: 데이터세트의 포괄성 (커버리지)

B-2: 데이터세트의 균일성

B-3: 데이터의 타당성

B-4: 외부 품질별 데이터세트의 타당성: 여기서 B-4는 특정 외부 품질(예: 공정성, 프라이버시)과 관련된 데이터세트의 요소들을 다루며, 각 도메인에서 요구되는 품질기준을 충족하는지 평가합니다.


B분야는 실제로 구축된 데이터세트의 품질 특성 축을 다룹니다. 먼저 데이터 설계 단계에서 결정된 '대응해야 할 상황의 조합' 각각에 대해 누락없이 충분한 양의 데이터가 제공되고 있는지를 고려합니다. (B-1: 데이터세트의 포괄성) 학습 데이터의 경우, 특정 상황에 대한 데이터가 부족하여 학습이 미흡해지거나, 반대로 데이터가 과도하여 모델의 성능편향이 발생하는 것이 방지하는 것이 목적입니다. 또한 검증 데이터에서는 특정 상황의 데이터가 부족할 경우 해당 상황에서의 모델 동작에 대한 검증 결과가 신뢰할 수 없게 됩니다.


한편, 각 상황의 데이터가 입력데이터에서 실제 발생 빈도에 따라 적절하게 추출되었을지도 고려해야 합니다. (B-2: 데이터세트의 균일성) 아래 그림은 포괄성과 균일성의 개념을 도식적으로 나타낸 것입니다. 포괄성과 균일성은 시스템에 요구되는바에 따라 어느 하나를 우선하거나 또는 2가지를 균형있게 양립시켜야 합니다.


예를 들어, 자율주행 시스템의 경우, 발생빈도가 낮은 상황이라도 해당 상황에 적절히 대응하지 못하면 큰 위험이 발생하므로, 그 상황의 데이터를 충분히 수집해야 합니다. 이때 균일성을 확보하기 위해서는 다른 모든 상황의 데이터도 함게 늘려야 하지만, 전체 데이터양이 방대해져 현실적이지 않을 수 있습니다. 따라서 이런 경우에는 균일성보다 포괄성을 더 중시하게 됩니다.


반대로, 균일성을 중시하는 사례로는 소매점의 매출예측 시스템 등이 있습니다. 일반적으로 시스템 전체의 성능은 균일성이 높은 데이터세트로 학습할 때 더 우수하게 나타나므로, 예를 들어, 1년간 평균적인 예측정확도를 높이고자 할 때, 특정 희귀 상황에 과도하게 치중하여 학습함으로써 전체성능이 저하되는 것은 바람직하지 않습니다.


data-centric-ai-005.png
data-centric-ai-006.png AI시스템에서 데이터의 품질특성


data-centric-ai-007.png

데이터세트 전체 분포(포괄성과 균일성) 뿐만 아니라, 데이터세트를 구성하는 개별 데이터 각각이 시스템 목적에 비추어 타당한지도 매우 중요합니다. 이를 (B-3 데이터 타당성)으로 요약할 수 있습니다. 여기서 타당성이란 단순히 값이 정확한 것에 그치지 않고,


일관성: 본래 제외되어야 할 데이터 (예: 이상치)가 아닌지

신빙성: 부적절한 개변조가 이루어지지 않았는지,

최신성: 충분히 최근 데이터인지,


등을 종합적으로 포함합니다. 또한 지도학습의 경우, '모델 입력 데이터의 타당성(데이터 선택 타당성)'과 '해당 데이터에 부여된 라벨의 타당성(라벨링의 적절성)'을 모두 고려해야 합니다. 이와 관련하여 구체적인 접근방법은 다음과 같습니다.


어노테이션 정책 통일 및 정밀화

예로 이미지에 대한 어노테이션 시, 라벨을 부여해야 할 물체의 크기, 거리, 중첩 등 처리방식을 시스템 목적에 맞춰 명확히 하고, 이를 모든 어노테이터 간에 일관되게 공유해야 합니다.

어노테이터별 라벨 편차가 발생하면 모델 성능 저하 및 부정확한 성능 평가로 이어질 수 있습니다.

특히 어노테이션 작업을 다시 수행하는데는 많은 비용이 들기 때문에, PoC(Prof of Concept) 초기단계부터 충분히 검토해 어노테이션 정책을 구체롸하고 문서화해 두는 것이 중요합니다.

2. 데이터세트 정합성 체크 및 재확인

시스템 구축 효율을 위해 기존 데이터세트를 활용할 수 있지만, 데이터 타당성은 요구사항과의 정합성을 기준으로 평가되므로, 기능요구나 사용상황이 바뀌면 타당성도 재평가해야 합니다.

데이터세트 구축을 외부에 위탁하는 경우, 사전에 검토한 기준에 따라 수용(acceptance)검사를 진행해야 합니다.

3. 롱테일 처리, 계측오류, 이상치 판단

어떤 데이터가 다른 데이터의 경향에서 벗어나 있을 때, 이를 시스템이 다뤄야 할 롱테일로 볼지, 아니면 계측오류나 이상치로 간주하여 제외할지는 문제특성, 데이터 내용, 포괄성과 균일성 간 우선순위등에 따라 달라집니다.

데이터 선택이나 어노테이션의 일관성을 유지하기 위해 이런 판단 기준에 대해서도 명확한 정책을 수립해 두어야 합니다.

4. 데이터 오염(보안, 신빙성) 대응

데이터에 의도된 오류 및 편향, 악의적인 개변조등의 '데이터 오염'이 한번 데이터세트에 섞이면 자동으로 감지하기가 어렵습니다.

데이터 오염을 방지하기 위해서는 일반적인 정보보안 대책, 데이터수집 환경의 물리적 보안등 프로세스 관점에서의 방안이 필요합니다.

또한, 프라이버시 보호, 영업기밀보호, 법규 및 계약위반 가능성등에 유의해야 합니다.

5. 최신성

시간이 흐름에 따라 모델 성능이 저하된다면,최신데이터로 재학습하는 것이 효과적일 수 있습니다.

그러나 최신성 요구는 데이터세트 크기의 한계와 상충할 수 있으며, 특히 희귀 상황(롱테일)을 다뤄야 하는 경우, 포괄성과의 트레이드오프가 발생할 수 있습니다.

따라서 최신성에 대한 정책을 사전에 검토하거나 PoC등에서 적절한 요구수준을 도출해야 합니다.


AI시스템의 외부품질로 리스크 회피성, AI성능, 공정성, 프라이버시 등을 제시하며, 이를 보장하기 위해서는 각각에 대응하는 데이터 품질을 높여야 합니다.


공정성(Fairness): 데이터수집단계에서 '편향(bias)'이 최대한 발생하지 않도록 주의해야 합니다. 예로 Disparate Impact Remover와 같은 전처리를 통해 중요한 속성(인종, 성별등) 간 특징량이 유사하도록 데이터를 수정하는 방법을 고려할 수 있습니다.

프라이버시(Privacy): GDPR(General Data Protection Regulation)등 관련 규제를 준수하는 것은 물론 모델이 의도치않게 학습 데이터(개인정보 등)를 노출 및 기억하지 않도록 데이터분포조정등 기법을 활용해야 할 수도 있습니다.

data-centric-ai-008.png


(2) 데이터 품질이 미치는 영향

앞서 AI 시스템의 데이터 품질을 고려할 때 주의해야 할 특성 축들을 살펴보았습니다. 이번에는 이중에서 어느 한축이라도 문제가 생겨 데이터품질이 낮아질 경우 실제로 어떤 영향이 발생하는지 학술연구사례를 인용해서 살펴보겠습니다.


⇒ 라벨오류가 미치는 영향

Northcutt등은 컴퓨터 비전 분야에서 널리 사용되는 10가지 공개 데이터세트를 대상으로 특히 평가(테스트 데이터세트에 포함된 라벨 오류와 그 영향에 대해 조사했습니다. 이 연구에서는 라벨이 잘못되었을 가능성이 높은 데이터를 기계적으로 추출한 뒤, 사람이 직접 확인해 실제로 라벨이 틀린 데이터를 식별했습니다. 그 결과, 평균적으로 약 3.3%의 데이터에서 라벨 오류가 있었고, 대표적으로 많이 쓰이는 ImageNet 평가 데이터세트에서는 약 6%에 달하는 오류율을 확인했습니다. 위 그림은 이 연구에서 실제로 발견된 라벨 오류 예시입니다.

그렇다면 이러한 라벨 오류는 구체적으로 어떤 문제를 야기할까요?

data-centric-ai-009.png ImageNet 사용한 여러 모델의 성능평가결과: (a)라벨에 오류가 있는 데이터를 제외한 경우, (b)라벨에 오류가 있는 데이터만 사용하는 경우 (Nothcutt등 논문 인용)

(a) 라벨오류 제거 전후의 성능비교

위 그래프 (a)는 크기가 다른 여러 이미지 분류 모델을 ImageNet으로 학습시킨 뒤,


가로축: 원본 평가 데이터세트를 사용했을 때의 성능

세로축: 해당 연구에서 발견된 라벨 오류가 있는 데이터를 제거한 평가 데이터세트로 측정한 성능


을 나타낸 것입니다. 이 그래프에서 점 하나하나는 서로 다른 모델의 성능을 의미하며, 그래프가 오른쪽 위로 향하는 직선을 따라가고 있음을 알 수 있습니다. 즉, 라벨 오류를 포함한 데이터세트와 라벨 오류를 제거한 데이터세트 어느 쪽으로 평가하든, 모델 간 성능의 순위는 변하지 않았습니다. 언뜻보면 평가 데이터세트 내 라벨 오류가 크게 문제가 되지 않는 것처럼 보입니다.


(b) 라벨오류가 있는 데이터만으로 본 경우

그러나, 위 그래프 (b)에서 같은 모델들을 평가할 때,


가로축: 라벨오류가 있는 데이터만 모아서 평가한 성능

세로축: 해당 데이터의 라벨을 올바르게 수정한 뒤 평가한 성능


으로 설정하자, (a)와 달리 라벨 수정 전후에 따라 모델 순위가 크게 뒤바뀌는 현상이 나타났습니다. 특히 파라미터 수가 많아 용량(capacity)이 큰 모델일수록 순위가 크게 하락하는 경향이 있습니다. 예를 들어, NASNet은 34개 모델 중 1위에서 29위로 급락했습니다.


이 두 실험 결과를 종합하면,


정확한 라벨이 부여된 데이터에 대해서는 용량이 큰 모델일수록 예상대로 성능이 높지만,

잘못된 라벨이 부여된 데이터에 대해서는 용량이 큰 모델일수록 그 잘못된 라벨을 그대로 학습해, 해당 데이터에서는 오히려 정확히 틀린 예측을 수행한다는 점을 시사합니다.


그 원인 중 하나로 용량이 큰 모델은 학습 데이터세트에 존재하는 시스템적인 라벨 오류 패턴까지 학습해 버리는 것을 들 수 있습니다. 여기서는 평가 데이터세트의 라벨 오류에만 주목했지만, 평가용 데이터세트와 같은 프로세스로 만들어진 학습데이터세트에도 유사한 라벨 오류가 존재할 가능성이 큽니다. 즉, 학습과 평가 모두에 라벨 오류가 포함된 데이터세트를 사용하면, 평가 데이터세트에서 측정한 성능이 높아지도록 모델을 개선하도라도 사실은 데이터세트 전반의 라벨오류에 최적화될 뿐, 모델의 진정한 일반화 성능이 개선됮 ㅣ않을 가능성이 있습니다.


⇒ 평가 데이터 라벨오류의 위험성

일반적으로 학습 데이터세트에 라벨 오류가 포함된 상황에서 모델을 얼마나 견고하게(robust) 학습할 것인가에 대한 연구는 많습니다. 그러나 평가 데이터의 라벨 오류에 초점을 맞춘 연구는 상대적으로 적습니다. 하지만, 이 연구가 보여주듯 평가 데이터세트에 라벨 오류가 있으면 모델 개선 방향을 잘못 잡거나, 여러 후보 모델 중 가능 일반화 성능이 높을 것으로 예상되는 모델을 선택하는 과정에서 잘못된 모델을 채택할 위험이 큽니다.


이 연구에서 다룬 데이터세트들은 대부분 연구개발 목적으로 신중하게 설계 및 구축된 것으로 평가 데이터의 라벨 오류율이 평균 3%정도로 많지 않아 보일수도 있습니다. 하지만, 실무(실제 응용) 환경에서는 개발일정이나 예산등의 제약으로 인해 더 짧은 기간, 더 적은 비용으로 데이터세트을 만들어야 하는 경우가 많습니다. 이로 인해 라벨 오류가 더 많이 포함될 가능성이 높고, 위에서 언급된 문제가 훨씬 더 두드러지게 나타날 수 있습니다.


⇒ 데이터중복성이 미치는 영향

잎서 설명한 데이터 품질 특성축 중에서 데이터세트의 포괄성 및 균일성과 깊은 관련이 있는 측면외에도, 다소 다른 관점으로 데이터의 중복성에 주목한 연구가 있습니다. Sorscher등은 이전에 언급한 뉴럴 네트워크의 스케일링 법칙에서 지수가 0에 가까워, 모델의 성능개선 효율이 낮고, 약간의 성능개선을 위해 방대한 양의 데이터를 추가해야 한다는 문제를 제기했습니다. 그 이유로 데이터세트 내에 모델학습에 기여도가 낮은 샘플이 다수 포함되어, 즉 데이터 중복성이 있다는 점을 들었으며, 데이터 중복성을 제거함으로써 스케일링 법칙의 효율을 개선하고 지수 스케일링을 실현할 수 있음을 이론과 실험 양면에서 입증했습니다.


데이터 중복성을 제거하는 기술은 구체적으로 데이터세트에서 모델학습에 기여도가 낮은 데이터를 제거(pruning)하는 방법으로 이를 데이터 제거(data pruning)이라고 부릅니다. 일반적인 데이터 중복성 접근법에서는 일정한 지표를 통해 데이터세트 내 각 데이터의 난이도나 중요도를 평가값으로 산출한 후, 원하는 비율에 맞춰 평가값이 낮거나 일정수의 데이터를 데이터세트에서 제거합니다. 이때 데이터 중복 전의 데이터세트로 학습한 모델의 성능과 데이터 중복성 후의 모델성능이 유사하도록 하는 것을 목표로 합니다. 즉, 모델 성능을 떨어뜨리지 않으면서 데이터세트의 크기를 줄이는 것이 목적입니다.


data-centric-ai-010.png 데이터 전정에 의한 지수 스케일링 실현 (Sorscher논문 인용)


그래프(a)는 데이터중복성으로 제거할 데이터의 비율을 변화시켰을 때, 데이터세트 크기와 모델성능 간의 관계를 이론적으로 도출한 결과를 보여줍니다. 그래프에서 남기는 데이터비율을 표시하며 이 값이 작을수록 제거되는 데이터비율이 커져 그래프 색상이 옅어집니다.


그래프(b)(d)는 실제 이미지 데이터세트에 기존 데이터 제거 기술을 적용하여 그래프 (a)에서 제시한 이론 시뮬레이션과 유사한 현상이 나타나는지를 확인한 결과입니다. 모든 경우에는 거듭제곱 법칙을 나타내는 직선 아래에 파레토 최적(Pareto optimal)이 존재함을 확인할 수 있습니다. 이러한 파레토 최적을 실현할 수 있다면, 기존의 효율이 낮은 스케일링 법칙을 지수 스케일링으로 개선할 수 있어, 추가한 데이터 양에 대해 모델 성능 개선속도를 가속화할 수 있습니다.


데이터세트 크기를 확장하여 모델 성능을 개선하는 과정에서 데이터 제거를 통해 데이터 중복성을 줄이면 기존에 알려진 거듭제곱 법칙의 한계를 극복할 수 있다는 연구는 기계학습 분야의 세계 최고 학회 중 하나인 NeurIPS에서 Outstanding Paper로 선정되었습니다. 이 연구를 계기로 데이터 품질의 한 측면으로서 중복성에 대한 관심이 증대되고 중복성을 줄이기 위한 연구가 활발해질 것으로 기대됩니다.




논문의 한 구절을 인용하면 아래와 같습니다.


Our initial results in beating power law scaling motivate further studies and

investments in not just inefficiently collecting large amounts of random data, but rather, intelligently collecting much smaller amounts of carefully selected data, potentially leading to the creation and dissemination of foundation datasets, in addition to foundation models.


거듭제곱 법칙 스케일링의 한계를 극복하기 위한 우리의 기초성과는 단순히 무작위 데이터를 대량으로 수집하는 비효율적인 방법이 아니라, 신중하게 선별된 소량의 데이터를 효과적으로 수집하는 기술에 대한 연구와 투자에 대한 동기 부여로 작용합니다. 이는 기반 모델에 더해 '기반 데이터세트'의 구축과 보급으로 이어질 잠재력을 내포하고 있습니다.



⇒ 윤리성 및 프라이버시 결여가 미치는 영향

Prabhu등은 컴퓨터 비전 분야에서 연구목적으로 널리 사용되어 온 대규모 데이터세트에 대해 윤리성 및 프라이버시 관점에서 몇가지 문제가 있음을 지적했습니다. 예를 들어 2008년 공개된 Tiny Images와 2010년부터 시작된 ILSVRC에서 사용된 ImageNet은 모두 해당분야의 발전에 크게 기여했지만, 카테고리 분류에 WordNet을 사용함으로써, WordNet에 포함된 차별적이거나 공격적인 윤리 문제를 그대로 이어받는 문제가 있었습니다. 특히 Tiny Iamges는 인터넷 검색을 통해 자동으로 생성되고 사람에 의한 정밀 검주가 이루어지지 않아, 논문에서 예로 들었듯 약 15000여장의 이미지에 윤리적으로 문제가 있는 라벨이 부여되었습니다. 이와 관련하여 Prabhu등의 논문이 발표된 후 큰 반향을 일으켰고, Tiny Images공개처인 MIT는 사과문을 기재하여 Tiny images 공개를 중단하게 되었습니다.


또한 ImageNet의 경우에도 '인간'에 속하는 2832개의 서브카테고리 중 1593개ㅇ가 부적절한 것으로 판명되어 '인간'에 해당하는 이미지 약 60만장이 데이터세트에서 삭제되었습니다. 그러나 여전히 예를 들어, 이미지에 나오는 사람들에 대해 동의없이 공개된 문제가 남아 있습니다. 이와 같이 윤리성 및 프라이버시 고려가 충분하지 않은 채 대규모 이미지 데이터세트가 구축 및 공개될 경우 발생할 수 있는 위협을 Prabhu등의 지적에서 다음과 같이 요약할 수 있습니다.


프라이버시 상실 및 협박의 위협: PimEyes와 같이 얼굴이미지를 입력받아 동일 인물로 추정되는 사람들의 이미지를 인터넷에서 검색할 수 있는 서비스가 있다면 데이터세트 내 이미지에 등장하는 사람의 신원을 특정할 우려가 있습니다. 만약 해당 이미지가 당사자의 의도와 달리 공개되었다면, 이미지 내용에 따라 공격이나 협박등으로 이어질 수 있습니다.

더 크고 불투명한 데이터세트의 등장: 연구 커뮤니티에서 충분한 검증없이 데이터세트 구축이 일상화된다면, 더 대규모이면서도 구축과정이 불투명한 데이터세트가 등장할 수 있습니다. 예를 들어, Flickr에서 수집된 아동 이미지가 당사자 동의없이 사용된 것이 확인되어 이슈가 된 적이 있습니다.

크리에이티브 커먼즈의 한계: Open Images에서는 크리에이티브 커먼즈 라이선스의 이미지가 활용되지만, 이 라이선스는 저작권 문제에만 대응하며 프라이버시나 AI활습용 동의 문제에는 대응하지 않았습니다. 크리에이티브 커먼즈가 발표한 의견에서도 이 라이선스는 프라이버시 보호나 AI개발에서의 윤리문제 해결을 위한 우수한 도구가 아니라는 점을 명시하고 있습니다.


이와 같이, 데이터세트에 대한 문제대응의 한 예로 Prabhu등은 모델특성을 기록하는 모델카드와 유사하게 데이터세트 감사카드를 작성 공개할 것을 제안합니다. 이 감사카드는 해당 데이터세트의 윤리성과 관련된 정량적 지표를 기록한 것으로 예를 들어 ImageNet의 경우, 카드에는 데이터세트 내 이미지에 등장하는 사람수, 연령, 성별, NSFW 카테고리의 존재여부 등이 기재됩니다. 이러한 정보를 산출하기 위해 기존 학습된 모델과 사람에 의한 검증이 활용됩니다. 데이터세트 감사 카드를 통해 데이터세트 구축자는 데이터세트 보급과 같이 그 목표, 구축절차, 알려진 한계 및 주의사항을 공개할 수 있게 됩니다. 모든 관점에서 완벽한 데이터세트 구축은 어려우나 구축시점부터 충분한 주의를 기울이고 구축후에도 철저한 감사를 통해 결과를 공개함으로써 데이터세트 투명성을 높이고 이용자에게 알려진 문제를 고려한 적절한 사용을 유도할 수 있습니다.

data-centric-ai-011.png ImageNet에 대한 데이터세트 감사 카드 (Prabhu논문 인용)


(3) 정리

데이터중심 AI를 대중에 확산시키는 계기가 된 2021년 Andrew Ng의 강연을 기반으로 데이터중심AI의 기본개념을 설명했습니다. 이어서 AI 개발을 위한 데이터세트에 있어서 2가지 주요관점, 즉 데이터세트의 크기와 포함된 데이터의 품질에 대해 학술연구를 참고하여 그 중요성을 살펴보았습니다.


데이터중심 AI라는 용어가 최근에 나왔지만, AI개발에서 데이터의 중요성은 오랫동안 인식되어 왔으며, 학계나 산업계 모두 이미 많은 연구와 실무적 적용에 노력이 진행되어 왔습니다. 이런 선행 연구와 사례들을 학습하는 것은 데이터중심AI의 이해와 실무적용에 매우 유용하며 성공적인 AI시스템 개발로 가는 지름길이 될 것입니다.


©2024-2025 GAEBAL AI, Hand-crafted & made with Damon Jaewoo Kim.

GAEBAL AI 개발사: https://gaebalai.com

AI 강의 및 개발, 컨설팅 문의: https://talk.naver.com/ct/w5umt5


keyword
이전 02화2. 데이터세트의 크기와 모델 성능의 관계