데이터중심 AI강좌: 데이터세트 구축 및 효율적인 데이터 학습 방법
Andrew Ng의 데이터중심 AI 중요성에 대한 강의 내용을 보면, 데이터세트의 품질을 체계적으로 향상시키는데 있었지만, 현재 AI라고 하면 대부분 딥러닝을 의미하므로, 품질을 유지하면서 가능한 하나의 데이터세트의 크기를 확장하는 것이 AI 시스템 개발 성공을 위해 데이터 관점에서 가장 먼저 고려해야 할 사항 중 하나입니다.
따라서 딥러닝 모델 즉, 뉴럴 네트워크의 성능과 학습에 사용되는 데이터세트 크기 간의 관계를 조사한 연구들이 소개되며 데이터세트 크기의 중요성을 구체적으로 살펴봅시다.
뉴럴 네트워크의 성능은 데이터세트의 크기 또는 모델의 파라미터 수와 거듭제곱 법칙(power law)관계에 있다는 것이 널리 알려져 있습니다. 이를 뉴럴 네트워크 스케일링 법칙(neural scaling law)이라고 부릅니다. 여러가지 공식화된 패턴이 존재하지만 이 강좌에서는 데이터측면에서 그 크기와 모델 성능간의 관계를 간단히 표현하면 다음과 같습니다.
여기서, ε는 모델의 일반화 오차, m은 학습 데이터세트의 샘플수, 그리고 α는 상수입니다. 데이터세트 크기가 커질수록 모델 성능이 얼마나 빠르게 개선되는지는 음의 스케일링 지수 β에 의해 결정됩니다.
Hestness 등은 기계번역, 언어모델링, 이미지분류, 음성인식등 다양한 과제에서 앞서 언급한 스케일링 법칙이 실험적으로 성립함을 보여주었습니다. 그 결과는 위 그림에 인용되어 있습니다. 해당 그래프들은 모두 가로축에 데이터세트 크기, 세로축에 해당 과제에서의 모델 성능을 표시하며, 양축 모두 로그 스케일로 나타내고 있습니다. 그래프 내 실선은 실제 측정값을, 파선은 위 공식을 적용한 결과를 나타냅니다. 또한, 여러 쌍의 실선과 파선이 존재하는 이유는 모델 크기(파라미터 수)를 변화시킨 여러 실험 결과를 동시에 보여주기 때문입니다.
이러한 결과를 보면, 어느 과제에서나 위 공식이 잘 맞으며, 데이터세트 크기 확장에 따른 모델 성능 개선이 거의 직선적인 관계를 보입니다. 성능 개선 속도를 나타내는 스케일링 지수 β는 과제에 따라 다르지만 대체로 -0.07에서 -0.35사이의 값을 가집니다.
한편, 위 그래프(a)에서 보여지는 기계번역의 경우, 위 공식에서 상수 r가 추가된 형태로 표현됩니다. 이는 데이터세트 크기에 비해 모델 크기가 충분하지 않아, 데이터세트 크기를 아무리 늘려도 성능이 개선되지 않고 모델의 캐패시티가 소진되어 언더피팅이 발생하는 영역을 나타내기 위함입니다. 반대로 위 그래프(c)의 이미지 분류에서는 데이터세트 크기가 너무 작을 때 모델 성능이 개선되지 않는 현상이 보입니다. 이는 데이터세트 크기가 너무 작아 모델이 학습 데이터를 단순 암기하여 일반화 가능한 지식을 획득하지 못하고 과적합이 발생하기 때문입니다.
이러한 결과를 일반화하면, 데이터세트 크기에 관한 스케일링 법칙은 3가지 영역으로 구분됩니다.
소량 데이터 영역: 데이터세트 크기가 너무 작아 모델이 제대로 학습하지 못해 성능이 무작위 예측 수준에 머무는 구간
스케일링 법칙 영역: 공식이 성립하여 데이터세트 크기가 커질수록 모델 성능이 개선되는 구간
성능 상한 영역: 모델 성능이 포화하여, 데이터세트 크기를 아무리 늘려도 성능이 더 이상 개선되지 않는 구간
이 성능상한, 즉, 오차의 하한은 모델의 예측오차에 대한 이론적 하한인 베이즈 오차에 더해, 데이터세트 내 라벨 오류등 여러 요인의 조합에 의해 결정됩니다.
실제 AI개발에서는 처음부터 대규모 데이터세트를 확보하는 경우가 드물며, 보통 점진적으로 데이터세트를 확장해 나갑니다. 이 과정에서 여러 차레 모델 학습과 성능평가를 수행하여, 데이터세트 크기가 커질수록 모델 성능이 어떻게 변화하는지 확인함으로써는 현재 데이터세트 규모가 앞서 제시한 3가지 영역(소량 데이터영역, 스케일링 법칙 영역, 성능상한 영역) 중 어느 구간에 해당하는지 판단할 수 있습니다.
다만, 소량 데이터 영역과 성능 상한 영역은 모두 데이터세트 크기를 늘려도 모델 성능이 변하지 않는다는 공통점이 있어 구분이 어려울 수 있습니다. 그러나 일반적으로 사용되는 딥러닝 모델은 충분히 큰 캐파시티를 갖추고 있으므로, 개발 초기 단계부터 성능 상한 영역에 도달하는 경우는 많지 않습니다. 실제로 Hestness등이 진행한 여러 실험에서도 성능상한 영역이 명확히 관측되는 사례는 드뭅니다.
만약, 스케일링 법칙 영역에 있다는 것이 확인되면 공식을 모델에 피팅하여 목표 성능에 도달하기 위해 얼마나 더 많은 데이터가 필요한지를 대략적으로 추정할 수 있습니다. 추가로 필요한 데이터양이 개발예산과 일정에 비춰 수용가능한 수준이라면, 데이터세트 크기를 계속 늘리는 것이 목표성능 달성에 있어 가장 확실한 방법입니다. 또한, 소량 데이터 영역에 있는 경우에도, 스케일링 법칙 영역에 도달할 때까지 데이터를 계속 추가해야 합니다.
앞서 스케일링 법칙 관점에서 데이터세트 크기와 모델성능의 관계를 살펴봤지만, 데이터 품질이 낮은 경우에는 어떤 일이 벌어질까요?
소량 데이터 영역: 데이터품질이 낮으면 이 영역을 벗어나기 위해 필요한 데이터 양이 고품질 데이터에 비해 많아집니다.
스케일링 법칙 영역: 데이터 품질이 낮을수록, 데이터 추가에 따른 성능 개선 속도가 느려지고, 동일한 성능 향상을 얻기 위해 더 많은 데이터를 필요로 합니다.
성능 상한 영역: 성능을 평가하는 데이터세트 자체에도 노이즈가 포함될 가능성이 높아지므로, 실제보다 더 낮은 상한을 보이게 되고, 그 상한에 도달하는 시점도 앞당겨집니다.
반대로 데이터 품질을 개선하면 소량 데이터 영역의 폭을 줄이고, 스케일링 법칙 영역에서의 성능 개선 속도를 높이며, 성능 상한 자체를 끌어올려 그 지점에 도달하는 시간을 늦출수 있습니다. 이를 통해 스케일링 법칙이 제공하는 이점을 최대한 누릴 수 있습니다.
©2024-2025 GAEBAL AI, Hand-crafted & made with Damon Jaewoo Kim.
GAEBAL AI 개발사: https://gaebalai.com
AI 강의 및 개발, 컨설팅 문의: https://talk.naver.com/ct/w5umt5