데이터중심 AI강좌: 데이터세트 구축 및 효율적인 데이터 학습 방법
이번에는 기업들의 AI개발 과정에서 데이터중심(Data centric)의 접근방법이 어떻게 활용되며 어떤 장점을 창출하고 있는지를 설명합니다. 해외 사례로는 전셰계에서 가장 높은 수준의 데이터중심 AI(DCAI)를 실천하고 있는 기업 '테슬라(Tesla)' 사례와 AI의 실용화는 물론 전세계적으로 AI연구를 이끌고 있는 Meta의 연구로 소개합니다.
수직통합기업의 강점을 살려 데이터와 관련된 모든 프로세스에서 효율성과 확장성을 철저히 추구하는 테슬라(Tesla Inc)는 시장점유율이나 판매량면에서 세계최고의 수준을 자랑하는 전기자동차 제조사로 이 회사 차량에 탐재된 풀셀프드라이빙(FSD, Full Self-Driving)이라는 카메라 기반의 운전지원기능 개블을 위해 데이터중심의 AI개발 프로세스를 구축하여 운용하고 있습니다. 그중에서도 가장 흥미로운 부분은 데이터엔진이라 불리는 차량에서 데이터를 수집하고 데이터를 어노테이션하고 모델을 학습시키며, 학습된 모델을 다시 차량에 배포하는 과정을 효율적으로 반복하는 구조입니다.
우선 이 데이터엔진에 관한 설명을 한 후에 수집된 데이터에 대한 어노테이션(annotation)을 어떻게 효율화하고 있는지, 레어케이스(rare case)와 같은 많은 양의 데이터를 수집하기 어려운 경우에는 어떻게 대응하고 있는지에 대해 설명합니다. (이 내용은 테슬라가 공개한 강연자료를 기준으로 정리한 내용입니다.)
▣ 개별차량에서 데이터 수집
테슬라 전기차는 전세계에서 연간 100만대 이상 판매되고 있습니다. 차량이 받은 뒤 센서정보가 테슬라 서버로 업로드되는 구조덕분에, 전세계를 주행하는 개별 테슬라차량들이 데이터수집원이 될 수 있습니다. 그러나, 모든 차량의 모든 데이터를수집하면 데이터량이 방대해지고 통신 및 저장에 막대한 비용이 소요될뿐만 아니라, 비슷한 데이터속에서 모델학습에 유용한 데이터를 찾는데에도 큰 비용이 들기 때문에 현실적이지 않습니다. 따라서 테슬라는 필요한 데이터가 발생하는 대양한 상황을 포착하기 위한 '트리거(trigger)'를 정의하고 각 차량에서 트리거가 발동할 때만 데이터가 업로드되도록 하는 구조를 만들어 사용하고 있습니다.
카메라를 사용한 도지표지판 검출을 예를 들어보면, 일반적으로 도지표지판의 디자인과 크기는 규격화되어 있고, 설치할 때도 차량에서 잘 보이도록 고려됩니다. 하지만 설치조건이나 촬영조건이 다양하기 때문에 실제로 카메라에 나타나는 도로표지판의 패턴분포는 롱테일(long tail)형태를 띠게 됩니다. 롱테일에서 꼬리에 해당하는 예시로 가로수에 의해 가려진 도로표지판이나 특정보조표지판과 같이 설치된 특수한 도로표지판등을 들 수 있습니다. 이런 도로표지판은 랜덤하게 수집된 데이터세트에는 거의 포함되지 않아 그런 데이터세트로 학습된 물체검출 모델에서는 잘 검출되지 않는다는 문제가 있습니다. 하지만, 고도의 운전지원을 위해서는 대상 출현빈도와 관계없이 높은 정확도의 검출이 요구됩니다.
이런 문제를 해결하기 위해 테슬라가 선택한 접근법중 하나는 기존에 구축된 데이터세트에서 꼬리에 해당하는 도로표지판, 즉, 가로수에 가려진 도로표지판이나 특정 보조표지판과 같이 설치된 도로표지판을 찾아내, 그것만을 검출하는 별도의 물체 검증 모델을 만들어 차량에 배포하는 것입니다. 이 물체검출 모델은 실제로 운전지원을 수행하는 FSD와는 별개로 작동하며, 당연히 차량의 움직임에 영향을 주지 않고 사용도 인지하지 못하지만, 차량 카메라에서 오는 정보를 계속 처리합니다. 이런 제한된 대상의 검출에 특화된 모델이 무언가를 검출한 것을 데이터(이미지) 송신을 위한 트리거로 사용하면 꼬리에 해당하는 도로표지판이 찍힌 이미지를 효율적으로 수집할 수 있습니다. 트리거 생성용 물체검출모델은 초기 단계에서는 학습데이터가 적어 검출정확도가 낮을 수 있지만, 수많은 차량에서 데이터를 수집할 수 있으므로 데이터 수집 관점에서는 충분한 역할을 합니다.
위 예시는 롱테일한 도로표지판 분포에서 꼬리에 해당하는 데이터량이 적고 검출정확도가 낮다는 알려진 문제를 다루는 예시였지만, 미지의 문제에 대응하는 사례도 설명합니다. 테슬라 차량은 이전에는 주변을 센싱(sensing)하기 위해 레이더(radar)와 카메라를 함께 사용했지만, 2021년 레이더를 폐지하고 카메라만으로 일원화했습니다. 이때 레이더의 역할을 카메라로 대체하기 위해 레이더 출력을 교사데이터(teacher data)로 사용하여 카메라 입력만으로 레이더와 동등한 출력을 얻을 수 있도록 모델이 학습되었습니다. 이 모델 개발 과정에서 차량으로부터 학습에 유용한 데이터를 수집하기 위해 설정된 트리거는 총 221종류에 달합니다. 트리거의 예로는 레이더 출력결과와 카메라 추론 결과가 불일치하거나, 추론결과와 운전자의 행동이 불일치하거나, 여러 카메라간의 추론결과가 불일치하는등의 사례가 있으며, 모델의 추론결과가 틀릴 가능성이 높은 상황에서 작동하도록 설계되었습니다. 이처럼 설정된 트리거를 통해 원인은 불분명하지만 모델 성능이 충분하지 않다고 여겨지는 상황의 데이터를 자동으로 수집할 수 있어, 이를 활용하면 미지의 문제에도 대응할 수 있습니다.
테슬라 데이터엔진은 이러한 방식으로 모델학습에 유용한 데이터를 각 차량에서 효율적으로 수집하고 어노테이션한후 학습 데이터에 추가합니다. 개선된 학습 데이터세트로 학습한 모델은 다시 전세계 차량에 배포됩니다. 이 사이클을 계속 반복하면, 이상적으로는 모델성능이 지속적으로 향상되어 모델이 처리하기 어려운 상황이 점점 줄어들고, FSD가 대응가능한 장면(scene)이 확대됩니다. 또한 트리거로 수집된 데이터, 즉, 모델이 제대로 동작하지 않았을 가능성이 높은 상황의 데이터 일부는 학습 데이터가 아니라 테스트 케이스(test case)에 추가됩니다. 모델을 재학습할 때 이 테스트케이스에서 평가하여 이전 모델의 결점을 새로운 모델이 제대로 극복했는지 확인할 수 있습니다. 즉 데이터엔진의 사이클을 반복함으로써 학습데이터뿐만 아니라, 평가데이터 역시 점점 더 충실해집니다.
▣ 어노테이션(annotation)의 효율화
테슬라는 자사 내에서 모든 어노테이션 작업을 수행하며, 어노테이션을 위한 도구 역시 직접 개발합니다. 2021년쯤 공개된 정보에 따르면, 어노테이션을 위한 팀규모는 약 1000명정도지만, 단순히 인력에만 의존하지 않고 대부분을 자동화하여 효율성을 높이고 있습니다. 엄격한 실시간(real-time)처리가 요구되는 FSD와는 달리, 어노테이션은 오프라인 처리로서 계산자원이나 처리시간의 제약이 적어, 차량에 배포하기 어려운 대규모 및 고성능 모델이나 여러 모델을 앙상블(ensembie)한 자동 어노테이션이 이루어집니다. 또한, 실시간 처리에서는 얻을 수 없는 오프라인 처리 특유의 사후지혜(hindsight)도 활용됩니다. 영상에서 동일한 물체를 추적하면서 라벨(label)을 부여하는 어노테이션이 그 대표적인 사례로 오프라인 처리라면 과거뿐만 아니라 미래 프레임도 이용가능합니다. 이를 통해 대상물체가 일시적으로 다른 물체에 가려졌다 다시 나타는 상황에서도 같은 물체로서 추척을 유지하며 가려진 프레임의 위치 및 형태를 보간(interpolation)함으로써, 고품질 라벨링이 가능합니다.
위 표는 차량 카메라 영상에 레인을 어노테이션한 예시로 테슬라의 어노테이션 자동화 발전 과정을 요약한 것입니다. 초기 단계(2018년경)에는 카메라 영상의 각 프레임마다 수동으로 레인 어노테이션을 수행하여 하나의 클립(45~1분 영상)의 어노테이션에 533시간이 소요되었습니다. 테슬라 차량에는 8개 카메라가 있어 모두 독립적으로 작업해야 했습니다.
그 후 단일주행(2019년경) 단계는 SfM(Structure from Motion)등을 사용하여 여러 영상으로부터 3D 재구성을 수행한후, 3D주행공간에서 어노테이션을 하는 방식을 택했습니다. 한번의 어노테이션 결과를 모든 카메라 프레임에 투영하면 어노테이션 시간을 수백배 단축할 수 있었습니다.
2021년부터는 여러 차량의 데이터를 통합한 고도로 자동화된 3차원 지도 기반 어노테이션을 구축하여 수동대비 40만배 이상의 효율화를 달성하고 있습니다. 이러한 데이터는 날씨와 시간대에 관계없이 일관되고 정확한 라벨을 제공하여 모델성능과 견고성(robustness)을 높이는데도 크게 기여합니다.
▣ 시뮬레이션을 통한 합성데이터의 활용
데이터 엔진과 어노테이션 효율화를 통한 실제 차량 데이터 수집에 더해, 테슬라는 시뮬레이션을 이용한 합성데이터(synthetic data)도 적극적으로 활용하고 있습니다. 시뮬레이션이라면 아무리 많은 차량을 동원해도 충분한 데이터를 얻기 어려운 극히 드문 상황도 쉽게 재현할 수 있으며, 예를 들어, 카메라에 대규모 군중이 찍힌 장면에서 한명한명 모두에게 라벨을 붙여야 하는 것처럼 어노테이션이 극도로 어려운 상황에서도 완벽한 라벨이 자동으로 확보됩니다.
테슬라의 시뮬레이터는 3DCG 소프트웨어 중 하나인 Houdini를 기반으로 하고 있지만, 디자이너가 처음부터 모든 것을 모델링하려면 시간이 너무 많이 걸리는 문제가 있습니다. 그래서 테슬라는 앞서 설명한 자동 어노테이션을 위해 구축한 지도를 houdini에 가져와서 모델링 공수를 크게 단축하고 있습니다. 지도에는 도로 경계선이나 차량이 주행가능한 레인(lane)정보를 나타내는 레인그래프가 포함되어 있으므로, Houdini내부에서 도로평면을 구축한 뒤 레인 그래프를 바탕으로 직진이나 좌우회전등 도로 노면 표시를 자동으로 핪성합니다. 교차로등에 대해서도 지도를 바탕으로 신호등이나 도로 표지판을 배치합니다. 지도에 포함되지 않은 건물이나 나무같은 식물, 차량, 보행자등은 무작위로 합성하여 시각적 다양성과 다양한 교통상황을 만들어 낼 수 있습니다. 중요한 것은 이 프로세스가 완전히 자동화되어 있으며, 디자이너가 개입하지 않고 몇분만에 완료된다는 점입니다.
또한, 현실세계를 컴퓨터상에서 지도 형태로 재현하는데 그치지 않고 시뮬레이션에서는 이 지도를 더욱 자유룝게 변경할 수 있습니다. 예를 들어, 위에서 설명한 프로세스 중 레인 그래프를 변경하면 이에 맞춰 차량의 움직임이나 도로표지내용도 바뀌게 되어 현실과는 다른 새로운 장면(scene)을 만들어 낼 수 있습니다. 테슬라는 우선 자동화된 프로세스를 통해 현실세계를 시뮬레이터에 재현한 뒤, 그것을 편집하여 다른 상황을 만들어내는 접근법을 통해 실제 차량에서 얻는 데이터를 보완하는 다채로운 합성데이터를 효율적으로 생성하고 있습니다. 2021년 시점에서 시뮬레이션으로 생성하여 모델학습에 사용한 이미지수는 약 3억장이며, 이들에 부여된 라벨총수는 5억개에 달합니다.
이러한 합성 데이터 학습이 효과를 내기 위해 중요한 열쇠 중 하나는 합성데이터의 특성을 실제 차량에서 얻는 데이터의 특성과 최대한 유사하게 만드는 것입니다. 이미지의 경우, 실제 차량에 탑재된 카메라 센서 노이즈, 흔들림, 흐림현상, 렌즈왜곡(distortion)등을 충실히 재현할 필요가 있습니다. 테슬라는 모든 요소를 자체 개발 및 생상하는 수직통합 기업의 강점을 살려 차량에 탑재된 센서의 정밀한 시물레이션을 실현하고 있습니다. 또한 시각적 리얼리티를 높이는 것도 매우 중요하며, 여기서는 자세히 설명하지 않지만, 레이트레이싱(ray tracing)이나 뉴럴 렌더링(neural rendering)같은 CG도 활용되고 있습니다.
▣ 결론
전세계에서 달리고 있는 테슬라 차량은 매우 다양한 상황에 마주칩니다. FSD가 99% 상황에 대응할 수 있는 것으로는 부족하며 진정으로 위험한 상황에서의 운전지원을 실현하려면 99.9999%로 끊없이 ㅇ이ㅓ지는 롱테일에 얼마나 잘 대응할 수 있는지가 중요합니다. 이를 위해서는 테일에 해당하는 드문 데이터라 하더라도 모델학습에 충분한 양을 확보해야 합니다. 테슬라는 수직통합기업의 강점을 활용하여 차량을 구성하는 다양한 요소를 이용해 데이터수집과 어노테이션을 효율화하고, 전세계를 달리는 수백만대의 차량에서 얻은 데이터를 자체 보유한 거대한 컴퓨터 클러스터로 처리함으로써 압도적인 스케일을 실현하고 있습니다. 효율성과 확장성에 대해 이런 철저한 추구가 테슬라의 AI개발에서 가장 큰 장점중 하나라고 할 수 있을 것입니다. 이 핵심에 있는 것이 데이터세트와 모델을 동일한 루프내에서 동시에 병행하여 성장시키는 데이터 엔진이라는 구조입니다. 데이터세트는 한번 만들어 끝내는 것이 아니라, 모델과 함께 계속 성장시켜 나가야 하며, 이를 일상적인 개발과정에서 쉽게 수행할 수 있도록 구조화하는 것이 중요합니다.
인간과 모델의 균형이 잡힌 협업을 통해 대규모 데이터세트를 효율적으로 구축합니다.
소셜네트워크 서비스인 Facebook등을 운영하는 Meta Platforms, Inc.의 AI연구부문인 FAIR(Foundamental AI Research)는 딥러닝분야의 세계적인 권위자인 Yann Lecun에 의해 2013년 설립된 이후 세계에서 가장 유명한 AI연구기관 중 하나로 AI분야 전체를 선도하고 있습니다. 여기에서는 FAIR연구에서 데이터중심의 접근법 사례로 2023년 발표된 Segment Anything이라는 연구를 소개합니다. Segment Anything은 이미지내 모든 영역을 세그멘테이션(segmentation)하는 기술로서 Segment Anything Model(SAM)이라고 불리는 모델에 이미지와 세그멘테이션 대상영역(예: 대상영역 내부의 포인트나 영역을 둘러싼 바운딩박스등)을 프롬프트로 제공하면 대상영역이 세그멘테이션됩니다. 이후로는 이 연구에서 SAM학습을 위해 새로운 구축한 SA-1B라는 데이터세트와 그 구축 프로세스를 소개합니다.
▣ SA-1B
Meta는 SAM학습을 위해 새로운 데이터세트 SA-1B를 구축하여 연구용도로 한정해서 일반에게 공개학 ㅗ있습니다. SA-1B는 총 1100만장의 이미지를 포함하고 있으며, 각 이미지에는 아래 그림처럼 이미지내 각 물체영역을 나타내는 라벨(마스크)이 부여되어 있습니다. 이 마스크 총수는 11억개에 달하지만, 이정도 규모의 마스크를 완전히 수동으로 부여하는 것은 비현실적입ㅂ니다. 따라서, Meta는 데이터세트 구축단계부터 SAM을 활용하여 인간과 SAM을 협력시켜 SAM의 성능이 높아짐에 따라 점차 인간이 개입하는 작업량을 줄여나가는 접근법을 채택했습니다. 이 데이터세트 구축 프로세스는 어시스트 기반 수동단계, 반자동단계, 완전자동 단계의 3가지로 나뉩니다.
▣ 어시스트 기반 수동 단계
최초의 단계에서는 SAM 어시스트를 받으면서 인간 어노테이터(annotator)가 수동으로 어노테이션(마스크 생성)을 수행합니다. 이 단계에서 사용되는 초기 SAM은 SA-1B와는 다른 세그멘테이션용 데이터세트에서 학습된 모델로 우선 SAM이 SA-1B이미지에 대해 추론하여 마스크를 생성합니다. 당연히 이 마스크는 오류를 포함하기 때문에 어노테이터가 브러시(brush) 또는 지우개(eraser)도구를 이용하여 수정합니다. 이때 어노테이터는 이미지 내 모든 물체의 마스크를 수정하는것이 아니라, 눈에 띄는 물체부터 순차적으로 수정하며, 하나의 마스크 수정 시간이 30초이상 걸리게 되면 다음 이미지로 넘어갑니다.
SA-1B에 포함된 일정량의 이미지에 대한 어노테이션이 완료된 후, 그 결과를 이용해 SAM 재학습을 수행합니다. 이 단계에서는 어노테이션과 SAM재학습을 6번 반복하며, 어노테이션된 이미지가 증가함에 따라 SAM냅부에서 사용하는 모델을 더 큰 사이즈로 변경해 파라미터수를 늘려갑니다. 여러 번의 학습과 모델크기 증가로 인해 이 단계내에서 SAM성능이 점차 향상되면서 SAM이 생성하는 마스크 품질도 올라갑니다. 이 결과, 어노테이터가 하나의 마스크를 수정하는데 걸리는 시간은 초기평균 34초에서 최종적으로 14초까지 단축되었습니다. 이는 MS COCO데이터세트의 마스크 어노테이션 대비 6.5배 빠른 속도이며, 마스크보다 훨씬 단순한 바운딩 박스 어노테이션과 비교해도 2배정도 느립니다. 또한, SAM 성능향상에 따라 한장의 이밎당 마스크갯수도 평균 22개에서 44개로 증가했습니다. 결과적으로 이 단계에서 어노테이션된 이미지 총수는 12만장이며, 여기에 부여된 마스크수는 430만개입니다.
▣ 반자동 단계
앞선 단계에서는 이미지내의 눈에 띄는 물체에 우선적으로 어노테이션이 수행되었기 때문에 이 단계까지 얻어진 SAM은 주로 눈에 띄는 물체만을 세그멘테이션할 수 있는 능력을 갖추고 있습니다. 따라서 이 단계에서는 그 밖에 잘 눈에 뛰지 않는 물체들도 세그멘테이션할 수 있도록 마스크수를 늘려갑니다. 이를 위해 SAM을 이용해 세그멘테이션을 수행한 후, 이미지와 생성된 마스크를 어노테이터에게 제시하고 SAM이 세그멘테이션하지 못한 물체에 대해서만 어노테이터가 추가로 마스크를 부여합니다.
이 단계에서는 어노테이션과 SAM학습이 총 5회 반복되었으며, 18만장의 이미지에 대해 새롭게 590만개의 마스크가 추가되었습니다. 앞선 단계와 합친 마스크총수는 1020만개가 되었습니다. 앞선 단계에 비해 상대적으로 눈에 뛰지 않는 작은 물체, 즉, 어노테이션이 어려운 물체에 대해 어노테이터가 마스크를 추가했기 때문에 하나의 마스크를 작성하는데 평균 34초가 소요되었습니다. 하지만, 이미지 한장당 마스크 갯수는 평균 44개에서 72개까지 증가했습니다.
▣ 완전자동 단계
이 단계에서는 어노테이터가 전혀 관여하지 않고, 지금까지 단계적으로 학습된 SAM에 의해 자동으로 라벨이 생성됩니다. 단, 단순히 SAM으로 각 이미지를 한번만 추론(inference)하는 것이 아니라, 여러 스탭을 거쳐 라벨의 품질을 높이고 있습니다.
첫번쨰 스텝에서는 세부적인 마스크의 정확도를 높이기 위해, 이미지 전체에 대한 추론뿐만 아니라, 이미지를 2x2 및 4x4로 나눈 각각의 영역에서도 별도 추론을 수행합니다. SAM에 입력되는 이미지 크기는 일정하므로 이미지를 나누어 SAM에 입력하면 이미지 전체를 입력하는 경우보다 더 확대한 상태로 추론할 수 있게 됩니다. 이 단계에서는 한장의 이미지에 대해 총 21회(=1+2x2+4x4)의 추론이 필요합니다. 그리고 최종적으로 얻어진 많은 마스크에 대해 비최대억제(NMS, Non-Maximum Suppression)를 적용하여 중복을 제거합니다. 이처럼 추론시 하나의 입력이미지를 변형하여 여러 개의 입력을 만들어내고 각각의 모델출력을 통합해 성능을 향상시키는 방법을 테스트타임 어그맨테이션(Test time Augmentation, TTA)이라 부릅니다.
다음 스텝에서는 얻어진 마스크에 다양한 필터를 적용하여 고품질 마스크만 추출합니다. SAM은 입력이미지 내 각 물체에 대해 각 픽셀이 해당 물체 영역에 속할 확률값을 출력합니다. 이 확률값에 대해 임계값 처리를 하면 물체영역을 나타내는 이진마스크(binary mask)가 생성됩니다. 여기에 더해 SAM은 각 물체별로 자신의 추론결과에 대한 신뢰도 점수(score)를 출력합니다. 먼저 이 점수를 필터링하여 신뢰도가 낮은 결과를 제거합니다. 구체적으로는 임계값을 0.5−ε와 0.5+ε 2가지로 설정하여 생성된 두개의 이진마스크 간의 IoU(Intersection over Union, 교집합비율)이 0.95미만인 마스크를 제거합니다. 이는 픽셀이 물체영역인지 아닌지 확률이 애매한 0.5주변에서 흔들리는 마스크를 제거하는 것으로 생각할 수 있습니다. 마지막으로 이미지 전체를 둘러싼 의미없는 마스크를 면적에 대한 임계값 처리를 통해 제거합니다.
마지막 스텝에서는 너무 작은 마스크나 마스크 내에 생긴 작은 구멍을 제거합니다. SAM이 생성한 마스크중 면적이 임계값(100픽셀)미만인 것을 제거하여 너무 작은 마스크를 없애고 마스크 내부에 작은 구멍역시 같은 면적기준으로 메워서 마스크 품질을 향상시킵니다.
이 단계에서 SA-1B에 포함된 전체 1100만장의 이미지가 처리되어 총 11억개 마스크가 SAM에 의해 자동 부여되었습니다. 지금까지의 3단계를 통해 부여된 전체 마스크의 99.1%에 해당합니다. 즉, 어시스트 기반 수동 단계와 반자동 단계에서 인간 어노테이터가 관여한 마스크는 SA-B1전체의 1%미만에 불과합니다. 이렇게 SA-1B의 거의 모든 마스크가 SAM에 의해 자동 생성됙었기 때문에 당연히 그 품질이 충분한지 의문이 생길 수 있습니다. 다음ㅇ은 자동생성된 마스크의 품질평가에 대해 자세히 살펴봅시다.
▣ 자동생성된 마스크의 품질평기
SAM이 자동 생성한 마스크의 품질을 평가하기 위해 SA-1B에서 무작위로 500장 이미지를 선택하고 여기에 부여된 약 5만개의 자동생성된 마스크를 어노테이터가 직접수정하는 작업을 진행합니다. 이를 통해 자동생성된 마스크와 어노테이터가 수동수정한 마스크의 쌍(pair)이 얻어졌습니다. 이 두 마스크 사이의 IoU를 계산한 결과, IoU가 0.9를 초과하는 쌍이 전체의 94%, IoU가 0.75를 초과하는 쌍은 전체의 97%에 달했습니다. 참고로 다른 연구에서 인간 어노테이터 간의 차이는 IoU가 약 0.85 ~ 0.91정도라는 보고가 있습니다. 즉, SAM이 자동생성한 마스크와 인간 어노테이터가 만든 마스크의 차이는 사람간의 편차와 비슷하며, 자동 생성된 마스크라 하더라도 사람의 수작업과 거의 동일한 품질을 갖추고 있다는 것을 알 수 있습니다.
또한, SA-1B와는 다른 다양한 세그멘테이션 데이터세트에 대해 SAM을 이용해 세그멘테이션을 수행하고 생성된 마스크 품질을 인간이 주관적으로 평가하는 실험도 진행되었습니다. 그 결과 SAM이 자동생성한 마스크 품질은 모든 데이터세트에서 10점 척도 중 대부분 데이터세트에서 두 평가 간 차이는 1점 미만이었습니다.
마지막으로 SA-1B구축과정의 3단계에서 각각 SAM을 학습했을 때 성능변화가 어떻게 되는지를 위 그림에서 보여줍니다. 어시스트 기반 수동 단계, 반자동 단계, 완전자동 단계로 진행될수록 SAM성능이 개선되는 것을 확인할 수 있습니다. 또한 자동생성된 마스크만으로 학습한 SAM의 싱능을 그림의 가장 오른쪽에서 보여주는데 어노테이터가 관여한 마스크를 포함한 학습 데이터세트의 성능차이는 매우 작으며, 자동 생성된 마스크만으로도 높은 성능을 실현할 수 있음을 알 수 있습니다. 위 여러가지 실험을 통해 메타는 SA-1B구축 시, SAM이 자동생성한 마스크가 사람의 마스크와 비교해 충분히 높은 품질을 갖추었다고 판단하였으며, SA-1B를 일반에 공개할 때는 SAM이 자동생성한 마스크만을 공개하였습니다. 즉, 앞선 2단계에서 어노테이터가 직접 만든 마스크는 완전자동단계에서 SAM이 생성한 마스크로 모두 대체되었습니다.
▣ 시사점
데이터세트 어노테이션에 사람의 수작업만을 고집하지 않고 모델의 추론을 활용하여 작업량을 줄이는 model-in-the-loop개념 자체는 새로운 것이 아닙니다. 그러나, 메타가 제시한 접근법의 특이점은 단계적으로 모델 성능이 개선됨에 따라 인간의 작업비율이 점차 감소하여 최종적으로 99%이상의 라벨이 모델에 의해 자동생성된다는 점입니다. 여기서 무조건 모델의 결과를 라벨로 사용해 데이터세트 규모만 키워도 유효한 데이터세트가 되지는 않습니다. SA-1B의 경우, 1100만장의 이미지와 11억개의 라벨이라는 압도적인 규모, TTA등 전처리와 후처리를 통해 모델의 성능을 뛰어넘는 고품질 라벨을 생성한 점이 핵심입니다. 일반적으로 데이터세트 구축은 오프라인처리로 시간이나 계산자원 제약이 적으므로, 이를 적극 활용해 자동 생성 라벨의 품질을 높이는 것이 중요합니다. 또한, 자동생성라벨의 품질평가 역시 중요합니다.
어떤 기술분야든지 발전과정에서 통일된 프로토콜에 따라 다양한 방법의 성능평가와 비교를 실시하고 우열을 경쟁하는 것이 이루어져 왔습니다. AI 연구개발에서는 일반적으로 데이터세트가 주어지고, 각자가 개발한 모델을 동일한 학습데이터세트로 학습시켜 동일한 검증 데이터세트와 평가지표로 성능을 평가 및 비교하는 모델중심(Model-centric) 접근방식이 오랫동안 주류였습니다. 한편 데이터중심(Data-centric)접근법에 대해서는 아직 초기 단계이긴 하지만, 최근 몇가지 경쟁대회가 개최되거나 벤치마크가 제안되기 시작했습니다. 또한, 기존 머신러닝이나 데이터사이언스 경쟁대회에서도 데이터중심 접근법이 효과를 발휘하는 경우가 적지 않습니다. 이번에는 데이터중심AIㅇ에 특화된 경쟁대회와 벤치마크에 대해 설명한 후, 기존의 일반적인 경쟁대회에서 사용된 데이터중심 접근법의 구체적인 예를 소개하였습니다.
Data-centric AI Competition은 데이터중심AI를 제창한 앤드류 응(Andrew Ng)이 주최하여 2021년 6월부터 9월까지 개치된 데이터세트를 개선함으로써 이미지 분류 모델의 성능을 높이는 것을 목표로 한 경쟁대회입니다. 주요 규칙은 다음과 같습니다.
제공되는 데이터세트는 손으로 쓴 로마숫자 이미지 2,880장 (라벨은 1부터 10까지 10종료)
분류모델(ResNet--50)과 학습스크립ㅂ트는 고정되어 있으며, 참가자는 데이터세트만 변경하여 제출가능
제출할 수 있는 데이터세트의 크기는 최대 10,000장까지 가능
제출하는 데이터세트에는 학습데이터세트뿐만 아니라 검증 데이터세트도 포함해야 함
데이터세트를 제출하면 학습데이터세트로 모델이 학습되고, 검증 데이터세트에서 정확도가 가장 높은 체크포인트를 이용해 비공개 테스트 데이터에서 평가가 이루어짐 (테스트 데이터는 참가자에게 공개되지 않음)
대회 성격상 제공된 데이터세트에는 잘못된 라벨을 가진 데이터나 이상치(outlier)가 되는 데이터가 많이 포함되어 있어, 이러한 저품질 데이터를 어떻게 식별하여 제거하거나 개선할지가 중요합니다. 참가자들은 제출한 데이터세트로 학습한 모델의 테스트 데이터에서의 정확도로 순위가 매겨졌으며, 사용한 접근법의 참신성 역시 평가 대상이었습니다. 각각의 관점에서 높은 평가를 받은 접근법을 소개합니다.
▣ 모델 정확도 측면의 평가
이 대회에서 제공된 데이터세트를 그대로 사용하여 학습한 모델의 분류정확도는 64.42%였던 것에 비해, 가장 높은 정확도를 달성한 Roy 논문의 방법에서는 85.83%로 20포인트이상 개선된 결과를 얻었습니다. 이 방법은 주로 데이터 증강(data augmentation)과 데이터 클렌징(data cleansing)으로 나뉩니다. 데이터증강에서는 이미지를 문자영역(전경)과 그 외의 영역(배경)으로 분리하여 서로 다른 이미지엣서 얻은 전경과 배경을 결합해 새로운 이미지를 합성함으로써 데이터세트의 다양성을 높였습니다. 데이터 클렌징에서는 각 샘플을 사람이 직접 눈으로 확인하여 라벨의 오류를 수정하거나 유사한 샘플 및 중복된 샘플을 삭제하는 방식으로 수행했습니다.
그외 상위 참가자들이 사용한 방법으로는 다음과 같은 것들이 있습니다.
특징량을 클러스터링하여 데이터수가 적은 클래스터를 중점적으로 데이터증강
검증데이터세트에서 모델이 추론한 결과의 불확실성이 높은 데이터를 골라 학습데이터세트에 추가
여러 모델을 준비하여 이들의 투표(voting)를 통해 저품질 데이터를 특정
▣ 접근법의 참신성 측면의 평가
모델의 정확도는 최고는 아니었으나 그 참신성이 높이 평가된 Motamedi논문의 방법에서는 먼저 일부 데이터를 선택하여 사람이 눈으로 직접 클렌징하고 고품질 데이터로만 학습데이터세트를 구성합니다. 그리고 이 데이터세트를 사용해 학습한 모델로 나머지 데이터의 추론을 수행합니다. 이떄 모델 출력의 신뢰도가 높은 데이터는 품질도 높다고 판단하여 그대로 학습 데이터세트에 추가하고 반대로 신뢰가 낮은 데이터는 다시 사람이 수동으로 클렌징을 한 후, 학습 데이터세트에 추가합니다. 이 프로세스를 모든 데이터가 학습 데이터세트에 추가될 때까지 반복하여 데이터세트 전체 품질을 높였습니다.
마찬가지로 반복적으로 데이터세트를 개선한 Kuan논문 방법에서는 먼저 제공된 데이터세트에 대한 데이터 증강을 통해 100만장의 후보 데이터세트를 만듭니다. 다음으로 현재 모델이 검증 데이터세트에서 오분류한 데이터와 특징 공간에서 가장 가까운 데이터를 후보데이터세트에서 찾아 학습 데이터세트에 추가합니다. 그 후 모델을 재학습하고 데이터세트 크기가 규칙상한인 10,000장에 도달할 때까지 같은 처리를 반복합니다.
그외에도 Bertens논문 방법은 학습 데이터세트와 검증 데이터세트의 분포 불일치에 주목했습니다. 특징량 분포를 학습 데이터세트와 검증 데이터세트 각각에 대해 UMAP을 이용해 시각화한 뒤, 이를 사람이 직접 확인하여 학습데이터세트 중 검증 데이터세트에 없는 영역을 특정합니다. 그리고 특정된 영역에 속한 학습 데이터의 일부를 검증 데이터세트로 이동함으로써 데이터세트의 분포 불일치를 해소하려고 했습니다.
DataComp는 이미지-텍스트쌍으로 구성된 데이터세트의 품질에 대한 벤치마크로 LAION-5B를 공개한 것으로 알려진 비영리단체 LAION이 제안했습니다. DataComp에는 필터링 트랙(filtering track)과 BYOD(bring your own data)트랙의 2가지 종류가 준비되어 있으며, ICCV 2023에서는 같이 열린 워크숍에서 경쟁대회(competition)이 개최되었습니다.
필터링 트랙에서는 참가지들이 DataComp가 제공하는 CommonPool이라 불리는 데이터세트에서 유용한 데이터를 필터링하는 기술을 개발합니다. CommonPool은 인터넷에서 수집된 약 128억개의 이미지-텍스트쌍을 포함한 초대규모 데이터세트로 웹사이트를 크롤링하여 아카이빙하는 프로젝트인 Common Crawl을 기반으로 만들어졌습니다. CommonPool은 매우 크고 노이즈가 많기 때문에 그중에서 모델학습에 유용한 데이터만을 골라내어 보다 작으면서도 효과적인 데이터세트를 얻는 것이 필터링 트랙의 목적입니다. 한편, BYOD트랙에서는 참가자가 직접 만든 데이터세트를 구축해 제출합니다.
참가자가 정해진 크기의 데이터세트(CommonPool로부터 필터링한 결과 또는 자체 데이터세트)을 주최자에게 제출하면 이 데이터세트를 이용하여 정해진 구조의 CLIP모델이 학습됩니다. 이후 학습된 모델로 총 38가지(분류과제 35가지 + 검색과제 3가지)의 다운스트림 과제를 해결하는 것으로 평가가 이루어집니다. 최종 평가는 38가지 과제 각각의 정확도 평균값입니다. 다운스트림 과제 각각에 대해 별도의 추가학습(파인튜닝)은 이루어지지 않으며, 모든 과제가 제로샷(zero-shot)으로 평가됩니다. 즉, DataComp에서는 기존 모델 중심(Model-centric)벤치마크와 달리 참가자가 모델설계가 하이퍼파라미터(hyperparameter)조정을 수행하지 않고, 오로지 학습 데이터세트를 어떻게 구축하는가에 초점을 맞춘 데이터중심(data-centric)벤치마크입니다.
대규모 이미지-텍스트 데이터세트를 이용한 학습에는 많은 계산자원이 필요하지만, DataComp에서는 참가자들이 준비할 수 있는 계산자원의 차이를 고려하여 필요한 계산량이 다른 Small, Medium, Large, XLarge의 4가지 스케일이 정의되어 있습니다. 스케일이 달라지면 CLIP의 이미지 인코더로 사용되는 ViT(Vision Transformer)의 크기가 변경되며, 필터링 트랙에서는 CommonPool의 크기가 달라집니다. XLarge스케일에서는 CommonPool의 전체 데이터가 사용되고, 그 외 스케일에서는 서브셋(subset)이 사용됩니다.
필터링 트랙에서는 미리 주최측에 의해 베이스라인이 되는 여러가지 필터링기법의 비교결과가 공개되어 있습니다. 베이스라인 기법의 예로는 이미지와 텍스트 양쪽에서 CLIP을 사용하여 추출한 특징 벡터(feature vector)의 코사인 유사도(cosine similarity, CLIP점수)가 높은 데이터(베이스라인에서 상위 30%)만 추출하는 CLIP스코어필터링이나 특징 벡터를 기반으로 이미지를 10만개의 클러스터로 나누고, 그중에서ImageNet에 포함된 이미지와 유사한 클러스터만을 추출하는 이미지기반 필터링등이 있습니다. 또한, 이 CLIP스코어 필터링과 이미지기반 필터링결과의 교집합으로 구성된 약 14억쌍이 데이터세트는 DataComp-1B라고 부르며, 이를 이용해 학습한 CLIP모델의 ImageNet-1K에서의 제로샷 분류정확도는 79.2%로 약 23억쌍을 포함한 LAION-2B를 이용했을 떄 75.5%를 능가합니다. 이는 데이터세트의 양보다 품질이 모델 성능에 크게 기여함으로써 DataComp와 같은 벤치마크의 중요성을 잘 보여줍니다.
DataPref는 다양한 도메인에 대한 데이터세트 구축방법ㅂ을 경쟁하는 벤치마크 플랫폼입니다. 머신러닝 시스템의 성능을 측정하는 벤치마크로 유명한 MLPref등을 제공하는 산업단체인 MLCommon에서 운영하고 있습니다. DataPref는 다음 5가지 태스크로 구성됩니다.
Selection for VIsion
Selection for Speech
Debugging for Vision
Data Acquisition
Adversarial Nibber
이들 태스크에 대한 첫번째 경쟁대회가 2023년에 개최되었습니다. 아래에서 각 태스크를 설명합니다.
▣ Selection for Vision (시각데이터 선택)
이 태스크에서는 라벨이 없는 이미지 데이터세트가 제공되며, 여기서 특정 물체가 포함되었는지 여부를 판단하는 이진분류(binary classification)모델의 학습에 효과적인 서브셋(subset)을 선택하는 알고리즘을 개발합니다. 개발한 알고리즘으로 선택한 서브셋을 제출하면 이를 사용하여 이진분류모델이 학습되고 얻어진 모델의 평가 데이터세트에 대한 F1점수로 평가됩니다. 대상 물체는 3종류(컵케익, 매, 초밥)이며, 각각의 F1점수의 평균값이 최종 점수가 됩니다. 제출가능한 서브셋의 크기는 1,000장입니다. 참가자는 라벨없는 이미지에외에도 대상물체를 포함하는 것이 알려진 이미지 20장과 모든 이미지에 대한 임베딩(embedding, 특징 벡터)이 제공됩니다. 이미지는 Open Image Dataset V6가 사용됩니다.
▣ Selection for Speech (음성데이터 선택)
앞서 설명한 것과 비슷하지만, 이 태스크는 음성에서의 단어분류가 목표입니다. 참자자는 제공된 음성 데이터세트에서 단어분류모델의 학습에 적합한 서브셋을 선택하여 제출합니다. 제출한 서브셋으로 학습한 모델의 평가데이터에서의 정확도(accuracy)가 점수가 됩니다. 서브셋 크기는 25샘플과 60샘플 2종류이며, 언어는 영어, 포르투칼어, 인도네시아어 3가지로 이들의 조합으로 총 6가지 점수가 계산됩니다.
▣ Debuggin for Vision (시각데이터 디버깅)
이 태스크에서는 의도적으로 노이즈가 추가된 이미지 분류 데이터세트가 주어지고, 모델학습에 끼치는 악영향 크기에 따라 데이터를 순위화하는 알고리즘을 개발합니다. 개발한 알고리즘으로 생성한 순위를 제출하면, 순위 상위 일정비율의 데이터를 노이즈를 제거한 원본(clean)데이터로 수정하고, 이를 사용해 학습한 모델의 정확도를 계산합니다. 수정하는 데이터 비율을 점차 높여가ㅏ며 이 작업을 반복하고, 모델 정확도가 기준값에 도달했을 때의 수정비율이 이 태스크의 평가지표가 됩니다. 기준값은 노이즈가 없는 원본데이터세트로 학습한 모델 정확도의 95%입니다. 즉, 원래 모델 성능에 도달하기 위해 필요한 클리닝(cleaning)작업량을 최소화할 수 있는 순위화 알고리즘이 높은 평가를 받습니다.
▣ Data Acquisition (데이터획득 전략)
이 태스크에서는 여러 판매업자가 존재하는 데이터세트 마켓플레이스에서 정해진 예산내에서 모델학습에 가장 효과적인 데이터세트를 구매하기 위한 전략을 구상합니다. 각 판매업자로부터는 소수 샘플 데이터와 데이터세의 통계정보, 가격정보가 공개됩니다. 참가자가 어떤 판매업자로부터 어느 정도 데이터를 구매할지 전략을 제출하면 이를 바탕으로 데이터세트가 구서오디어 모델이 학습됩니다. 데이터세트는 자연어분류를 위한 것이며, 모델은 간단한 로지스틱 회귀(logistic regression)입니다. 태스크의 평가는 모델분류 정확도와 남은 예산을 가중합산한 값으로 이루어집니다.
▣ Adversarial Nibbler(적대적 입력 발견)
이 태스크에서는 입력프롬프트에 대ㅑ응하는 이미지를 생성하는 시스템을 대상으로 겉보기에는 무해해 보이는 프롬프트로 유해한 이미지를 생성할 수 있는 사례를 찾아냅니다. 일반적으로 이미지 생성 서비스에서는 폭력적이거나 성적인 표현이 포함된 유해 이미지 생성 방지를 위해 프롬프트 필터가 설정되어 있지만, 이를 우회하거나 유해이미지를 생성하는 공격(adversarial attack)이 존재합니다. 이 태스크에서는 이러한 적대적 프롬프트를 가능한 만히 발견하는 것이 목표입니다. 성능평가는 인간이 프롬프트와 생성된 이미지를 직접 확인하여 수행하여 공격에 성공한 프롬프트의 갯수뿐만 아니라, 생성가능한 이미지의 다양성 측면도 평가합니다.
Kaggle은 세계 최대 규모의 머신러닝 경쟁 플랫폼입니다. 이곳에서 개최되느 대부분의 경쟁대회는 데이터세트가 주어지고, 참가지가 이를 사용해 개발한 모델을 제출하여 성능을 경쟁하는 방식입니다. 데이터세틀는 주어지지만, 모델은 참가자가 자유롭게 개발할 수 있어서 기본적으로 모델중심(Model-centric)이라 할 수 있지만, 규칙범위 내에서 데이터세트를 수정하는 것도 가능하며 때로는 데이터중심접근이 상위성적을 얻는데 핵심이 되기도 합니다. 이런 접근법을 이해하는 것이 데이터중심AI의 실천과 이해에 유용하여 과거에 Kaggle에서 열린 대회에서 데이터중심 접근법이 효과를 발휘한 사례를 소개합니다.
▣ Feedback Prize - English Language Learning
Feedback Prize - English Language Learning은 2023년 8월부터 11월까지 열린 영어기반 소논문 품질점수를 AI로 예측하는 대회입니다. 이 대회에서 4위는 데이터중심적 접근으로 학습데이터의 양과 질을 모두 개선하는 아이디어를 적용했습니다.
Feedback Prize - English Language Learning에서 제공된 학습 데이터세트 크기는 3,911건으로 작았기 때문에 대회규정상 사용이 허용된 과거 유사대회인 Feedback Prize - Evaluating Student Writing의 데이터 중 Feedback Prize - English Language Learning와 중복되지 않은 15,142건을 추가하여 학습데이터세트의 규모를 크게 늘렸습니다.
다만 Feedback Prize - Evaluating Student Writing의 데이터세트에는 Feedback Prize - English Language Learning학습에 필요한 라벨이 없었으므로, 우선 Feedback Prize - English Language Learning 데이터만으로 학습한 모델로 Feedback Prize - Evaluating Student Writing데이터 라벨을 예측하여 의사라벨(pseudo label)을 부여한 뒤, 이를 추가해 모델을 재학습하는 기본 방침을 취했습니다. 그러나 Feedback Prize - Evaluating Student Writing 데이터 중에서 Feedback Prize - English Language Learning과 다른 경향의 데이터가 섞여 있을 가능성이 있으며, 이는 모델 성능에 부정적 영향을 줄 수 있습니다. 따라서 개발자는 제공된 데이터가 2가지 중 어디에 가까운지를 분류하는 모델을 학습시켜 Feedback Prize - Evaluating Student Writing 데이터에 대해 얻은 신뢰도 점수(confidence)를 기준으로 Feedback Prize - English Language Learning에 맞는 데이터만 골라 이용함으로써 Feedback Prize - English Language Learning와 경향이 다른 데이터를 포함시키지 않았습니다.
또한, 기계적으로 부여된 의사 라벨에는 오류가 많으므로, 모델학습과 의사라벨부여를 반복하여 의사라벨의 품질을 높였습니다. 우선 Feedback Prize - English Language Learning 데이터만으로 학습한 모델로 Feedback Prize - Evaluating Student Writing 데이터 라벨을 에측해 의사라벨을 부여하고 이를 Feedback Prize - English Language Learning데이터와 함께 학습데이터세트로 활용하여 모델을 재학습했습니다. 이후 이 모델로 Feedback Prize - Evaluating Student Writing 데이터의 라벨을 다시 부여하고 또다시 재학습을 반복했습니다. 즉, 총 3번의 학습을 진행했습니다. 모델학습과 의사라벨 부여를 몇번 반복하는게 최적인가라는 케이스마다 다르지만 이때 나온 내용은 2~3회가 많다고 밝히고 있습니다.
처음 얻은 데이터세트의 규모가 충분하지 않을 경우 공개된 다른 데이터세트에서 유사한 데이터를 추가하여 적은 노력으로 데이터를 크게 늘릴 수 있습니다.그러나 공개된 데이터세트가 항상 본래 목적에 맞는 라벨을 가지고 있지 않고, 데이터의 경향 또한 정확히 일치하지는 않습니다. 여기서 소개한 의사라벨활용과 고품질화, 머신러닝을 통한 데이터경향 분류 접근법은 이런 문제에 대한 일반적인 해결책으로서 다양한 과제에 효과적일 것입니다.
▣ Benetech - Making Graphs Accessible
Benetech - Making Graphs Accessible은 2023년 6월까지 개최된 논문에 포함된 그래프 이미지에서 그래프의 종류(수평, 수직 막대그래프, 꺽은선그래프 등)와 내용을 AI로 읽어내는 대회입니다. 이 대회에서 1위를 차지한 내용을 보면 학습데이터 양과질에 주목한 접근법을 사용했습니다.
이 대회에서 제공된 그래프 이미지의 학습데이터세트는 약 60,000장이며, 실제 논문에서 추출한 실제 이미지가 약 1000장, 기계적으로 합성된 이미지가 약 59,000장이었습니다. 최종평가데이터는 모두 실제 이미지였으므로, 전체 학습 데이터세트 중 2%에 불과한 실제 이미지를 얼마나 정확히 예측하는 모델을 개발할지가 중요했습니다.
이 팀은 대회 전반부에 모델을 개선하 후, 후반부에는 데이터를 개선했습니다. 개발한 모델이 잘 예측하지 못하는 데이터를 분석한 결과, 예를 들어 에러바(error bar)가 있는 막대그래프등 세부특징을 가진 복잡한 그래프가 잘 인식되지 않음을 발견했습니다. 원인은 학습 데이터의 대부분을 차지하는 합성이미지가 실제 이미지에 비해 지나치게 단순하다는 점에 있으며, 보다 실제에 가까운 복잡한 그래프 이미지를 추가해 점수를 0.73에서 0.78로 개선했습니다.
새 데이터 추가시에는 실제에 가까운 복잡한 그래프를 직접 합성했으며, 또한 대회 규정상 허용된 외부 데이터세트도 활용했습니다. 외부 데이터세트 역시 라벨이 없었으므로 의사라벨을 활용했습니다. 다만, 모델이 잘못예측한 데이터에 단순히 의사라벨을 그대로 쓰면 잘못된 데이터가 추가될 우려가 있어, 모델이 잘 예측하는 부분과 그렇지 않은 부분을 나누어 전자는 모델 예측 그대로 사용하고 후자는 사람이 눈에 직접 라벨링하여 데이터 품질과 효율성을 동시에 높였습니다.
데이터중심AI에서는 무작정 데이터세트 크기를 늘리는 것이 아니라 데이터 품질과 모델성능개선 효과에 주목하며 데이터를 추가하는 것이 중요합니다. 이번에 소개한 것처럼 모델이 잘못예측하는 데이터를 중점적으로 보완하는 전략이 큰 성능개선으로 이어질 수 있습니다. 또한 데이터 추가시 모델의 강점을 활용하여 사람과 모델이 효과적으로 협력하는 접근법은 품질과 효율을 동시에 실현할 수 있음을 잘 보여줍니다.
▣ LLM Science Exam
LLM Science Exam은 2023년 7월부터 10월까지 개쵣된 과학관련 선택문제를 AI로 푸는 대회입니다. 문제와 선택지는 위키피디아기사를 바탕으로 GPT-3.5가 생성한 것으로 AI가 만든 문제를 푸는 AI를 개발하ㅏ는 형식입니다.
이 대회 초기에는 제공된 데이터 생성방식을 따라 위키피디아에서 GPT-3.5로 새로운 문제와 선택지를 생성해 언어 모델(LLM)을 학습시키는 모델중심적 접근이 주류였으나 성정향상에 한계가 있었습니다. 대회에서 7위를 한 팀에서 공개한 내용을 보면 모델 자체보다는 입력데이털를 공략하는 데이터중심적 접근이 중요해졌습니다. 대화중반부터는 문제와 관련된 위키피디아 기사를 검색하여 이를 컨텍스트로 축가하는 방식으로 LLM입력에 정보를 더하는 방법이 많이 쓰였습니다. 이런 접근법은 RAG(검색증강생성, Retrieval-Augmented Generation)이라고 불리며 LLM응답품질을 높이는데 널리 알려진 기법입니다.
또한, 대회 상위 팀들은 철저한 에러 분석을 통해 데이터세트를 개선했습니다. 예로 일반파서가 수치나 수식을 올바르게 파싱하지 못해 모델에 잘못된 데이터가 입력되는 문제를 발견하고 독자적 전처리로 이 문제를 해결하여 데이터 품질을 높였습니다. 또한, 위키피디아 전체가 아니라 미리 과학 관련 클러스터링을 수행해 관련된 기사만 검색하도록 함으로써 정확도와 속도를 높였습니다.
LLM구축에는 막대한 데이터가 필요하지만, 데이터의 양보다 품질이 더 중요하며, 이를 위한 지속적으로 철저한 오류 분석이 필수적입니다. 또한, 모델 구축후에도 프롬프트 엔지니어링이나 RAG등 데이터입력개선을 통한 데이터중심 접근이 유용하며, 앞으로 LLM연구뿐만 아니라 효율적인 운영(LLMOps)에도 주목이 커질것으로 예상됩니다.
©2024-2025 GAEBAL AI, Hand-crafted & made with Damon Jaewoo Kim.
GAEBAL AI 개발사: https://gaebalai.com
AI 강의 및 개발, 컨설팅 문의: https://talk.naver.com/ct/w5umt5
AI 강의 및 개발, 컨설팅 문의: https://talk.naver.com/ct/w5umt5