생성형 AI와 LLM의 품질을 좌우하는 좋은 데이터를 확보하는 법
방대한 양의 데이터는 최신기술로 구현된 생성형 AI와 초거대언어모델(LLM)을 비롯한 인공지능 모델의 성능을 결정짓는 가장 중요한 요소이다. 인간의 신경망을 모방한 인공신경망(Artificial Neural Network, ANN)을 활용한 딥러닝 기술로 구현된 언어모델들은 매개변수(parameter)와 사전학습(pre-trained)된 텍스트 데이터가 많으면 많을수록 사용자의 말을 더욱 잘 알아듣고, 사람처럼 자연스럽게 말할 수 있도록 설계되어 있기 때문이다.
좋은 데이터가 좋은 인공지능 모델을 만든다
지난달 21일 한국을 방문한 앤드류 응(Andrew Ng) 스탠포트 대학교 겸임교수는 “좋은 데이터를 수집하고 가공하는 것이 인공지능을 만드는 과정의 80%를 차지하는데, 이는 데이터가 인공지능의 핵심적인 부분임을 의미한다.”라고 말했다. 그는 데이터 중심 인공지능(Data-centric AI) 개발의 중요성을 강조했고, 인공지능 개발자들이 코드 수정을 통한 모델 하이퍼파라미터 변경에 매몰되지 않고 좋은 데이터를 확보하고 유지하려는 노력을 해야 한다고 덧붙였다. 또 이것이 얼마나 더 나은 성능 개선을 이루어 냈는지 실제 사례를 통해 보여주었다.
다량의 데이터를 실시간으로 원활하게 확보하는 것은 비단 인공지능 모델 개발뿐 아니라 기업의 의사결정에도 빼놓을 수 없는 필수적인 요소이다. 따라서 ASW와 MS Azure, 그리고 Snowflake 등 각종 데이터 플랫폼들은 클라우드 컴퓨팅을 통해 방대한 양의 데이터를 편리하게 실시간(real-time)으로 확보하는 것에 초점이 맞추어져 있다.
그러나 단순히 학습 데이터의 양을 기하급수적으로 늘리기만 해서는 인공지능 모델의 성능향상 혹은 더 나은 의사결정으로 연결시킬 수 없다. 데이터의 양만큼이나 중요한 것이 데이터의 품질이다. ‘Garbage in, garbage out(쓰레기가 들어가면 쓰레기가 나온다)’라는 말처럼 질 낮은 데이터는 아무리 양이 많아도 좋은 결과를 낼 수 없다. 그렇다면 좋은 데이터란 구체적으로 어떤 데이터를 말하는 것일까? 또한 기업들은 어떻게 방대한 데이터를 원활하게 확보하고 품질을 유지하여 경쟁력을 확보할 수 있을까?
좋은 데이터의 중요성은 아무리 강조해도 지나치지 않다. 클라우드 컴퓨팅 기술과 컴퓨팅 리소스의 발전으로 방대한 양의 정형/비정형 데이터 확보가 용이해지면서 LLM을 비롯한 언어모델과 생성형 AI는 점점 더 거대화되고 있기 때문이다. 앤드류 응 박사가 강조하듯이 데이터 중심 인공지능은 이제 인공지능 업계의 거대한 트렌드가 되었다.
앤드류 교수에 따르면 좋은 데이터는 일관되게 정의되고(consistency), 모델 활용 시 예상 가능한 모든 경우를 포괄하며(coverage), 생산 데이터로부터 적절한 피드백(feedback)을 통해 개선되는 데이터라고 한다. 여기서 일관적인 데이터는 표현 방식과 단위 등이 통일된 데이터를 말한다. 십만, 백만 등 숫자의 표현 단위와 성격이 일관적으로 통일된 데이터 속에서만 의미 있는 인사이트를 도출해 낼 수 있다.
포괄적인 데이터란 다양한 데이터를 통해 인공지능 모델이 예측(predict)하지 못하는 영역을 최소화하기 위한 것이다. 예를 들어 음성인식(speech recognition)에 사용되는 데이터셋의 경우 주기적으로 학습 데이터에 신조어, 유행어 등을 업데이트하여 데이터를 최신화하지 않으면 모델은 빠르게 변화하는 언어의 실체를 반영하지 못하게 될 것이다. 이처럼 인공지능 모델 운영 상황을 고려하여 수집 시나리오를 정의하고 다양한 데이터를 수집하여 커버리지를 넓힘으로써 포괄적인 데이터를 확보하는 것은 모델의 성능을 유지하는 데에 매우 중요하다.
또한 데이터는 일회성이 아닌 피드백을 통해 지속적으로 개선하는 작업이 필요하다. 데이터에 대한 지속적인 모니터링과 피드백을 및 재학습을 통해 분석에 적절한 새로운 데이터가 기존의 데이터셋에 추가되는 과정을 거치면서 인공지능 모델은 더욱 편향되지 않고 강력해진다.
그 밖에도 중복되지 않고 독창성을 지니며 (Uniqueness), 정확성(accuracy)이 보장되고 편향되지 않은(balanced) 데이터가 좋은 데이터라고 할 수 있다. 특히 학습 데이터의 균형이 중요한데, 학습 데이터가 특정 그룹에 편향되어 있다면 인공지능 모델 전체는 특정 데이터 집단을 중심으로 한 예측 결과를 내놓게 되며, 이러한 인공지능 모델은 실체와는 동떨어진 예측 결과만 늘어놓게 될 것이다.
그렇다면 우리는 어떻게 일관성 있고 포괄적이며 편향되지 않은 데이터를 얻을 수 있을까? 첫째로, 모든 프로젝트가 그렇듯 데이터 확보에는 명확한 목적이 있어야 한다. 따라서 데이터 수집은 계획적이고 체계적으로 이루어져야 하며, 데이터를 수집하는 목적과 용도를 명확히 정해야 한다. 그리고 그에 따라 필요한 데이터의 범위와 특성을 파악하는 것이 중요하다.
기업은 매출 증가, 성과 개선, 고객 만족 등 다양한 목적을 달성하기 위해 데이터를 확보하고 분석한다. 특정 작업의 목적 달성을 위해 비정형 데이터(unstructured data)를 머신러닝 모델을 훈련시키기 위한 재료로 사용하기도 한다. 이러한 다양한 목적에 따라 데이터의 목적과 용도를 명확히 하고, 나아가 KPI(key performance indicator)를 통해 성과를 관리하는 것이 중요하다.
이때 중요한 것은 인공지능 모델과 데이터는 유기체와 같이 항상 변화한다는 것이다. 또한 데이터 수집은 일회성 과정이 아니라 지속적으로 이루어져야 한다. 시간이 지나면서 변화하는 트렌드와 패턴을 반영하기 위해 주기적으로 데이터를 업데이트하는 것이 중요하다.
둘째로, 데이터의 정제 및 검증 과정을 통해 신뢰할 수 있는 데이터를 확보하는 것이 중요하다. 원본 데이터에는 불필요한 정보, 잘못된 정보, 중복된 정보 등이 있을 수 있다. 이런 정보들은 데이터의 질을 저하시키므로, 적절한 데이터 전처리 과정을 통해 제거해야 한다. 또한, 데이터의 정확성을 확인하기 위해 검증 과정을 거쳐야 한다. 이 과정에서는 위에서 살펴보았듯이 데이터의 일관성, 완전성, 정확성 등을 검증해야 하며, 문제가 발견되면 즉시 수정해야 한다.
실제로 인공지능 모델 개발 프로젝트를 진행하다 보면 체감상 데이터 전처리 과정은 전체 프로젝트의 약 80%를 차지할 정도로 매우 비중 있는 작업이다. 그만큼 원시 데이터(raw data)를 가공하고 정제하는 작업은 매우 중요하며 인공지능 모델의 성능이나 데이터 분석 결과에 지대한 영향을 미칠 수 있다.
셋째로, 데이터를 다양한 소스에서 수집해야 한다. 하나의 소스에서만 데이터를 수집하면 그 소스의 특성이나 편향이 데이터에 반영될 수 있다. 따라서 다양한 소스에서 데이터를 수집함으로써 데이터의 다양성과 균형성을 확보해야 한다. 예를 들어 OpenAI사의 ChatGPT 역시 책, 논문, 온라인 커뮤니티 등 인터넷상의 다양한 웹사이트에서 추출한 약 5,000억 개의 말뭉치(corpus)를 통해 학습된 것으로 알려져 있다. 이처럼 다양한 소스에서 데이터를 확보 함으로써 ChatGPT는 다양한 상황에서 들어오는 사용자의 질문에도 자연스럽게 대답할 수 있게 되었다.
마지막으로, 인공지능 모델을 통한 피드백을 활용하는 것이 효과적이다. 데이터를 이용해 모델을 학습시키고, 그 결과를 분석해 데이터의 질을 개선하는 방향으로 수정하는 것이다. 이렇게 하면 모델의 성능이 향상되는 동시에, 데이터의 품질도 점점 더 좋아질 것이다. 각종 AI 플랫폼에서는 데이터와 모델의 성능을 개선하기 위한 데이터 드리프트(data drift) 및 모델 평가(model evaluation) 기능을 통해 데이터와 모델의 성능을 지속적으로 평가할 수 있도록 여러 기능들을 제공하고 있다.
흔히 데이터를 21세기의 원유 혹은 광물로 비유하고는 한다. 데이터는 점점 더 거대화 되고 있는 인공지능 모델들이 보다 좋은 성능을 보여줄 수 있도록 하는 원료이며, 더욱 나은 의사결정을 하기 위한 인사이트의 보고이기도 하다. 좋은 데이터가 무엇인지 정의하고 수집하는 과정들을 거쳐 높은 품질의 데이터를 확보하고 그 데이터를 적절히 활용한다면, 정답이 없는 험난한 비즈니스 환경 속에서 최선의 답을 찾아 앞으로 나아갈 수 있을 것이다.