Data vs Model (Algorithm)
Between data and model, which is more important in AI era?
누군가 이런 류의 질문을 내게 직접 물어봤으면 좋겠지만 아무도 묻지 않으니 자문자답한다. AI 관련 글이나 동영상에 AI 시대에 데이터와 모델 (또는 알고리즘)의 중요성에 관한 설명을 종종 보곤 한다. 직접 내게 '뭐가 더 중요해?’라고 묻는다면 당연히 ‘듈다’라고 답하겠지만, 조금만 역사를 되새겨보면 기술의 발전 단계에서 둘 간의 경중이 계속 변해왔음을 금세 알아차릴 수 있다. 현시점에는 데이터가 더 중요해졌다고 나는 본다. 더 많은 데이터보다는 정제되고 신뢰할 수 있는 데이터가 중요하다.
이전 글에서 밝혔듯이 이런 류의 글은 이젠 ChatGPT의 답을 먼저 앞에 박아놓고 내 생각을 조금 추가해야 한다. (Korean translation by ChatGPT)
Both data and model are essential in the AI era, and their importance can depend on the specific context and task at hand.
데이터와 모델 모두 AI 시대에서 중요하며, 그 중요성은 특정 상황과 작업에 따라 달라질 수 있습니다.
Data is the foundation of AI, and without high-quality, diverse, and relevant data, machine learning models cannot be effectively trained. Data is used to train, validate, and improve models, and the quality and quantity of the data can significantly impact the accuracy and effectiveness of the resulting models. Therefore, having access to a large, high-quality dataset is crucial to building robust and accurate AI models.
데이터는 AI의 기반으로, 고품질, 다양하고 관련성 높은 데이터가 없으면 기계 학습 모델을 효과적으로 훈련시킬 수 없습니다. 데이터는 모델을 훈련, 검증, 개선하는 데 사용되며, 데이터의 질과 양은 결과 모델의 정확성과 효과성에 큰 영향을 미칩니다. 따라서 대용량 고품질 데이터셋에 접근하는 것이 강력하고 정확한 AI 모델을 구축하는 데 필수적입니다.
On the other hand, models are the algorithms or mathematical representations that enable machines to learn from data and make predictions or decisions. Models are designed to analyze data and identify patterns, which are used to make predictions or decisions. The quality of the models used in AI can have a significant impact on the accuracy and efficiency of the predictions or decisions made by the AI system.
반면 모델은 기계가 데이터를 학습하고 예측이나 결정을 내리는 데 사용하는 알고리즘이나 수학적 표현입니다. 모델은 데이터를 분석하고 패턴을 식별하여 예측이나 결정에 사용됩니다. AI에서 사용되는 모델의 품질은 AI 시스템이 내린 예측이나 결정의 정확성과 효율성에 큰 영향을 미칩니다.
In summary, both data and models are crucial to building effective AI systems, and their importance can depend on the specific context and task at hand. Without high-quality data, it is impossible to build accurate and robust models, and without effective models, the insights gained from the data will not be actionable. Therefore, it is essential to give equal importance to both data and models when building AI systems.
요약하면, AI 시스템을 구축하는 데는 데이터와 모델 모두가 중요하며, 그 중요성은 특정 상황과 작업에 따라 다를 수 있습니다. 고품질 데이터가 없으면 정확하고 견고한 모델을 구축할 수 없으며, 효과적인 모델이 없으면 데이터에서 얻은 인사이트는 적용할 수 없습니다. 따라서 AI 시스템을 구축할 때 데이터와 모델 모두에게 동등한 중요성을 부여하는 것이 필수적입니다.
다소 뻔한 맥 빠진 답변이다.
데이터 기술, 머신러닝, 또는 인공지능의 발전 과정을 보면 데이터와 모델 (또는 알고리즘)이 경쟁적으로 좀 더 부각되는 시기가 있었다. 예전에는 모든 결정이 사람(들)의 오랜 경험과 지식, 그리고 이에 따른 직관에 의해 이뤄졌다. 경험이 오늘날의 데이터고 직관이 오늘날의 알고리즘인 셈이다. 긴 시간, 넓은 공간, 다양한 인간에 의해 켜켜이 쌓인 지식이 유일한 강점이던 시절이 불과 수백 년 전이다. 그 후로 정교한 측정이 가능하고 실험 기록이 쌓이고 저장과 공유가 쉬워지면서 요즘과 같은 데이터가 생겼다. 특별한 알고리즘이 없더라도 조금 더 많고 다양한 데이터를 갖는 것이 절대 우위를 점했다. 분석이랄 것도 없다. 그저 카운팅 해서 차트 몇 개 그려보고 평균, 분산 정도만 구해도 상대를 이길 수 있었다. 데이터를 소유하거나 접근할 수 있는 것만으로도 우위를 점하던 데이터가 앞서던 시기다.
그런 우위를 계속 점하기 위해서 더 많고 다양한 데이터를 모은다. 그러데 데이터의 차원이 수십 차원을 넘어서고 샘플 수가 수백, 수천을 넘으면서 단순 통계치나 차트만으로 데이터의 내재적 가치를 제대로 활용할 수 있는 한계를 넘는다. 그래서 쌓인 데이터를 잘 활용하기 위해서 딥러닝 이전의 수많은 방법론, 모델, 알고리즘이 등장해서 일상에 적용되던 시대다. 수많은 알고리즘, 더욱이 딥러닝의 모태인 뉴럴네트워크 ANN도 이 시기에 많이 연구됐지만 그 정점에는 Support Vector Machine (SVM)이 있었다. 2000년대 초중반까지의 얘기다. 인터넷 버블 이후에 살아남은 기업들이 이런 알고리즘 — 특히 검색 랭킹과 추천 — 을 그들의 핵심 자산으로 삼았다.
인터넷의 저변 확대는 알고리즘의 중요성을 부각함과 함께 수많은 다양한 데이터, 특히 테이블 형태의 수치 데이터가 아닌 텍스트와 이미지 등의 비정형 데이터를 마구 쏟아냈다. 소위 빅데이터의 시대다. 대용량 데이터에 대응하기 위해 많은 알고리즘이 함께 쏟아졌지만, 아이러니하게도 빅데이터 시대에는 카운팅과 같은 단순한 알고리즘이 더 실용적이고 현실적인 방법이었다. 수 ms, 수 초를 다투는 경쟁 앞에 긴 시간을 요하는 정교한 모델은 오히려 걸림돌이었다. 빅데이터의 전성기, 즉 2000년 대 후반과 2010년대 초반의 모습이다.
많은 회사들이 빅데이터를 그들의 주요 자산으로 삼으면서, 다시 아이러니하게 차별화를 위한 정교한 알고리즘이 필요해졌다. 때마침 딥러닝 Deep Learning이 등장했다. 이미지 데이터를 다루기 위해 CNN과 후속 알고리즘들이 발전했고, 텍스트 데이터 처리 (또는 NLP)를 위해서 Word2Vec을 비롯해서 RNN과 개선 알고리즘들이 등장했다. (VAE, GAN 그리고 생성 AI도 빼먹으로 섭섭하다.) 그렇게 10년의 시간 동안 딥러닝을 기반으로 한 알고리즘의 전성시대였다. Transformer와 함께 AI = LLM (Large Language Model)의 시대를 열었다. OpenAI의 GPT, 구글의 LaMDA와 PaLM, 메타의 LLaMA, MS의 Kosmos-1 등 주요 플레이어들이 저마다의 LM을 발표하고 있다. 지금은 LLM의 시대다. Instruct, Prompt, COT와 같은 방법론들이 LLM을 잘 활용하기 위해 앞다투어 쏟아지고 있다.
LLM의 강력함을 더 많이 볼 수록, LLM이 쏟아내는 그럴듯한 헛소리 bullshit들을 함께 경험한다. LM의 태생적 한계를 여실히 보여준다. 구글 Bard의 틀린 답변이 대중들에게 알려졌을 때 구글의 주가는 급하락 했다. GPT가 더 나을 것도 없다. 다음에 좀 더 적겠지만, 질문이 엉터리면 답변은 더 엉터리가 된다 (Garbage In Garbage Out). ‘세종대왕 맥북 던짐’ 사건은 한동안 계속 회자될 거다. 그렇기 때문에 지금 인공지능을 제대로 학습시킬 데이터가 중요해졌다. 사실들 속에 교묘하게 숨어있는 거짓으로 학습된 인공지능은 그 거짓을 계속 내재하고 있는 시한폭탄이다. 사람이 그 생성물의 옳고 그름을 제대로 판단할 수 있으면 다행이나, 인공지능에 익숙해지고 의존하게 되면 사람은 그런 판단 능력을 상실할 거다. 향후 AGI로 가는 길에 다음 단계의 더 강력한 모델과 기술이 등장할 때까지는 현재 우리 삶에 가까이 온 생성형 AI가 오작동하지 않도록 — 기도하며 — 바르게 학습시키는 신뢰할만한 데이터가 필요하다. 이에 더해서 데이터의 프라이버시 이슈가 더 중요해졌다. 최근 synthetic data나 federated learning이 주목받는 것은 이런 프라이버시뿐만 아니라 신뢰 데이터의 부족에 따른 현상이다. 필수 데이터의 부족은 알고리즘 개발에 동기가 되거 진화된 알고리즘은 더 많은 데이터에 목마르다. 하루가 다르게 새로운 AI 관련 기술들이 쏟아지고 있지만 지금은 새로운 데이터 시대의 초입이다.
보이지 않는 지식과 직감이 데이터와 모델로 바뀌었다. 시간을 뒤돌아 보면 모델/알고리즘이 흥하던 시기도 있었고 데이터가 더 흥하던 시기도 있었다. 이젠 인공지능 또는 기술이 우리 삶에서 떼어놓을 수 없게 됐다. 인공지능이 자의식을 갖고 SkeyNet이 되기 전까지는 우리 삶에 더 유용하도록 바른 데이터를 먹이로 주고 안전한 기술을 장착하도록 해야 한다. 선한 늑대와 악한 늑대는 우리의 의지에 달려있다.
(image from: https://heideblog.com/2015/01/01/which-wolf-will-you-feed/)
업데이트 (2023.03.20) Data-centric Artificial Intelligence: A Survey
본 글과 같은 뉘앙스의 서베이 논문이 있어서 참조한다. 새로운 분야를 접할 때 서베이 논문을 많이 읽는데, 이를 통해서 그 분야를 완벽히 이해할 수 있기 때문이 아니다. 서베이 논문은 일종의 지도 Map와 같다. 초고해상도 지도도 실제 지형의 모든 것을 표현할 수 없다. 지도를 통해서 그저 어떤 지역이나 지형, 지물이 있는지 그리고 그들 간의 거리 등의 관계가 어떤지를 파악할 뿐이다. 서베이 논문도 일종의 연구 지도인 셈이다.