인공지능의 눈으로 세상을 바라보면, 데이터는 단순한 기록이 아니다.
데이터는 현실을 이해하기 위한 언어이고, 인공지능이 움직이는 연료다. 그렇다면 데이터는 어떻게 쌓여 왔고, 지금은 어디에 저장되며, 왜 최근 들어 폭발적으로 증가하고 있는 걸까?
이 글에서는 과거에서 현재로 이어지는 데이터 전환의 역사와 데이터센터의 역할을 살펴보며, 인공지능 시대의 핵심 인프라로서 데이터의 의미를 풀어본다.
1. 과거 : 비정형 데이터를 정형 데어터로
2000년대만 해도 데이터로서 가치를 가지려면 반드시 정형 데이터로 바꿔야 했다.
예를 들어 고객의 소리 VOC(Voice of customer)등을 고객으로부터 정기적으로 수집하면, 사람이 일일이 분류를 했다. 품질, 가격, 영업, 납기 등등의 항목으로 분류하여, 분석하는 방식이었다.
즉 정형 데이터란 행과 열로 구성된 표, 즉 데이터베이스(DB)에 들어갈 수 있는 구조를 말한다.
은행의 거래 기록, 설문조사 결과, 생산 실적 같은 정보는 쉽게 정형화할 수 있었다.
그러나 사진, 영상, 음성 같은 비정형 데이터는 달랐다. 사람이 직접 태그를 달거나 설명을 붙여야만 겨우 활용할 수 있었다.
결국 20세기말까지 데이터 분석은 정형 데이터 중심으로 이루어질 수밖에 없었다.
2. 전환점 : 벡터 전환과 LLM의 등장
2010년대 들어 상황이 바뀌기 시작했다.
2013년 구글 연구팀이 발표한 Word2 Vec은 단어를 수백 차원의 벡터로 변환하여 의미 관계를 표현할 수 있게 했다.
‘king - man + woman = queen’이라는 유명한 예시는 단어의 의미가 벡터 공간 속 거리와 방향으로 설명될 수 있음을 보여주었다.
2018년 구글의 BERT, 2020년 오픈 AI의 GPT-3가 나오면서 이 기술은 더 확장되었다.
단어뿐 아니라 문장과 문맥 전체가 벡터 공간 속에서 학습되고, 대규모 언어 모델(LLM)은 이 벡터 연산을 통해 새로운 문장을 만들어낼 수 있게 된 것이다. 이 시점부터 비정형 데이터는 곧바로 인공지능의 연료가 되었다.
LLM특징은 문맥 전체를 보고 단어 이해 (Contexual Understanding), 번역 요약 질문등 다양한 언어 과제를 유연하게 해결하는 능력( Generalization Across Tasks), 즉 훈련되지 않는 새로운 과제 해결 능력,
예시 없이 바로 문재 해결, 적은 수 예시로 문제 푸는 Zero-Shot and Few-Shot Learning이 있음
GPT 4 1.4T는 파라미터 수 ( 파라미터는 인간 두뇌 뉴런의 연결 시냅스의 가중치와 같은 의미)
3. 현재 : 데이터센터와 GPU의 시대
오늘날 인공지능은 전 세계 곳곳에 있는 대규모 데이터센터에서 작동한다.
데이터센터에는 수천에서 수만 개의 GPU가 병렬로 연결되어 거대한 연산 능력을 발휘한다.
우리가 던지는 질문 하나에도 수많은 행렬 곱셈과 벡터 연산이 동시에 수행된다.
데이터센터는 단순한 저장 공간이 아니라, 데이터 전환과 연산이 끊임없이 일어나는 ‘디지털 발전소’라 할 수 있다.
구글, 아마존, 마이크로소프트, 엔비디아 같은 기업들이 이 거대한 연산 인프라를 운영하며, 국가 경쟁력과도 직결되는 핵심 산업으로 떠오르고 있다. 전력과 GPU 자원의 확보는 이제 석유나 철강 못지않은 전략적 과제가 되었다.
4. 데이터 폭발의 이유
그렇다면 왜 최근 들어 데이터가 폭발적으로 증가하고 있을까?
첫째, 인터넷과 스마트폰의 보급으로 텍스트, 이미지, 영상이 일상적으로 생산되고 공유되기 때문이다.
둘째, IoT 센서와 각종 디지털 기기에서 실시간으로 쏟아지는 데이터가 기하급수적으로 늘어났다.
셋째, 인공지능 모델 자체가 거대해지면서 더 많은 데이터를 필요로 하게 되었다. 즉, 데이터와 연산이 서로를 키우며 폭발적인 선순환 구조를 만들어낸 것이다.
넷째, 과거에는 활용하기 어려웠던 소리, 이미지, 텍스트 같은 비정형 데이터가 이제는 모두 벡터화 과정을 거쳐 인공지능이 직접 사용할 수 있는 데이터가 되었다. 그 결과, 일상에서 생성되는 거의 모든 디지털 흔적이 학습과 추론에 활용될 수 있게 되었다.
데이터는 이제 단순한 기록이 아니라 인공지능 시대의 연료이자 언어다. 과거에는 정형 데이터만이 가치 있었지만, 이제는 모든 비정형 데이터가 벡터 전환을 통해 의미 있는 자원으로 쓰인다.
그리고 이 모든 과정은 대규모 데이터센터의 GPU에서 실시간으로 이루어진다. 우리가 지금 목격하는 인공지능 혁명은 결국 데이터의 축적과 전환, 그리고 이를 처리하는 인프라의 발전 위에 세워진 것이다.