AI는 어떻게 학습하는가?

내가 묻고 AI가 답하다.

by 한재영 신피질

많은 사람들이 인공지능(AI)은 스스로 인터넷에서 정보를 찾아 자동으로 학습한다고 생각한다. 하지만 실제로는 그렇게 단순하지 않다.


AI가 지능을 갖추기까지는 수많은 사람의 손이 거쳐야 하며, 복잡한 과정이 필요하다.


이 글에서는 AI가 어떻게 학습되는지, 그리고 그 과정에서 사람이 어떤 역할을 하는지, 또 개인정보는 어떻게 보호되는지에 대해 알기 쉽게 설명한다.


1. AI는 인터넷을 실시간으로 자동 학습하지 않는다


AI는 인터넷을 실시간으로 탐색하거나 자동으로 배우지 않는다. 현재 GPT 모델(GPT-4 등)은 특정 시점까지의 데이터(예: 2023년까지의 책, 뉴스, 웹사이트 등)를 수집해, 대규모 컴퓨터 연산으로 '학습(training)'한 결과물이다. 일단 학습이 완료된 이후에는, 새로운 정보가 자동으로 반영되지는 않는다.


2. 데이터 수집은 '자동화 + 수작업'이 함께 이루어진다


AI가 학습하기 위해서는 엄청난 양의 텍스트 데이터가 필요하다. 이를 위해 다음 두 가지 방식이 함께 사용된다:


① 자동화 수집: 웹 크롤러라는 프로그램이 인터넷상의 공개된 데이터를 자동으로 수집한다. 예: 위키백과, 논문, 블로그, 코드 등.


② 수작업 정제: 사람이 데이터를 정제하고, 유해하거나 부정확한 내용을 제거하며, 학습 가능한 형태로 가공한다.


3. RLHF: 사람이 AI의 응답을 평가하고 학습을 돕는다


RLHF(Reinforcement Learning from Human Feedback)는 '사람의 피드백을 통한 강화학습'을 뜻한다. 사람들이 AI가 생성한 여러 답변을 비교하고, 어떤 답변이 더 좋은지 평가한다. AI는 이 피드백을 통해 더 나은 응답을 생성하도록 학습한다.


4. 얼마나 많은 사람들이 AI 학습에 참여할까?


AI 한 모델을 학습시키기 위해 수천 명에서 많게는 수만 명의 사람이 동원된다.


이들은 전 세계에 분포된 프리랜서, 전문 리뷰어, 데이터 가공 업체의 직원들이다. 특히 OpenAI나 Google 같은 기업은 외주 회사를 통해 수많은 라벨링 작업자를 고용한다.


5. 일반인의 질문은 AI 학습에 바로 반영되지 않는다


일반 사용자가 ChatGPT에 입력하는 질문과 대화 내용은 자동으로 학습 데이터로 저장되지는 않는다.


일부 대화는 품질 개선을 위해 익명화된 상태에서 내부적으로 분석될 수 있지만, 원하면 '데이터 수집 거부(Opt-out)' 설정도 가능하다.

또한 개인정보나 민감한 내용은 학습 데이터로 쓰이지 않도록 설계되어 있다.

6. AI는 ‘모델’과 ‘데이터’의 결합이다


AI는 마치 두 가지 재료로 만들어진다. 하나는 모델(model), 다른 하나는 데이터(data)다.


모델은 인간의 뇌처럼 정보를 처리하는 틀이고, 데이터는 그 뇌에 입력되는 경험과 지식이다.

모델이 아무리 좋아도 학습할 데이터가 부족하거나 품질이 낮으면 제대로 작동하지 않는다. 반대로, 아무리 많은 데이터를 줘도 모델이 단순하면 성능이 한계에 부딪힌다.


7. AI는 GPU 등 막대한 컴퓨팅 자원이 필요하다


AI 학습은 단순히 데이터를 넣는 것만으로 끝나지 않는다. 모델이 데이터를 이해하고, 패턴을 찾고, 예측 능력을 키우려면 고성능 컴퓨팅 자원이 필요하다.


특히 GPU(그래픽 처리 장치)는 AI 학습의 핵심이다. GPT 모델을 학습시키는 데는 수만 개의 GPU가 수 주에서 수개월 동안 계속 작동한다. 이 과정에서 전력도 엄청나게 소비되기 때문에, AI 기술은 환경과 에너지 문제와도 연결된다.


8. AI는 단순한 ‘암기 기계’가 아니다


많은 사람이 AI가 데이터를 외워서 답변한다고 생각하지만, 실제로는 패턴을 통계적으로 추론하는 구조다. 즉, 정확히 외운 문장을 내보내는 것이 아니라, 이런 상황에서는


런 단어가 나올 확률이 높다는 것을 계산해서 출력하는 것이다.


래서 AI는 종종 실제 사실이 아닌 ‘그럴듯한 거짓말’을 하기도 한다(이 현상을 ‘환각 hallucination’이라고 부른다).



9. AI 학습에는 윤리와 법적 기준이 중요하다


AI가 사용하는 데이터는 대부분 인터넷상의 공개 자료이지만, 모든 정보가 윤리적으로 안전한 것은 아니다. 가짜 뉴스, 편향된 정보, 차별적 표현이 학습되면 AI도 그것을 답변에 반영할 수 있다.


또한 저작권, 개인정보 등 법적 이슈도 중요한 문제다. 어떤 데이터를 사용할 수 있고, 어떻게 익명화해야 하며, 누가 그 책임을 질 것인가는 AI 기업들이 반드시 해결해야 할 과제다.


10. AI는 끊임없이 ‘후속 학습’이 필요하다


세상은 계속 변한다. 그래서 AI도 계속 새로운 정보를 받아들이고, 이전의 실수를 개선하는 후속 학습(fine-tuning) 과정이 필요하다. 예를 들어 새로운 법이 생기거나, 과학 이론이 바뀌거나, 사회적 감수성이 변화하는 경우, AI는 그에 맞춰 다시 학습되거나 업데이트되어야 한다. 이 과정 또한 사람이 데이터와 기준을 선정해서 수동으로 진행해야 한다.


마무리하며
AI는 결코 마법처럼 혼자서 지능을 갖추는 것이 아니다. 수많은 사람들의 노력과 정교한 시스템, 윤리적 고민이 함께하는 복잡한 과정이다. AI 시대를 살아가는 우리 모두가, 그 이면의 구조를 올바르게 이해하는 것이 중요하다.

작가의 이전글인공지능 학습 - AI는 어떻게 인식하나?