10주차: 백과사전 AI를 전문가로 만드는 법

PART 3. [이해] 엔지니어와 대등하게 대화하기

by 꿈동아빠 구재학
ChatGPT는 똑똑한데, 왜 우리 회사 제품은 모를까?


지난주 우리는 AI의 본질을 배웠다. AI는 "거의 이해"하는 예측 기계다. 방대한 데이터로 학습해서 다음 단어를 예측하고, 그 예측이 정교해지면서 창발적 능력까지 보인다.


하지만 GPT가 아무리 똑똑해도 우리 회사의 제품명, 내부 용어, 업무 프로세스는 모른다. "우리 회사 최신 제품 라인업으로 제안서를 작성해줘"라고 하면 그럴듯한 문서는 만들지만, 실제 존재하지 않는 제품명을 지어내거나 단종된 제품을 추천한다.


이걸 해결할 방법이 있을까? 이 똑똑한 대학 졸업생을 "우리 회사 전문가"로 만들 수 있을까?


생각해 보자. 서울대 경영학과를 우수한 성적으로 졸업한 신입사원을 채용했다. 경영학 이론, 재무제표 분석, 마케팅 전략은 잘 안다. 하지만 첫 출근 날, 우리 회사의 ERP 시스템 사용법, 제품 라인업, 고객사 특성, 내부 보고서 양식은 전혀 모른다.


어떻게 할까? 연수를 시킨다. 3개월간 회사 매뉴얼을 공부시키고, 선배와 OJT를 하고, 실전 업무를 경험하게 한다. 그러면 이제 "우리 회사 사람"이 된다.


AI도 똑같다. 이것이 오늘 배울 Pre-training(사전학습)과 Fine-tuning(미세조정)의 차이다.



Pre-training: 대학에서 배우는 일반 교육


AI의 대학 교육


Pre-training은 AI 모델을 처음부터 학습시키는 과정이다. 말 그대로 "사전 학습", 즉 특정 업무를 하기 전에 먼저 하는 기초 교육이다.


서울대 경영학과 4년 과정을 생각해 보자. 경영학 일반론, 회계학, 마케팅, 재무관리, 조직론을 배운다.

GPT의 Pre-training도 마찬가지다. 인터넷의 방대한 텍스트를 학습한다. 위키피디아, 책, 웹사이트, 논문...


둘 다 "일반적인 지식"을 배운다. 특정 회사나 특정 업무가 아니라, 넓고 얕게 전반적인 내용을 익힌다.


얼마나 많이 배우나?


GPT-4가 Pre-training에서 학습한 데이터는 수조 개의 단어다. 한국어로 환산하면 책 수백만 권 분량이다. 이 과정에서 AI는:

언어의 기본 구조 (문법, 어휘, 문맥)

세상의 일반 지식 (역사, 과학, 문화, 기술)

다양한 문체와 형식 (뉴스, 소설, 논문, 대화)

을 배운다.


누가, 얼마나 들여서 하나?


Pre-training은 엄청난 자원이 필요하다. 비용은 수백억에서 수조 원에 달한다. GPU, 전력, 인프라 비용이다. 시간은 수개월이 걸린다. 수백 명의 AI 연구자와 엔지니어가 투입된다.


한국 정부가 독자 AI 모델 개발에 5,300억 원을 투자한다고 발표했다. 이 정도 규모가 Pre-training에 필요한 자원이다.


그래서 Pre-training은 OpenAI, Google, Anthropic 같은 대기업만 할 수 있다. 중소기업이나 개인은 사실상 불가능하다.


장점과 한계


장점은 명확하다. 범용성이다. 어떤 질문에도 어느 정도 답할 수 있다. 역사를 물으면 답하고, 프로그래밍을 물으면 답하고, 요리를 물으면 답한다.


하지만 한계도 명확하다. 전문성이 부족하다. 일반 지식은 알지만 특수 분야는 약하다. Knowledge cutoff 문제도 있다. 학습 데이터 마감 시점 이후 정보는 없다.


무엇보다, 회사 내부 데이터는 당연히 없다. 우리 회사 문서, 제품 매뉴얼, 고객 데이터... 이런 건 인터넷에 없으니까 학습할 수가 없다.


대학 졸업생이 일반 경영학은 알지만 우리 회사 업무는 모르는 것과 같다.



Fine-tuning: 신입사원 연수


우리 회사 전문가 만들기


Fine-tuning(미세조정)은 이미 Pre-training 된 모델에 특정 데이터를 추가로 학습시켜 전문가로 만드는 과정이다.


대학 졸업 후 회사에 입사하면 3개월 연수를 받는다. 회사 소개, 제품 교육, ERP 시스템 사용법을 배운다. 업무 프로세스, 보고서 양식, 내부 용어를 익힌다. 고객사 정보, 과거 프로젝트 사례를 공부한다.


이제 "우리 회사 전문가"가 된다. AI의 Fine-tuning도 똑같다.


실제 사례로 보는 Fine-tuning


<사례 1: 루닛 의료 AI - 175개 병원의 맞춤형 AI>

• 무엇을 했나? 한국의 의료 AI 기업 루닛은 미국 175개 의료기관에 '파운데이션 모델 서비스(FMS)'를 공급했다. 각 병원이 루닛의 기본 AI 모델을 자기 병원에 맞게 Fine-tuning 할 수 있도록 한 것이다.
• 어떻게 학습시켰나? 각 의료기관이 자체 임상 데이터로 학습시켰다. 해당 병원의 환자군 특성 (예: A병원은 노인 환자가 많음), 병원별 판독 스타일과 보고서 양식, 각 기관의 임상적 우선순위를 반영했다.
• 결과는? 175개 병원 각각이 "자기 병원 전문 AI"를 갖게 되었다. 일반적인 의료 지식은 공통으로 갖고 있지만, 세부적인 판독 방식은 해당 병원의 스타일을 따른다.
• 의미는? 같은 X-ray 이미지를 봐도 A병원 AI와 B병원 AI가 약간 다른 보고서를 낸다. 왜냐하면 각 병원의 "일하는 방식"을 학습했기 때문이다. 마치 신입사원이 회사 문화에 적응하는 것과 같다.


<사례 2: Med-PaLM 2 - 의사면허시험 86.5점>

• 무엇을 했나? Google은 범용 AI 모델인 PaLM 2를 의료 전문가로 만들기 위해 Fine-tuning 했다. 이것이 Med-PaLM 2다.

• 어떻게 학습시켰나? 의학 전문 데이터로 추가 학습시켰다. 의학 논문과 의학 교과서, 실제 진료 기록 (환자 개인정보는 제거), 미국 의사면허시험(USMLE) 문제와 해설을 학습했다.

• 결과는? Med-PaLM 2는 의사면허시험 스타일 질문에서 86.5%의 정확도를 달성했다. 이는 의사들의 평균 점수와 비슷한 수준이다.

• 의미는? 일반 AI(PaLM 2)가 "의과대학을 졸업한 수준"이 된 것이다. 여전히 실제 환자를 진료할 수는 없지만, 의학 지식만큼은 전문의 수준에 근접했다.


image.png


Pre-training과 Fine-tuning, 무엇이 다른가?


Pre-training(사전학습)은 넓고 얕게 배운다. 세상의 모든 것을 조금씩 안다. 역사, 과학, 문화, 언어... 하지만 어느 것도 깊이 있게 알지는 못한다.


Fine-tuning(미세조정)은 좁고 깊게 배운다. 특정 분야만 집중적으로 공부한다. 의료, 법률, 금융, 우리 회사... 그 분야만큼은 전문가 수준이 된다.


비용과 시간도 다르다. Pre-training은 수조 원 이상이 들고 수개월이 걸린다. 대기업만 가능하다. Fine-tuning은 상대적으로 저렴하지만 여전히 수억 원 수준이며, 기간은 수일에서 수주다. 일반 기업도 가능하지만 전문성은 필요하다.


학습 데이터의 양도 다르다. Pre-training은 인터넷 전체, 즉 수조 단어를 학습한다. Fine-tuning은 특정 분야만, 수백만에서 수억 단어를 학습한다.


누가 하는지도 다르다. Pre-training은 OpenAI, Google, Anthropic 같은 대기업이 한다. Fine-tuning은 루닛 같은 전문 기업, 또는 일반 기업이 한다.


결국 Pre-training은 "대학 교육"이고, Fine-tuning은 "신입사원 연수"다. 대학은 국가나 대기업이 운영하지만, 연수는 각 회사가 한다.



Fine-tuning의 종류


Fine-tuning에도 여러 방법이 있다. 크게 두 가지로 나뉜다.


Full Fine-tuning - 전체 재교육 AI 모델 전체를 다시 학습시킨다. 모든 지식을 업데이트한다. 효과가 크다. 완전히 새로운 전문가가 된다. 하지만 비용이 많이 든다. 시간도 오래 걸린다. 대학을 다시 다니는 것과 비슷하다.


PEFT (Parameter-Efficient Fine-tuning) - 부분 재교육 AI 모델의 일부(0.1~1%)만 조정한다. 핵심만 수정한다. 대표적 기법은 LoRA (Low-Rank Adaptation)다. 비용이 훨씬 적다. 빠르다. 하지만 효과가 Full Fine-tuning보다는 작다. 짧은 직무 연수를 받는 것과 비슷하다.


대부분의 기업은 PEFT를 사용한다. 효과는 조금 떨어지지만, 현실적으로 가능하기 때문이다.


image.png



문과생의 강점: 데이터 큐레이션


코딩은 필요 없다


Fine-tuning을 한다고 해서 Python 코딩을 할 필요는 없다. OpenAI 같은 회사들은 GUI 기반 Fine-tuning 도구를 제공한다. 데이터만 준비하면 클릭 몇 번으로 가능하다.


진짜 핵심은 다른 곳에 있다. "무엇을 학습시킬지" 기획하는 것이다.


데이터 큐레이션이란?


큐레이션(Curation)은 원래 박물관 큐레이터가 하는 일에서 나온 말이다. 수많은 작품 중에서 전시할 작품을 선별하고, 어떤 순서로 배치하고, 어떻게 설명할지 기획하는 작업이다.


데이터 큐레이션도 마찬가지다. 어떤 데이터를 선택할 것인가? 어떻게 정리하고 분류할 것인가? 어떤 품질 기준을 적용할 것인가? 어떤 우선순위로 학습시킬 것인가?


이 질문들에 답하는 것이 데이터 큐레이션이다.


데이터 품질이 전부다


Fine-tuning의 성공을 결정하는 건 데이터의 품질과 적합성이다. 좋은 데이터는 좋은 AI를 만든다. 나쁜 데이터는 나쁜 AI를 만든다. 'Garbage In, Garbage Out'이다.


글로벌 AI 기업 appen은 이렇게 말한다. "파인튜닝은 상당한 전문 지식, 기술 리소스, 컴퓨팅 성능, 관리 및 개발 비용이 필요하다. 하지만 고품질 데이터가 없다면 이 모든 투자가 무용지물이 된다."


문과생이 잘할 수 있는 이유


도메인 지식을 가장 잘 아는 사람이 데이터를 큐레이션해야 한다.


예를 들어, 고객센터 챗봇을 만든다면 이런 질문에 답해야 한다. 어떤 질문이 자주 들어오는가? 어떤 답변이 정확하고 친절한가? 어떤 톤으로 응대해야 하는가? 어떤 정보는 절대 틀리면 안 되는가? (환불 정책, 법적 고지사항)


이건 코딩 능력이 아니라 업무 이해와 커뮤니케이션 감각의 문제다. 문과생이 더 잘할 수 있는 영역이다.


데이터 큐레이션 체크리스트


• 1단계: 어떤 업무를 AI 화할 것인가? 고객 상담? 문서 작성? 데이터 분석? 번역?


• 2단계: 어떤 데이터가 필요한가? 텍스트 형태는 무엇인가? FAQ, 상담 기록, 매뉴얼, 보고서, 이메일... 형식은 어떻게 할 것인가? 질문-답변 쌍, 문서 예시, 대화 기록... 양은 얼마나 필요한가? OpenAI는 최소 10개, 권장 50~100개 예시를 제시한다.


• 3단계: 데이터 품질 체크 정확성을 확인한다. 틀린 정보는 없는가? 일관성을 확인한다. 같은 질문에 다른 답변은 없는가? 완전성을 확인한다. 필요한 모든 케이스를 커버하는가? 최신성을 확인한다. 오래된 정책이나 단종된 제품 정보는 제거했는가?


• 4단계: 우선순위 정하기 모든 걸 한 번에 할 수 없다. 우선순위를 정해야 한다. 중요도는? 이 업무가 회사에 얼마나 중요한가? 빈도는? 얼마나 자주 발생하는가? 데이터 확보 가능성은? 지금 당장 데이터를 모을 수 있는가?


실전 예시 시나리오


이해를 돕기 위한 가상의 시나리오를 하나 만들어 보자. 전자제품 회사의 고객센터 챗봇이다.

1단계: 업무 분석
현재 고객센터에 하루 500건의 문의가 들어온다고 가정하자. 이 중 40%는 제품 사양과 가격 문의다. 단순 정보 제공이다. 30%는 AS와 배송 문의다. 정책 안내다. 20%는 사용법 문의다. 매뉴얼을 참조하면 된다. 10%는 복잡한 클레임이다. 상담원이 직접 응대해야 한다.
2단계: 필요한 데이터 식별
제품 정보가 우선순위 1위다. 제품 카탈로그, 각 제품별 설명서, 가격표 최신 버전이 필요하다. 정책 문서가 우선순위 2위다. 보증 기간과 조건, 배송 정책, 환불과 교환 규정이 필요하다. 사용 매뉴얼이 우선순위 3위다. 제품별 사용 가이드, 자주 묻는 질문 (FAQ), 고객 상담 우수 사례가 필요하다.
3단계: 데이터 준비 방법
제품팀에서 최신 문서를 취합한다. CS팀에서 과거 상담 기록을 분석한다. 법무팀에서 정책 문서를 검토한다.

이렇게 기획하는 것이 문과생의 역할이다. 코딩은 나중 문제다.



현실적 한계와 대안


Fine-tuning의 세 가지 장벽


첫 번째, 비용

한국 기업의 AI 프로젝트 평균 비용은 약 3천만 원이다. 평균 기간은 11주(77일)다. 규모별로 보면 소형 프로젝트는 300만 원대, 중형 프로젝트는 3천만 원대, 대형 프로젝트는 1억 원 이상이다. Fine-tuning은 프로젝트 예산의 상당 부분을 차지한다.


두 번째, 전문 인력

국내 기업의 49.8%가 "기술 인력 및 기술력 부족"을 AI 도입 최대 장애물로 꼽았다. 그다음이 적절한 인프라 및 데이터 확보 어려움 (32.0%), 경영진의 지원 및 투자 부족 (21.0%)이다. Fine-tuning을 실제로 실행하고, 결과를 평가하고, 문제를 해결할 수 있는 인력이 부족하다.


세 번째, 유지보수

한 번 Fine-tuning 하면 끝이 아니다. 제품이 바뀌면 재학습이 필요하다. 정책이 바뀌면 재학습이 필요하다. 성능이 떨어지면 재학습이 필요하다. 지속적인 업데이트와 관리가 필요하다. 끊임없는 재학습과 고도화가 필수다.


중소기업에게는 비현실적


결론적으로, Fine-tuning은 대기업에게는 예산과 인력이 있다면 가능하다. 중견기업은 외부 업체 도움을 받으면 가능하다. 하지만 비용 부담이 크다. 중소기업과 개인에게는 사실상 어렵다.


그렇다면 대안은?


여기서 등장하는 것이 바로 'RAG (Retrieval-Augmented Generation, 검색 증강 생성)'이다.


Fine-tuning과 RAG의 차이를 비유하면 이렇다. Fine-tuning은 학생에게 교과서를 통째로 외우게 하기다. RAG는 학생에게 오픈북 시험 보게 하기다.


RAG는 AI에게 직접 학습시키지 않는다. 질문이 들어오면 관련 문서를 검색해서 찾는다. 그 문서를 "참고자료"로 제공한다. AI가 그걸 보고 답변하게 한다. 마치 시험 볼 때 교과서를 옆에 놓고 보는 것과 같다.


RAG의 장점은 명확하다. 더 간단하다. 코딩 및 아키텍처 기술이 필요하지만 Fine-tuning보다 접근 가능하다. 피드백이 빠르다. 문제 발견 시 즉시 수정 가능하다. 최신성을 유지한다. 문서만 업데이트하면 된다. 재학습이 불필요하다. 비용이 효율적이다. Fine-tuning 대비 저렴하다.


다음 주 예고


11주차에서는 이 RAG를 자세히 배울 것이다. RAG가 정확히 어떻게 작동하는지, 어떻게 구축하는지, Fine-tuning과 비교해 어떤 장단점이 있는지, 어떤 상황에서 어떤 방법을 선택해야 하는지 알아본다.

지금 당장 회사에 AI를 도입해야 한다면? 대부분의 경우 RAG로 시작하는 것이 현명하다. Fine-tuning은 그다음 단계다.



Weekly Mission


우리 회사 AI에게 공부시킬 데이터 리스트 만들기


이번 주 미션은 실제로 Fine-tuning을 하는 게 아니라, "만약 한다면 어떤 데이터가 필요할지" 기획해 보는 것입니다.


• 단계 1: 업무 선정

우리 회사/팀에서 AI로 자동화하면 좋을 업무 하나를 고르세요. 예를 들면: 고객 문의 응답, 회의록 작성, 보고서 초안 작성, 이메일 초안 작성


• 단계 2: 필요한 데이터 리스트업

그 업무를 AI가 잘하려면 어떤 데이터를 학습해야 할까요?


템플릿을 활용해 보세요:

[업무]: 예) 고객 문의 1차 응답

[필요한 데이터]
1. 제품 정보
- 제품 카탈로그
- 각 제품 설명서
- 가격표
2. 정책 문서
- 환불/교환 정책
- 배송 정책
- 보증 정책
3. 과거 응대 기록
- FAQ 문서
- 우수 상담 사례

• 단계 3: 우선순위 매기기

모든 데이터를 한 번에 준비할 수 없다면, 무엇부터 시작하겠습니까?

우선순위 1위: (이유: )

우선순위 2위: (이유: )

우선순위 3위: (이유: )

• 단계 4: 데이터 확보 가능성 체크

각 데이터를 실제로 구할 수 있나요?

✅ 지금 바로 가능

⚠️ 담당 부서 협조 필요

❌ 현재 없음 (새로 만들어야 함)


완성하셨나요? 어떤 업무를 선택하셨는지, 어떤 데이터가 필요하다고 생각하시는지 궁금합니다!



기획이 반이다


오늘 우리는 AI 학습의 두 단계를 배웠다. Pre-training은 대학 교육이다. 일반 지식을 배운다. 비용은 수백억에서 수조 원이다. Fine-tuning은 신입사원 연수다. 전문 지식을 배운다. 여전히 고비용이지만 상대적으로 접근 가능하다.


Fine-tuning에서 코딩은 부차적이다. 핵심은 "무엇을 학습시킬지" 기획하는 능력이다. 바로 데이터 큐레이션이다. 박물관 큐레이터가 작품을 선별하고 배치하듯이, 어떤 데이터를 선택하고 어떻게 정리할지 결정하는 것이다. 이건 도메인 지식과 커뮤니케이션 감각을 가진 문과생이 더 잘할 수 있는 영역이다.


하지만 한국 기업의 절반이 "기술 인력 부족"을 호소하고, 평균 AI 프로젝트 비용이 3천만 원인 현실에서 Fine-tuning은 여전히 부담스럽다.


그래서 다음 주에는 더 현실적인 대안을 배운다. RAG (검색 증강 생성). AI에게 "외우게" 하지 말고 "참고"하게 하는 방법이다.


Fine-tuning이 "학생에게 교과서를 통째로 외우게 하기"라면, RAG는 "오픈북 시험"이다. 어떤 방법이 여러분의 회사에 맞을까? 다음 주에 답을 찾아보자.



참고자료

Red Hat - 파인튜닝과 RAG의 차이점

appen 에펜 - 파인튜닝 LLM 구축 방법

ETRI - LLM 기반 헬스케어 AI 연구 동향

Makebot AI - 헬스케어 AI에서 RAG vs 파인튜닝

최윤섭 블로그 - Med-PaLM 2 상세 분석

헤럴드경제 - 루닛 175개 의료기관 파운데이션 모델 공급

나무위키 - 국가대표 AI

요즘IT - 요즘 기업은 AI를 어디에, 얼마나, 어떻게 도입하고 있을까?