A-7 모듈 불량 예측 프로젝트의 성공은 네메시스 내부에 AI에 대한 기대감을 한껏 부풀렸습니다.
송주환 CIO와 AI COE는 이제 조직의 '해결사'로 떠올랐습니다.
R&D 센터에서는 "수만 건의 과거 실험 데이터를 분석해서 신소재 개발 아이디어를 주는 AI"를, 법무팀에서는 "복잡한 계약서의 독소 조항을 찾아주는 AI"를 만들어 달라는 요구가 빗발쳤습니다.
그리고 가장 먼저 제기된 요구는 이것이었습니다.
"수백 페이지에 달하는 사내 규정과 제품 매뉴얼을 학습해서, 직원들의 질문에 즉시 답해주는 챗봇을 만들어주세요!"
ChatGPT가 세상에 등장했을 때, 많은 기업의 리더들은 흥분했습니다.
"우리 회사에도 저런 걸 도입해서 직원들이 뭐든지 물어보면 답해주는 시스템을 만들 수 없을까?"
수십 년간 쌓아온 방대한 내부 문서, 매뉴얼, 규정들을 ChatGPT 같은 AI에게 학습시키기만 하면 전지전능한 사내 전문가가 탄생할 것 같았습니다.
하지만 네메시스도 곧 혹독한 현실의 벽에 부딪혔습니다.
AI COE의 젊은 엔지니어 김태현은 최신 LLM API를 활용해 며칠 만에 그럴듯한 챗봇 프로토타입을 만들어냈습니다. 하지만 테스트 결과는 처참했습니다.
"올해 개정된 출장비 규정이 뭐야?"라고 묻자, 챗봇은 작년 규정을 알려주었습니다.
"A-7 모듈의 기술적 특징을 알려줘"라는 질문에는, 인터넷에 공개된 경쟁사 제품의 사양을 가져와 그럴듯하게 대답하는 '환각' 현상을 보였습니다.
송주환 CIO는 이 프로토타입을 즉시 폐기하며 말했습니다.
"신뢰할 수 없는 AI는 없는 것보다 못합니다."
ChatGPT와 같은 범용 LLM(Large Language Model)을 기업 환경에 그대로 적용하려 할 때, 세 가지 치명적인 한계가 드러났습니다.
1. 환각(Hallucination): 그럴듯한 거짓말
LLM은 질문에 대해 가장 '그럴듯한' 단어의 조합을 확률적으로 생성해내는 방식으로 작동합니다.
이 때문에 학습 데이터에 없는 내용이나 최신 정보에 대해 질문하면, 마치 사실인 것처럼 능숙하게 거짓 정보를 만들어냅니다. 기업 환경에서 신뢰성을 담보할 수 없는 치명적인 결함입니다.
2. 지식 단절(Knowledge Cut-off): 과거에 멈춰있는 정보
LLM은 특정 시점까지의 데이터로 학습됩니다.
따라서 "올해 상반기 우리 회사 실적을 요약해줘" 또는 "최근 개정된 인사 규정에 대해 알려줘"와 같은 질문에는 전혀 답변할 수 없습니다. 끊임없이 변화하는 기업의 최신 정보를 반영하지 못합니다.
3. 내부 정보 접근 불가: 우리 회사에 대한 무지
가장 근본적인 문제입니다.
범용 LLM은 인터넷의 공개된 데이터로 학습되었기 때문에, 기업 내부망에 존재하는 민감한 재무 데이터, 고객 정보, R&D 자료, 내부 규정 등에 대해서는 전혀 알지 못합니다.
기업의 핵심 자산인 내부 데이터를 활용할 수 없다면, '사내 전문가'라는 역할은 애초에 불가능합니다.
이러한 한계를 극복하고 범용 LLM을 '우리 회사 전문가'로 만들기 위한 대표적인 전략은 크게 두 가지입니다.
RAG(검색 증강 생성, Retrieve, Augment, Generate)의 개념은 똑똑하지만 우리 회사에 대해서는 아무것도 모르는 외부 전문가(범용 LLM)에게 '오픈북 시험'을 보게 하는 것과 같습니다.
시험 범위는 우리 회사 내부 문서로 한정하고, "이 참고 자료 안에서만 답안을 작성해!"라고 지시하는 방식입니다. 모델 자체를 바꾸지는 않지만, 답변의 근거를 신뢰할 수 있는 내부 데이터로 제한하여 정확도를 높입니다.
RAG의 작동 원리 (4단계)
- 데이터 준비: 사내 문서(PDF, Word, PPT 등)를 AI가 이해할 수 있는 작은 조각으로 나누고, 각 조각을 숫자의 배열(벡터)로 변환하여 특수한 데이터베이스에 저장합니다.
- 검색: 사용자가 질문을 하면, 시스템은 이 질문도 벡터로 변환한 뒤 데이터베이스에서 의미적으로 가장 유사한 문서 조각들을 찾아냅니다.
- 증강: 찾아낸 문서 조각들의 핵심 내용을 원래 질문과 함께 하나의 패키지로 재구성합니다.
- 생성: 이 증강된 정보가 LLM에게 전달되고, LLM은 주어진 참고 자료를 바탕으로 신뢰할 수 있는 답변을 생성합니다.
실제 사례: 글로벌 투자은행 Morgan Stanley는 자사의 방대한 투자 분석 보고서를 내부 지식 베이스로 구축하고, OpenAI의 GPT-4 모델을 RAG 방식으로 연동했습니다.
이를 통해 수만 명의 자산 관리사들이 고객의 질문에 대해 최신의, 그리고 Morgan Stanley의 공식적인 분석에 기반한 답변을 실시간으로 생성하여 제공할 수 있게 되었습니다.
파인튜닝(Fine-tuning)은 범용 LLM에게 우리 회사 데이터로 '추가 학습'을 시키는, 마치 '족집게 과외'와 같은 방식입니다.
이 과정을 통해 모델은 우리 회사만의 고유한 용어, 말투, 제품 지식, 비즈니스 논리 등을 내재화하여 진정한 '사내 전문가'로 거듭납니다.
특히, 오픈소스 소형 언어 모델을 기반으로 파인튜닝하면, 모든 데이터를 외부로 보내지 않고 사내 인프라 안에서 우리 회사만의 특화된 AI를 구축할 수 있다는 장점이 있습니다.
실제 사례: 금융 정보 기업 블룸버그(Bloomberg)는 지난 40년간 축적한 방대한 양의 금융 뉴스, 보고서, 재무 데이터 등을 활용하여 'BloombergGPT'를 개발했습니다. 이는 범용 LLM을 금융이라는 특정 도메인에 맞춰 파인튜닝한 대표적인 사례입니다.
그 결과 BloombergGPT는 금융 용어의 뉘앙스를 이해하고, 재무 보고서를 분석하며, 시장의 감성을 파악하는 등 금융 관련 작업에서 범용 모델을 압도하는 성능을 보여주었습니다.
이 두 가지 전략은 상호 배타적이지 않습니다.
많은 기업들이 초기에는 RAG를 통해 빠르고 비용 효율적으로 생성형 AI를 도입하여 '빠른 성공'을 경험하고, 이후 특정 핵심 업무에 대해서는 파인튜닝을 통해 고도화된 모델을 구축하는 하이브리드 전략을 채택합니다.
송주환 CIO는 "범용 LLM의 한계를 명확히 인지하고, 이를 극복하기 위한 RAG 아키텍처를 도입해야 합니다"라며 AI COE에 RAG 기반의 사내 챗봇 개발 프로젝트를 공식화했습니다.
하지만 조직 내부에서는 미묘한 기류가 감지되기 시작했습니다.
기술팀과 법무팀 직원들이 모인 자리에서 한 직원이 넌지시 말했습니다.
"이제 AI가 계약서 검토까지 다 해주면, 우린 뭘 해야 하죠?"
마케팅팀에서도 비슷한 목소리가 나왔습니다.
"AI가 광고 카피도 다 써준다던데, 이제 카피라이터는 필요 없는 거 아닌가?"
첫 파일럿 프로젝트의 성공으로 "AI가 과연 효과가 있을까?"라는 기술에 대한 막연한 '불신'은 상당 부분 해소되었습니다.
하지만 생성형 AI의 등장은 조직에 완전히 다른 종류의 저항을 불러일으켰습니다. 그것은 바로 "AI 때문에 내 전문성이, 내 일자리가 위협받는 것은 아닐까?"라는, 훨씬 더 근본적이고 개인적인 '두려움'이었습니다.
예측 AI가 생산 라인의 불량률을 예측하거나 고객 이탈 가능성을 분석하는 등 주로 특정 전문가의 판단을 돕는 '조력자(Assistant)' 역할을 수행하는 반면, 생성형 AI는 보고서 초안을 작성하고 회의록을 요약하며 마케팅 문구를 생성하는 등 기존에 지식 노동자들이 직접 수행하던 업무를 '대행자(Agent)'로서 처리합니다.
"내가 몇 시간 걸려 하던 보고서 작성을 AI가 1분 만에 해낸다면, 나의 가치는 무엇인가?"
이 두려움은 과거처럼 공개적인 반대로 나타나지 않았습니다.
대신 직원들이 회사의 공식 AI 툴을 의도적으로 사용하지 않거나, AI가 만든 결과물에서 사소한 흠을 찾아내며 그 가치를 깎아내리는 등, 눈에 잘 띄지 않지만 완강한 '조용한 저항'의 형태로 조직 내에 퍼져나가기 시작했습니다.
송주환의 역발상: 'AI 아이디어 경진대회'
이러한 분위기를 감지한 송주환 CIO는 정면 돌파를 선택했습니다.
그는 기술 개발 프로젝트를 잠시 멈추고, 대신 전 직원을 대상으로 한 '제1회 네메시스 AI 아이디어 경진대회'를 개최했습니다.
"AI 기술을 개발하는 대회가 아닙니다. 여러분의 업무를 가장 귀찮게 만드는, 반복적이고 지루한 작업을 AI에게 대신 시킬 아이디어를 제안해 주십시오. 1등 아이디어는 AI COE가 즉시 실제 작동하는 툴로 만들어 드립니다!"
처음에는 반신반의하던 직원들도 '내 업무를 편하게 만들 기회'라는 말에 하나둘씩 아이디어를 내기 시작했습니다.
재무팀: "매월 수십 개 지점에서 올라오는 엑셀 형식의 판매 보고서를 취합하고, 오류를 검증해서 통합 보고서를 만드는 작업을 자동화해주세요."
영업팀: "고객 문의 이메일 유형을 자동으로 분류하고, 간단한 답변은 AI가 초안을 작성해주면 좋겠습니다."
인사팀: "수백 명의 이력서를 받으면, 우리 회사가 찾는 핵심 역량과 가장 부합하는 후보자를 순서대로 추천해주는 기능이 필요합니다."
경진대회는 예상보다 훨씬 뜨거웠습니다.
직원들은 AI를 자신의 일자리를 위협하는 '경쟁자'가 아닌, 지루하고 반복적인 업무를 대신해주는 '유능한 조수'로 바라보기 시작했습니다.
최우수 아이디어로 선정된 재무팀의 '보고서 자동 취합 툴'은 AI COE에 의해 2주 만에 실제 작동하는 프로토타입으로 개발되어 재무팀에 배포되었습니다.
매주 금요일 오후 내내 보고서 취합에 매달려야 했던 직원들은 단 5분 만에 작업을 끝내고, 남는 시간에 더 중요한 분석 업무에 집중할 수 있게 되었습니다.
이 작은 성공 사례는 입소문을 타고 전사로 퍼져나갔습니다.
"AI로 뭐 제대로 하겠어?"라던 냉소는 "우리 팀 문제도 AI로 해결할 수 없을까?"라는 기대로 바뀌었습니다.
AI를 '대체자'가 아닌 '협업 도구'로 바라보고, 인간은 더 창의적이고 전략적인 일에 집중해야 한다는, 그토록 중요했던 관점의 전환이 일어나기 시작한 것입니다.
송주환 CIO는 직원들의 두려움을 억누르는 대신, 그들이 직접 AI의 효용을 체감하게 함으로써 조직의 저항을 혁신을 위한 가장 강력한 동력으로 바꾸는 데 성공했습니다.
하지만 송주환의 고민은 여기서 끝나지 않았습니다.
경진대회의 성공으로 전 부서로부터 "우리 팀만의 업무 자동화 툴을 만들어달라"는 요청이 쏟아지면서, AI COE는 새로운 병목 현상에 직면하게 되었습니다.
"모든 팀의 요구를 하나하나 맞춤형으로 개발해줄 수는 없어. 우리는... 다른 접근이 필요해."
다음 화에서는 송주환이 "물고기를 잡아주는 것이 아니라, 모든 직원에게 'AI라는 낚싯대'를 쥐여주어야 한다"는 깨달음 아래, Microsoft 365 Copilot을 전사적으로 도입하여 진정한 업무 혁신을 이루어내는 과정을 따라가 보겠습니다.