데이터가 경쟁력을 결정하는 시대

GenAI를 위한 데이터 관리 전략

Nov 26. 2025

JP Morgan Chase의 CEO Jamie Dimon은 2024년 주주 서한에서 "데이터는 최고의 전략적 자산"이라고 단언했습니다. 그는 AI와 데이터를 기술 조직에서 분리하여 경영진 테이블로 끌어올렸고, AI 연구 책임자가 모든 경영 회의에 참석하도록 했습니다. 이는 단순한 조직 개편이 아니라, 데이터가 더 이상 IT 부서의 업무가 아닌 비즈니스 성장의 핵심 동력임을 선언한 것입니다. 생성형 AI 도입이 가속화되면서 데이터 품질과 관리 체계는 기업의 AI 성과를 가르는 결정적 변수가 되었습니다. McKinsey의 2024년 글로벌 AI 설문조사에 따르면, 현재 65%의 기업이 생성형 AI를 정기적으로 사용하고 있지만, 단 5.2%만이 EBIT의 10% 이상을 생성형 AI로부터 창출하고 있습니다. 이 격차의 핵심에는 데이터 준비 수준의 차이가 있습니다.

국내 기업이 직면한 데이터 현실

국내 기업들도 세계적 추세에 뒤지지 않게 AI 도입을 빠르게 추진하고 있습니다. 삼성SDS에서 실시한 설문에 따르면 국내 기업 10곳 중 7곳(68%)이 이미 AI 기술을 도입했거나 파일럿 프로젝트를 진행 중이며, 도입 검토중인 기업까지 합하면 92%가 AI 활용 계획을 가지고 있습니다. 이는 글로벌 기업의 생성형 AI도입률 71%와 근접한 수준입니다.

▷ 국내 기업용 GenAI 도입 현황

출처: 2025 GenAI Market Awareness Perceptions, 삼성SDS, 2025.10.15

그러나 생성형 AI 도입을 검토하는 과정에서 데이터 관련 난관과 우려가 두드러진다는 점도 확인됩니다. 국내 기업들을 대상으로 실시한 생성형 AI 관련 설문조사 및 FGD(Focus Group Discussion, 포커스 그룹 토론) 결과는 데이터 관리의 어려움을 명확히 드러냅니다.

응답 기업들이 주로 보유한 데이터 유형을 살펴보면 테이블 데이터가 62%로 가장 높았고, 텍스트 데이터 44%, 이미지 데이터 29%, 시계열 및 로그 데이터 23%, 범주형 데이터 19% 순으로 나타났습니다. 특히 주목할 점은 테이블과 텍스트 데이터 비중이 높을수록 생성형 AI의 전사적 도입 비율도 높다는 상관관계가 확인되었다는 것입니다. 이는 구조화된 데이터와 텍스트 데이터가 생성형 AI 활용의 핵심 자산임을 시사합니다.

▷ 주 보유 데이터 유형

출처: 2025 GenAI Market Awareness Perceptions, 삼성SDS, 2025.10.15

하지만 데이터 보유만으로는 충분하지 않습니다. 국내 기업들이 경험하는 주요 Pain Point를 보면, 내부 데이터 유출 리스크 우려가 38%로 가장 높았고, 내부 데이터 활용 정책 및 기준 부재가 34%, 데이터 품질 확보의 어려움이 31%로 나타났습니다.

이러한 어려움은 현장의 목소리에서도 나타납니다. FGD에 참여한 기업 관리자들은 생성형 AI를 도입하려 해도 “정형·비정형을 막론하고 사내 데이터가 표준화되어 있지 않고 여기저기 흩어져 있어 통합에 애를 먹는다”, “AI에 넣기 전에 데이터 정제가 너무 많은 시간과 노력이 든다”는 등의 현실적인 고민을 공유했습니다. 무엇보다도 “혹시 직원들이 챗GPT 등에 중요한 내부 자료를 넣어버려 기밀이 유출되지 않을까” 하는 보안 우려가 큰데, 실제로 글로벌 조사에서 기업 직원들이 생성형 AI 툴에 붙여넣는 내용 중 11%가 민감 정보이며 이러한 데이터 유출 사고가 매주 수백 건씩 발생한다는 경고도 있습니다. 한 전문가는 직원들이 웹 브라우저에 데이터를 복사해 넣는 경우 기존 보안 솔루션으로는 추적이 어렵기에 내부 가이드라인 제정과 교육이 시급하다고 조언했습니다. 실제로 삼성전자는 2023년 4월 반도체 사업부 엔지니어가 소스 코드를 ChatGPT에 업로드했다가 민감 정보가 외부 서버에 저장되는 사고를 겪은 후, 곧바로 임직원의 ChatGPT 등 생성형 AI 사용을 전면 금지하고 사내 보안 대책 마련 전까지 AI 활용을 제한하는 조치를 내린 바 있습니다. 이처럼 내부 정보 유출 위험, 데이터 표준화·통합 미비, 전처리 부담은 현장에서 공통으로 거론되는 생성형 AI 도입 난제입니다.

이러한 과제들은 비단 국내만의 문제가 아닙니다. Gartner가 2024년 3분기에 248명의 데이터 관리 리더를 대상으로 실시한 조사에 따르면, 63%의 조직이 AI를 위한 적절한 데이터 관리 관행이 부족하다고 답했으며, Gartner는 2026년까지 AI 준비 데이터가 지원되지 않는 AI 프로젝트의 60%가 포기될 것으로 예측했습니다.

하지만 이러한 난관에도 불구하고, 많은 기업들은 “데이터만 확보된다면 성과는 따라온다”는 믿음으로 생성형 AI 실험을 이어가고 있습니다. 실제 국내 기업 대상 심층조사에서 “생성형 AI 도입 성패를 가르는 진짜 요인은 기술이나 인력보다 데이터 확보와 경영진 의지”라는 결과가 나왔으며, 특히 고품질 데이터에 투자하고 데이터를 자산화한 기업일수록 생산성 등 효과를 크게 보았다는 분석이 제시되었습니다. 요컨대 생성형 AI의 성과는 알고리즘 자체보다 데이터를 얼마나 잘 관리하고 활용하는가에 달려있다는 인사이트가 현장에서 공감대를 얻고 있습니다.

JP Morgan Chase사례: 데이터를 핵심 전략 자산으로

JP Morgan Chase는 매일 1 엑사바이트 이상의 데이터를 처리하며, 150 페타바이트 이상을 저장하고 있습니다. 이 규모를 이해하기 위해서는 비교가 필요합니다. GPT-4는 약 0.5 페타바이트의 데이터로 학습되었는데, JP Morgan은 그보다 300배 이상 많은 데이터를 보유하고 있습니다.

그러나 JP Morgan의 진정한 차별화 요소는 데이터의 양이 아니라 그것을 전략적으로 관리하고 활용하는 방식에 있습니다.

2023년 6월, JP Morgan은 35년 경력의 내부 인사인 Teresa Heitsenrether를 최고 데이터 및 분석 책임자로 임명하고, 이 역할을 최초로 운영위원회 수준으로 격상시켰습니다. 그녀는 CEO와 COO에게 직접 보고하며, 전사 데이터 및 분석 전략과 거버넌스 기준을 수립하고, 인공지능의 전사적 도입을 주도하는 책임을 맡고 있습니다. Jamie Dimon은 2024년 주주 서한에서 "이 새로운 역할을 운영위원회 수준으로 격상시킨 것은 이 기능이 앞으로 얼마나 중요할지, 그리고 AI가 우리 비즈니스에 얼마나 심각하게 영향을 미칠 것으로 예상하는지를 반영합니다"라고 설명했습니다.

JP Morgan의 전사 최고 데이터 책임자인 Mark Birkhead 는 McKinsey와의 2025년 5월 인터뷰에서 데이터 전략의 핵심을 다음과 같이 설명했습니다. "우리의 데이터 전략은 모든 유형의 데이터 자산을 최선의 방법으로 제공하고, 발견 가능하고, 매우 정확하며, 높은 수준으로 거버넌스되고 통제되는 방식으로 큐레이션하는 데 중점을 둡니다. 마지막 부분은 은행으로서 매우 중요합니다. 고객들은 우리가 그들의 정보를 비공개로 유지할 것이라고 믿기 때문입니다." 그는 또한 현재 진행 중인 다년간의 노력으로 "데이터 수정과 관련하여 사람을 순환 과정에서 제거하는 것"을 목표로 하고 있다고 밝혔습니다. 이는 AI가 이해할 수 있는 형식으로 데이터를 게시하고, LLM이 데이터를 소비할 수 있도록 일관된 형식으로 제공하는 것을 의미합니다.

2024년 여름, JP Morgan은 20만 명의 직원에게 LLM Suite를 배포했으며, 이는 8개월 만에 달성한 성과입니다. 현재 생산 환경에서 600개 이상의 AI 사용 사례가 운영되고 있으며, 이 숫자는 매년 두 배로 증가할 것으로 예상됩니다. 2025년 연간 기술 예산은 180억 달러이며, 이 중 20억 달러가 AI 이니셔티브에 집중되고 있습니다. Jamie Dimon은 "데이터가 가장 어려운 부분입니다. AI나 머신러닝이 아닙니다. 사용 가능한 형태로 데이터를 준비하는 것이 어려운 부분입니다." 라며 데이터를 강조합니다.

국내 사례: 고유 데이터 자산이 경쟁력의 원천

국내에서도 데이터의 힘을 잘 보여주는 사례들이 속속 나타나고 있습니다.

LG전자는 제품 기획·개발 담당 직원들이 복잡한 SQL을 몰라도 수백 테라바이트의 사내 데이터를 분석할 수 있도록, 자연어 질문을 자동으로 SQL 쿼리로 변환해주는 사내 생성형 AI 시스템을 구축했습니다. 이를 통해 현업 부서 스스로 데이터에서 인사이트를 얻고 제품 전략에 반영하는 데이터 민주화를 실현하고 있으며, 결국 축적된 사내 데이터의 가치 극대화로 이어지고 있습니다.

제조업의 포스코홀딩스는 전 세계 2차전지 시장 관련 뉴스를 거의 실시간으로 크롤링·요약하고 전문 용어까지 정확히 이해하는 고성능 RAG(Retrieval-Augmented Generation) 시스템을 구축했습니다. 이를 통해 급변하는 배터리 산업 정보를 발빠르게 파악하여 전략을 수립하고, 추천 시스템과 연계해 임직원에게 맞춤 이슈를 제시하는 등 데이터 활용도를 높였습니다.

금융권에서는 한국은행이 정부 보안 지침을 준수하기 위해 자체 한국어 대형언어모델(LLM)을 내부에서 직접 개발하여 활용한 사례가 소개됩니다. 고객 정보를 다루는 금융 데이터의 민감성을 고려해 외부 공개 모델에 의존하지 않고 자체 모델을 훈련시킨 것으로, 데이터 주권과 보안을 지키면서도 AI 혁신을 추진한 모범으로 평가됩니다.

이외에도 유통 분야의 스타벅스 코리아는 AI 기반 지식 검색에 Serverless NoSQL 데이터베이스를 결합해 매장 직원들이 고객 문의에 신속히 답할 수 있도록 하고, 공공 부문의 국회도서관은 온프레미스 설치형 한국어 특화 LLM과 기존 빅데이터 검색 시스템을 통합해 방대한 의정자료를 효율적으로 탐색하는 실험을 진행했습니다.

이처럼 각 산업별 기업들이 자사 데이터 특성에 최적화된 생성형 AI 활용 전략을 모색한 결과, 제조 분야는 공정 데이터 분석과 기술 동향 파악, 금융 분야는 내부 데이터 보호와 모델 내재화, 유통 분야는 고객 응대 지식 관리, 공공 분야는 한국어 맞춤형 AI 활용 등 각기 다른 강점을 발휘하고 있습니다. 이러한 사례는 “결국 데이터가 답이다”라는 메시지를 방증합니다. 다시 말해 남들과 똑같은 AI 모델이라도 누가 더 풍부하고 신뢰할 수 있는 데이터로 AI를 뒷받침하느냐가 성패를 가른다는 것입니다.

의도를 이해하는 분석: Vibe Analytics의 등장

MIT Sloan 경영대학원 디지털 경제 이니셔티브의 연구원인 Michael Schrage는 2025년 7월 24일 MIT Sloan Management Review에 발표한 논문에서 "Vibe Analytics"라는 새로운 개념을 제시했습니다. 그는 "Vibe Coding이 프로그래밍에 대해 한 것을 Vibe Analytics가 데이터에 대해 수행한다"고 설명합니다. Vibe Analytics는 구조화된 데이터 또는 비구조화된 데이터와 함께 "Vibe"하면서 레거시 분석이나 데이터 과학이 생성할 가능성이 낮은 경험적 통찰력을 생성할 수 있습니다. 마치 Vibe Coding이 프로그래밍을 구문에서 의도로 전환하는 것처럼, Vibe Analytics는 데이터 쿼리를 대화로, 대시보드를 즉흥 세션으로 전환합니다.

전통적인 데이터 분석은 다음과 같은 프로세스를 따릅니다. 질문을 정의하고, 쿼리를 구조화하고, 모델을 실행하고, 결과를 시각화합니다. Vibe Analytics는 생성형 AI 도구를 사용하여 이 체인을 즉흥적인 대화로 압축합니다. 데이터 과학자가 통찰력을 생성하기를 기다리는 대신, 리더들은 대화를 통해 데이터 세트와 직접 소통할 수 있으며 빠르게 통찰력을 얻을 수 있습니다. Michael Schrage는 역사적 진화를 명확하게 설명합니다. Excel 스프레드시트 시대에는 "무슨 일이 일어났나?"라고 물었고, 대시보드 시대에는 "왜 일어났나?"라고 물었으며, Vibe 시대에는 "함께 탐색하면 무엇이 나타날까?"라고 묻습니다.

Vibe Analytics의 핵심은 “의도의 이해”에 있습니다. 전통적인 분석은 요청된 수치만 정확하게 제공합니다. Vibe Analytics 환경에서는 임원이 “지난 분기 우리 온라인 판매가 급증한 원인이 무엇인가요?”라고 물으면, AI가 관련 데이터를 즉석에서 분석해 원인 후보를 제시하고 추가 탐색을 제안하는 식입니다. 이런 즉흥적이고도 대화형인 데이터 탐색(jam session)을 통해, 사용자는 예측하지 못했던 새로운 패턴이나 이상치를 발견하기도 하고 AI와 일종의 토론을 거치며 더 나은 질문을 정제하기도 합니다. 이는 그동안 데이터 분석의 가장 어려운 부분이었던 “올바른 질문 찾기”를 지원함으로써, 조직의 문제 해결력을 높일 잠재력을 지니고 있습니다. 실제로 데이터 분석 전문가들은 “분석의 성패는 답을 구하는 데 있지 않고 질문을 제대로 설정하는 데 있다”고 지적해왔는데, Vibe Analytics는 비전문가도 데이터와 대화하며 문제를 재정의할 수 있게 해주는 셈입니다.

출처: REAL Summit 2025, 삼성SDS

Vibe Analytics의 도래는 조직 문화와 인력 역할에도 변화를 가져옵니다. 이 접근법에서는 분석 작업의 진입장벽이 크게 낮아져 “모두가 잠재적 데이터 분석가”가 됩니다. 복잡한 대시보드나 SQL 쿼리 없이도 대화로 필요한 인사이트를 얻을 수 있으니, 현업 부서의 데이터 활용도가 비약적으로 높아집니다. 정리하자면, Vibe Analytics는 의도 기반의 데이터 인터페이스를 통해 사람과 AI가 실시간으로 협업하는 새로운 분석 패러다임이며, 이는 기업 내 데이터 문화의 민주화와 신속한 인사이트 획득으로 이어져 궁극적으로 더 나은 비즈니스 의사결정을 지원하게 될 것입니다.

실제 사례로, Whataburger는 2024년 Dataiku의 GenAI 플랫폼을 배포하여 1,000개 이상의 매장에서 매주 생성되는 10,000개 이상의 온라인 리뷰를 분석했습니다. 총 1,500만 개가 넘는 리뷰 corpus를 LLM 기반 주제 발견과 감정 분류로 처리한 결과, 주제 발견은 거의 두 배로 증가했습니다. 이전의 144,000개에서 280,000개의 리뷰 주제로 94% 증가했으며, 감정 분석 정확도에서 모델 성능이 두 배로 향상되었습니다. 더 중요한 것은 기술적 기술이 없는 비즈니스 사용자가 노코드 분석 인터페이스를 통해 직접 분석을 수행할 수 있게 되어 데이터 접근이 민주화되었다는 점입니다.

Agentic Data Platform: Agent 중심 Data Platform의 부상

생성형 AI 시대에 기업 데이터 플랫폼도 진화하고 있습니다. 특히 주목받는 개념이 “Agentic Data Platform”으로, 이는 자율 에이전트(Agent)들이 데이터를 활용해 작업을 수행할 수 있도록 설계된 차세대 데이터 플랫폼을 의미합니다. 기존의 데이터 플랫폼이 사람이 데이터를 조회·분석하기 좋게 구축된 것이라면, Agentic Data Platform은 AI 에이전트가 데이터를 이해하고 액션을 취하기 좋게 만들어진 환경이라고 볼 수 있습니다.

이 개념의 핵심 요소는 Semantic Layer, Message Hub, 그리고 Agent Governance 입니다.

출처: REAL Summit 2025, 삼성SDS

1) Semantic Layer란 데이터의 의미와 맥락 정보를 구조화하여 제공하는 층으로, AI 에이전트가 데이터를 정확히 해석하고 활용할 수 있도록 돕습니다. 예를 들어 특정 데이터베이스의 테이블과 칼럼들이 무엇을 뜻하는지, 어떤 비즈니스 규칙이 적용되는지를 사람이 일일이 설명해주지 않아도, Semantic Layer에 정의된 메타데이터와 스키마 정보를 통해 에이전트가 도메인지식을 자동으로 획득합니다. 한마디로 데이터에 대한 “사전(dictionary)”을 AI에게 제공해주는 역할입니다. 이를 통해 AI 에이전트는 데이터베이스에 질의를 보낼 때 테이블/필드 이름을 추측해 틀리는 일 없이, 인간 전문가처럼 데이터 구조를 이해하고 올바른 질문을 구성할 수 있습니다.

2) 원활한 커뮤니케이션을 위한 Message Hub는 크게 MCP와 A2A가 있습니다. MCP(Model Context Protocol)는 여러 AI 에이전트와 데이터 시스템 간의 원활하고 안전한 상호작용을 지원하는 표준화된 통신 인터페이스입니다. 쉽게 말해, AI 에이전트가 데이터베이스나 다른 툴과 대화할 때 지켜야 할 약속(protoocol)을 정의한 것으로, 일종의 허브를 통해 메시지를 주고받게 합니다. MCP는 AI 애플리케이션을 외부 시스템 데이터 소스, 도구, 워크플로에 연결하기 위한 오픈 소스 표준입니다. Anthropic이 2024년 11월에 도입한 MCP는 "AI 애플리케이션을 위한 USB-C"로 비유됩니다. AI 시스템이 필요한 데이터와 도구에 연결하는 표준화된 방법입니다.

▷ MCP 개념도

출처: What is Model Context Protocol(MCP), GitHub

OpenAI는 2025년 3월 ChatGPT, Agents SDK, Responses API에 MCP를 공식 채택했고, Google DeepMind도 2025년 4월 Gemini 모델에 MCP 지원을 확인했습니다.

IBM의 2025년 보고서 "What is Model Context Protocol"에 따르면, MCP는 각 데이터 소스가 각 AI 시스템에 대해 사용자 지정 커넥터를 필요로 하는 "n×m 통합 문제"를 대체합니다. MCP를 사용하면 각 특정 통합이 아닌 프로토콜에 대해 한 번만 구축하면 됩니다.

Agent-to-Agent, 즉 A2A는 AI 에이전트가 서로 통신하고, 안전하게 정보를 교환하고, 다양한 플랫폼과 프레임워크에 걸쳐 작업을 조율할 수 있게 하는 오픈 프로토콜입니다.

Google Developers Blog가 2025년 4월에 발표한 "Announcing the Agent2Agent Protocol"에 따르면, MCP가 에이전트를 도구와 데이터에 연결하는 반면, A2A는 에이전트를 다른 에이전트에 연결합니다.

▷ A2A vs. MCP

출처: A2A Protocol Deep Dive: How AI Agents Collaborate Seamlessly, Medium

A2A는 2025년 4월 출시 당시 Atlassian, Box, Cohere, Intuit, MongoDB, PayPal, Salesforce, SAP, ServiceNow, Workday를 포함한 50개 이상의 기술 파트너와 Accenture, BCG, Deloitte, McKinsey, PwC 등 주요 컨설팅 회사의 지원을 받았습니다. 2025년 6월 23일, A2A는 중립적인 오픈 소스 프로젝트로 Linux Foundation에 호스팅되었습니다.

3) “신뢰Trust”를 위한 데이터 및 에이전트 거버넌스는 자율적으로 동작하는 AI 에이전트들의 행동에 규칙과 통제를 부여하는 체계를 말합니다. 전통적인 거버넌스는 중요한 결정에 인간이 개입할 것을 가정했지만, Agentic AI는 자율적으로 작동하므로 다섯 가지 새로운 문제가 발생합니다. ① 에이전트가 지속적인 인간 감독 없이 결정을 내립니다. ② LLM 기반 에이전트가 어떻게 결론에 도달하는지 이해하기 어려운 블랙박스 복잡성이 있습니다. ③ 에이전트가 시스템, 클라우드, 조직 경계를 넘어 작동하는 분산 운영입니다. ④ 에이전트가 학습하고 적응하여 행동이 덜 예측 가능한 동적 행동입니다. ⑤ 단일 에이전트 오류가 상호 연결된 시스템 전체에 전파될 수 있는 연쇄 오류입니다.

기업 입장에서는 AI 에이전트들이 데이터를 조회하거나 업데이트하는 과정에서 보안, 프라이버시, 컴플라이언스 규정을 준수하도록 관리하는 것이 중요합니다. 예를 들어 어떤 데이터는 특정 등급 이상의 직원만 접근 가능하다는 권한 정책이나, 개인식별정보는 마스킹 처리 후 제공되어야 한다는 프라이버시 정책 등을 AI 에이전트의 활동에 실시간으로 적용해야 합니다. 에이전트 거버넌스는 이러한 정책을 중앙에서 설정하고, 에이전트들이 데이터를 요청하거나 조작할 때 해당 정책이 자동으로 이행되도록 하는 관리 프로세스와 도구를 포함합니다. 이를 통해 AI 에이전트 활용이 늘어나더라도 데이터 거버넌스의 원칙(접근, 보존, 분류, 품질 등)이 흔들리지 않게 만드는 것이 기업의 책무이기도 합니다.

IAPP가 2025년 발표한 "AI Governance in the Agentic Era" 보고서는 위험 기반 가드레일 프레임워크를 제안합니다. 경미한 가드레일은 정보 제공용 저영향 에이전트를 위한 것으로 모니터링만 수행합니다. 중간 가드레일은 비즈니스 크리티컬 에이전트를 위한 것으로 주요 조치에 대한 인간 승인을 요구합니다. 강력한 거버넌스는 미션 크리티컬 시스템을 위한 것으로 인간-인-더-루프와 광범위한 감사를 수행합니다. 핵심 도구로는 실시간 모니터링 및 경고, 인간-인-더-루프 개입 지점, 사용 사례별 맞춤형 성능 임계값, 자동화된 정책 시행이 있습니다.

Salesforce의 2025년 보고서 "Data Governance for Agentic AI"는 데이터가 다양한 거버넌스 정책을 가진 사일로에 걸쳐 존재한다는 과제를 지적합니다. Agentic 시스템은 컴플라이언스를 유지하면서 데이터 유동성이 필요합니다. 솔루션 프레임워크는 네 가지 요소로 구성됩니다. 첫째, 통합 분류로 모든 데이터구조화 및 비구조화를 GDPR, CCPA, 품질 기준에 따라 태그 지정하고 분류합니다. 둘째, 정책 기반 액세스로 인간과 AI 에이전트 모두에게 액세스, 마스킹, 데이터 목적, 개인정보 보호에 대한 통일된 정책을 적용합니다. 셋째, 역할 기반 권한으로 에이전트가 기능과 해당 역할에 따라 액세스를 받습니다. 넷째, 비구조화 데이터 거버넌스로 컴플라이언스 메타데이터를 사용하여 문서, PDF, 비디오를 자동으로 태그 지정합니다.

McKinsey의 2024년 글로벌 설문조사에 따르면, 단 18%의 조직만이 책임 있는 AI 거버넌스와 관련된 결정을 내릴 권한이 있는 전사적 위원회를 보유하고 있습니다.

Gartner는 2027년까지 데이터 및 분석 거버넌스 이니셔티브의 80%가 실제 또는 만들어진 위기의 부족으로 실패할 것으로 예측했습니다. 반면 긍정적인 예측도 있습니다. Gartner는 2027년까지 GenAI가 데이터 및 분석 거버넌스와 마스터 데이터 관리 프로그램의 가치 실현 시간을 40% 단축할 것으로 예측했습니다. 또한 2027년까지 CDAO의 절반 이상이 데이터 리터러시 및 AI 리터러시 프로그램을 위한 자금을 확보할 것으로 예측했습니다.

데이터 플랫폼 기업들은 앞다투어 Agentic Data Platform을 내놓고 있습니다.

Databricks는 2025년 6월 11일 "Agent Bricks"를 출시했습니다. 이는 평가와 튜닝을 자동으로 처리하는 자동 최적화 에이전트입니다. 사용자가 자연어로 작업을 설명하면, Agent Bricks는 작업별 평가와 LLM Judge를 자동으로 생성하고, 고객 데이터와 유사한 합성 데이터를 생성하여 학습을 보완하며, 최적화 기술을 검색하여 에이전트를 개선합니다.
AstraZeneca의 데이터 및 AI 책임자인 조셉 로머는 "Agent Bricks를 사용하여 우리 팀은 400,000개 이상의 임상 시험 문서를 파싱하고 구조화된 데이터 포인트를 추출했습니다. 코드를 작성하지 않고요. 60분 이내에 분석을 위해 복잡한 비구조화 데이터를 변환하는 작동하는 에이전트를 확보했습니다"라고 말했습니다.

Snowflake는 2025년 2월 12일 Cortex Agents를 공개 프리뷰로 출시했고, 2025년 6월 3일 Snowflake Intelligence를 발표했습니다. Snowflake Intelligence는 SQL이 필요 없이 기업 데이터를 쿼리하기 위한 자연어 인터페이스입니다. 구조화된 데이터베이스와 비구조화된 문서PowerPoint, PDF, 스프레드시트를 처리하며, "지능형 데이터 에이전트"가 문서 인텔리전스를 처리합니다.
Snowflake는 현재 주간 6,100개 이상의 계정이 Snowflake AI 제품을 사용하고 있으며, 5,200개 이상의 고객이 Cortex AI 플랫폼을 사용하고 있다고 보고했습니다. 여기에는 BlackRock, WHOOP, Luminate, Penske Logistics 같은 기업들이 포함됩니다.

데이터 품질과 보안: 피할 수 없는 과제

생성형 AI 시대의 데이터 품질 과제는 더욱 심각해졌습니다. McKinsey의 2024년 설문조사에 따르면 70%의 GenAI 고성과 기업조차도 데이터 관련 어려움을 보고했습니다. 여기에는 데이터 거버넌스 프로세스 정의, AI 모델에 데이터를 신속하게 통합, 불충분한 학습 데이터가 포함됩니다. TechTarget Enterprise Strategy Group이 2024년 6월에 실시한 조사에 따르면, 단 46%의 조직만이 의사 결정을 위해 최종 사용자에게 제공되는 데이터 정확성에 대해 중간 수준의 신뢰를 가지고 있습니다. 더 우려스러운 것은 DATAVERSITY의 2025년 보고서에 따르면 67%의 조직이 의사 결정을 위한 데이터를 신뢰하지 않는다고 답했으며, 이는 2023년의 55%에서 증가한 수치입니다.

BCG의 2024년 보고서 "The Solution to Data Management's GenAI Problem? More GenAI"는 흥미로운 역설을 제시합니다. GenAI는 방대한 양의 비구조화된 데이터텍스트, 비디오, 오디오, 심지어 프로그래밍 코드로부터 학습합니다. 그러나 이러한 종류의 자료를 분류하거나 평가한 경험을 가진 회사는 거의 없습니다. 기업 전체 데이터의 80% 이상이 비구조화되어 있지만, McKinsey의 2024년 5월 보고서에 따르면 GenAI 고성과 기업의 60%와 다른 기업의 80%가 이를 정리하기 위한 포괄적인 전략을 정의하는 데 어려움을 겪고 있습니다.

그러나 BCG는 해결책도 제시합니다. GenAI 자체를 데이터 관리 개선에 사용하는 여섯 가지 방법입니다. ① 메타데이터 레이블 생성에서 GenAI는 비구조화 데이터에 대한 메타데이터 생성을 자동화하여 소스, 사용 권한, 맥락적 관계를 지정하며 80-90%의 정확도를 달성합니다. ② 계보 정보 주석에서 GenAI는 코드 구문 분석과 초기 초안을 통해 계보 데이터 생성을 가속화합니다. ③ 데이터 품질 향상에서 중복 제거, 형식 표준화, 데이터 갭 채우기를 자동화합니다. ④ 데이터 정제 강화에서 GenAI는 훈련과 프롬프트 엔지니어링을 통해 데이터 이상을 수정하는 코드를 생성합니다. ⑤ 정책 컴플라이언스 관리에서 GenAI 기반 지식 베이스가 컴플라이언스 확인과 조치 권장 사항을 가능하게 합니다. ⑥ 데이터 익명화에서 GenAI는 유용성과 무결성을 유지하면서 민감한 데이터를 변환합니다.

보안과 개인정보 보호는 더욱 긴급한 문제입니다. Protecto.ai의 2024년 보고서에 따르면, AI 개인정보 보호 및 보안 사고가 2024년에 56.4% 증가했습니다. 침해의 82%가 클라우드 시스템과 관련되어 있으며, 26%의 조직이 민감한 데이터가 공개 AI에 도달한다는 것을 인정하지만 단 17%만이 차단 또는 스캔 제어 장치를 보유하고 있습니다. 제3자 귀속은 침해의 약 30%로 두 배가 되었으며, 모든 침해의 거의 절반이 고객 PII(Personally Identifiable Information, 개인 식별 정보)를 포함합니다. BigID의 2025 AI Risk & Readiness Report에 따르면, 64%의 조직이 AI 위험에 대한 완전한 가시성이 부족하고, 40%가 AI 접근 가능 데이터를 보호할 도구가 부족하며, 단 6%만이 고급 AI 보안 전략 또는 정의된 AI TRiSM(AI Trust, Risk and Security Management) 프레임워크를 보유하고 있습니다.

개인정보 보호를 위한 전략으로는 LLM 처리 전 데이터 토큰화, 익명화, 가명화가 있습니다. 민감한 데이터 누출을 방지하기 위하여 제품이나 서비스의 기획-제조-폐기 등 전 과정에서 개인정보 보호 요소를 충분히 고려하여 개인정보 침해를 사전에 예방하는 개인정보 보호 중심 설계(Privacy by Design)도 중요합니다. 합성 데이터 마스킹을 통한 실시간 PII 탐지, 데이터 액세스 및 재식별을 위한 제로 트러스트 정책, 전송 및 저장 중 데이터를 보호하는 암호화 프로토콜, 조직 내의 Private LLM 배포 등도 필수적으로 검토되어야 합니다.

조직의 변화: IT에서 비즈니스 전략으로

데이터 관리는 IT 기능에서 비즈니스 전략으로 전환되고 있습니다. DATAVERSITY의 2025년 보고서는 이렇게 설명합니다. "데이터 관리는 데이터 전략, 아키텍처, 거버넌스라는 세 가지 기본 기둥에 기반합니다. 그러나 메타데이터 관리와 인공지능이라는 두 가지 촉매 역할을 하는 힘이 이러한 구성 요소가 작동하고 상호 작용하는 방식을 변화시키고 있습니다." 핵심 지표는 2025년까지 최소 80%의 기업이 메타데이터를 데이터 전략 및 관리의 중심으로 만들 것이라는 점입니다. 이는 비즈니스 운영과 GenAI 역량에 중요합니다.

최고 데이터 책임자CDO의 역할도 진화하고 있습니다. McKinsey의 2024년 연구에 따르면, 최고 데이터 및 분석 책임자의 50%만이 데이터를 사용하여 혁신을 주도할 수 있다고 느낍니다. CDO는 AI에 대하여 회사의 명운을 걸고 AI 전략을 주도할 신뢰를 얻어야 합니다. AI의 가치는 회사가 운영되는 방식 자체를 혁신하는 데서 나오며, 단순히 기술 구현에서 나오는 것이 아닙니다. 실제로 단 21%의 조직만이 GenAI 배포로 인해 workflow를 근본적으로 재설계했습니다.

리더십 책임도 변화하고 있습니다. 48%의 조직에서 CEO가 AI 거버넌스 감독을 책임지고 있으며, 17%는 이사회가 감독합니다. 평균적으로 두 명의 리더가 AI 거버넌스에 대한 책임을 공유합니다. BCG의 2024년 전략적 견해는 이렇습니다. "데이터와 AI의 최고 플레이어들은 단순히 규정을 준수하는 것이 아니라 비즈니스에 즉시 사용 가능한 데이터를 제공하도록 데이터 거버넌스를 설계하였습니다. 생성형 AI는 데이터 거버넌스 영역에서 완전히 새로운 가능성의 세계를 열어주며, 많은 부문에 걸쳐 생산성 향상과 가치의 원천을 약속합니다."

데이터 관리가 비즈니스에 미치는 영향은 네 가지입니다. ① 시장 출시 속도입니다. 깨끗하고 조화된 데이터는 제품 출시를 가속화합니다. ② 고객 경험입니다. 통합된 데이터 세트는 실시간 개인화를 가능하게 합니다. ③ 탄력성입니다. AI 가 갖춰진 시스템은 고급 분석을 위한 기반을 만듭니다. ④ 컴플라이언스 비용 절감입니다. 자동화된 거버넌스는 감사 부담을 줄입니다.

조직적 변화로는 비즈니스, IT, 데이터, 재무, 법무 이해관계자로 구성된 Multi function팀이 필요합니다. Global Data Strategy에 따르면 데이터 사일로를 무너뜨리려면 부서 간 이해관계자 참여가 필요합니다. 협업은 메타데이터 관리와 AI 도구 선택까지 확장됩니다. McKinsey의 2024년 분석에 따르면, "대략 5명 중 2명의 GenAI 개발자와 heavy 사용자로 구성된 커뮤니티가 유연성보다 더 중요한 핵심 동기라고 말합니다." 조직은 AI를 통해 직원들을 위협하는 것이 아니라 권한을 부여해야 하며, AI Literacy 프로그램에 투자해야 합니다. Gartner는 2027년까지 CDAO(Chief Data Analytics Officer)의 50% 이상이 이를 할 것으로 예측하고 있습니다.

실제 성공 사례: 조직 변화의 증거

Ørsted는 글로벌 해상 풍력 발전 리더로서 2024년 Dataiku의 GenAI 기반 자동화 뉴스 다이제스트 시스템을 배포했습니다. 경영진은 빠르게 진화하는 에너지 부문에서 시기적절한 Market Intelligence가 필요했지만, 수동 뉴스 다이제스트 생성에 상당한 시간을 소비하고 있었습니다. 매일 300-500개의 업계 기사를 처리해야 했습니다. GenAI를 배포한 결과, 월 100시간의 시간이 절약되었으며 출시 첫 주에 500명의 내부 구독자를 확보했고, 매일 300-500개의 기사를 자동으로 처리하며, 녹색 에너지 미션을 지원하는 일관되고 확장 가능한 Market Intelligence를 제공했습니다.

영국 보험사 Hastings Direct는 2024년 Azure 기반 머신러닝을 Underwriting 워크플로에 배포했습니다. 수동 Underwriting 프로세스가 시장 출시를 늦추고 있었고, 가격 및 위험 모델을 개선해야 했으며, 고객 불만 서신의 가독성이 낮았고, AI 시스템이 처리할 수 있는 형식의 데이터가 필요했습니다. 음성 녹음을 텍스트로 변환하여 AI 분석을 수행하고, 고객 불만 서신 답변에 GenAI를 구현하며, ML, AI, 데이터 팀 간 협업 프레임워크를 구축하여 "적절한 장소, 적절한 형식"을 보장했습니다. 결과는 놀라웠습니다. 시장 출시 속도가 100% 이상 향상되었고, 가능한 Underwriting 변경 수가 300% 이상 증가했으며, 릴리스를 위한 완전 자동화된 직진 처리를 달성했고 불만 서신 가독성이 50/100에서 70/100으로 향상되어 40%가 개선되었으며, 고객과의 왕복 커뮤니케이션이 감소했습니다. 핵심 조직 변화는 "인간이 루프에 있는" 원칙을 채택한 것입니다. AI가 처리와 권장 사항을 처리하지만 인간 Underwriter가 최종 결정을 내려 효율성을 지키면서도 신뢰를 유지하였습니다.

한국의 SK텔레콤은 삼성전자와 파트너십을 맺어 2024년 AI-RAN Parameter Recommender를 개발했습니다. 5G 기지국 최적화를 수동으로 수행하는 것이 상당한 자원을 소비하고 있었고, 다양한 지리적 위치에서 네트워크 성능이 다양했으며, 개별 기지국의 성능 잠재력을 최대화해야 했습니다. historical 네트워크 데이터에 대한 딥러닝을 사용하여 통계 데이터와 AI 작동 매개변수 간의 상관관계를 분석하고, 각 고유한 무선 환경에 대한 최적 매개변수를 예측하기 위해 머신러닝을 적용했습니다. 결과는 5G 기지국 운영에서 성능 향상이 확인되었고, 고객을 위한 전반적인 네트워크 품질이 개선되었으며, 수동 최적화 작업 부하가 감소했고, 사용 패턴이 다양한 High traffic 지하철 시스템으로 확장이 계획되었습니다. SK텔레콤은 2028년까지 AI에 2조~3조원, 약 21억 달러을 투자하고 있으며, 통신과 AI 기술의 융합을 통해 차별화된 고객 경험을 제공하는 "AI-Native Network"로의 진화를 가속화한다는 리더십 목표를 명시했습니다. 이는 수동에서 AI 주도 네트워크 운영으로의 근본적인 전환입니다.

고유 데이터: 복제 불가능한 경쟁 우위

“우리에겐 남들보다 뛰어난 알고리즘이 있는 게 아닙니다. 더 많은 데이터를 갖고 있을 뿐이죠.” 2000년대 후반 구글의 최고 과학자였던 피터 노빅(Peter Norvig)이 했던 이 유명한 발언은 오늘날 더욱 현실적인 의미로 다가옵니다. 생성형 AI 모델들은 이미 공개적으로 이용 가능한 수준까지 발전했으며, 알고리즘 자체의 우열은 예전만큼 큰 차이를 만들지 못합니다. 대신 기업 고유의 양질의 데이터가 새로운 AI 시대의 경쟁력 원천으로 부상했습니다.

고유 데이터를 활용하는 세 가지 접근 방식이 있습니다. ① 프롬프트 엔지니어링입니다. 프롬프트에 고유 데이터를 포함하는 것으로, 저용량의 일반적인 작업에 적합합니다. ② 검색 증강 생성RAG입니다. 모델을 고유 데이터베이스에 연결하는 것으로, 86%의 기업이 LLM을 증강하기 위해 RAG를 선택합니다. 모델을 재학습하지 않고도 실시간 데이터 액세스를 가능하게 합니다. ③ Fine Tuning입니다. 고유 데이터로 모델을 영구적으로 적응시키는 것으로, 고유한 소유 지적 재산을 창출하고 도메인별 전문 지식을 제공합니다.

McKinsey는 세 가지 전략적 포지션을 제시합니다. "Taker"는 API를 통한 기성품 도구의 사용자입니다. "Shaper"는 고유 데이터와 모델의 통합자로 대부분에게 최적입니다. "Maker"는 맞춤형 LLM의 구축자로 비용이 많이 들고 사용 사례가 제한적입니다. AI 모델, 시스템, 인력은 외부에서 조달할 수 있지만, 고유한Proprietary 데이터는 복제할 수 없으므로 비즈니스 차별화가 가능합니다. JP Morgan Chase의 150 페타바이트 금융 데이터, SK텔레콤의 수년간 축적된 네트워크 운영 데이터, Whataburger의 1,500만 개 고객 리뷰 corpus는 각각 경쟁자가 복제할 수 없는 고유한 자산입니다.

앞으로 나아갈 길

생성형 AI 시대의 데이터 관리는 단순한 기술 업그레이드가 아니라 조직 전체의 변화를 요구합니다. 성공적인 기업들은 몇 가지 공통적인 패턴을 보여줍니다. ① 데이터 품질을 최우선으로 삼습니다. 인식을 넘어 구체적인 행동으로 이동하며, GenAI 지원을 통한 자동화된 데이터 품질 관리를 구현합니다. ② 거버넌스를 조기에 확립합니다. 고성과 기업들은 GenAI를 확장하기 전에 포괄적인 데이터 거버넌스를 구현하여 결과를 극적으로 개선합니다. ③ 기술과 문화에 투자합니다. AI 리터러시 프로그램과 부서 간 협업은 성공의 필수 조건입니다. ④ 혁신과 위험의 균형을 맞춥니다. 책임 있는 AI 프레임워크를 처음부터 내장해야 하며, 사후 추가가 아닙니다. ⑤ 컴포넌트 기반 접근 방식을 채택합니다. 모듈식 GenAI 아키텍처는 민첩성을 가능하게 하고 기술 부채를 줄입니다.

BCG는 "10-20-70 원칙"을 제시합니다. 알고리즘에 10%의 노력, 데이터와 기술에 20%, 사람, 프로세스, 문화적 변화에 70%를 투입해야 합니다. 이는 기술보다 조직의 준비 상태가 더 중요하다는 것을 의미합니다. McKinsey의 추정에 따르면 GenAI는 연간 2조 6천억~4조 4천억 달러의 경제적 영향을 미칠 것이며, 현재 72%의 조직이 최소 한 기능에서 AI를 사용하고 있어 경쟁적 필요성은 부인할 수 없습니다.

JP Morgan Chase의 Jamie Dimon이 보여준 것처럼, 데이터를 최고의 전략적 자산으로 정의하고 조직의 최상위 수준에서 관리하는 것이 성공의 첫걸음입니다. Michael Schrage의 Vibe Analytics가 제시하는 것처럼, 데이터와의 대화를 통해 의도를 이해하고 실시간으로 통찰을 얻는 능력이 경쟁력을 결정할 것입니다. Agentic Data Platform이 가능하게 하는 것처럼, 자율적으로 작동하면서도 강력한 거버넌스 프레임워크 내에서 관리되는 AI 에이전트가 미래의 표준이 될 것입니다.

국내 기업들이 경험하는 데이터 표준화, 통합, 전처리의 과제는 전 세계 기업들이 공통적으로 직면한 문제입니다. 그러나 이러한 과제를 극복한 기업들Whataburger, Ørsted, Hastings Direct, SK텔레콤은 모두 상당한 비즈니스 가치를 실현했습니다. 데이터 유출 리스크와 정책 기준 부재에 대한 우려는 적절한 거버넌스 프레임워크와 기술적 솔루션으로 해결할 수 있습니다. 데이터 품질 확보의 어려움은 역설적이게도 GenAI 자체를 활용하여 해결할 수 있습니다.

승자는 오늘 데이터 기반을 준비하는 사람들입니다. GenAI 성공은 모델 선택이 아니라 데이터 우수성, 조직의 준비 상태, 전략적 비전에서 시작됩니다. 데이터는 더 이상 IT 부서의 책임이 아닙니다. 그것은 최고 경영진의 전략적 의제이며, 모든 직원의 일상적 도구이고, 기업의 지속 가능한 경쟁 우위의 원천입니다. 생성형 AI 시대에 데이터가 경쟁력을 결정한다는 것은 이제 선택이 아닌 생존의 문제입니다.

keyword

작가의 이전글아무도 알려주지 않는 아마존 FBA의 허와 실