brunch

You can make anything
by writing

C.S.Lewis

by 송 재희 Aug 09. 2024

AI시대, 데이터베이스 분야의 최신 전망

저자는 약 25년 동안 데이터 관련 다양한 일을 해왔으며, 현재는 빅데이터 실시간 분석 시스템, 그래프 데이터베이스(Graph DB) 및 생성형 인공지능에 많이 쓰이는 벡터 데이터베이스(Vector DB)에 집중하고 있다. 이 글에서는 현장에서 직접 경험한 것들을 바탕으로 데이터베이스 분야의 현실과 전망에 대해 개인적인 견해를 나누고자 한다.


최근 몇 년간 데이터베이스 기술은 급격한 변화를 겪으며 진화해왔다. 6년 전 작성한 '데이터베이스 전망' 글 이후, 관계형 데이터베이스(RDBMS)와 NoSQL 데이터베이스의 경계가 점점 더 모호해지고 있으며, 클라우드 기술과 인공지능(AI)의 급속한 발전은 데이터베이스 관리 및 운영 방식에 큰 변화를 가져왔다.


데이터베이스의 현재 상황

관계형 데이터베이스의 현황

관계형 데이터베이스의 사용은 여전히 견고하다. PostgreSQL과 같은 데이터베이스는 NoSQL의 기능을 일부 통합하여, 복합적인 요구 사항을 충족시키고 있다. 실제로, Stack Overflow의 2024년 개발자 설문조사에 따르면, PostgreSQL은 가장 선호되는 데이터베이스 중 하나로 자리 잡고 있으며, 이는 관계형 데이터베이스가 여전히 높은 인기를 유지하고 있음을 보여준다


DB-engines.com 데이터 베이스 사용 순위


2024 Stack Overflow 개발자 설문 조사


NoSQL 데이터베이스의 지속적 성장

MongoDB와 같은 NoSQL 데이터베이스는 문서 중심 데이터베이스로서 애플리케이션 개발에서 중요한 역할을 하고 있다. 2023년 Gartner 보고서에 따르면, NoSQL 데이터베이스 시장은 연평균 성장률(CAGR) 26.8%를 기록하며 빠르게 성장하고 있다. 이는 대규모 데이터 처리와 비정형 데이터 관리가 필요한 기업들이 NoSQL 데이터베이스를 선호하고 있음을 나타낸다.


인공지능과 데이터의 중요성

인공지능의 사용이 증가함에 따라 데이터의 중요성도 크게 강조되고 있다. AI와 머신러닝(ML) 모델은 대규모 데이터셋에서 학습하며, 이러한 데이터의 품질과 접근성은 AI 시스템의 성능에 직접적인 영향을 미친다. 예를 들어, Meta의 LLaMA 3.1 405B 같은 대규모 언어 모델은 4,050억 개의 데이터 포인트를 학습 데이터로 사용하여 고성능을 발휘한다 이로 인해, 데이터의 수집, 관리, 분석, 보안이 그 어느 때보다 중요해졌다.


AI 시스템의 운영과 지속적인 학습을 위해서는 다양한 형태의 데이터를 실시간으로 처리할 수 있는 능력이 필수적이다. 따라서 관계형 데이터베이스와 NoSQL 데이터베이스가 조화롭게 사용되는 하이브리드 데이터베이스 구조가 점점 더 중요해지고 있다.


클라우드와 데이터베이스의 융합

클라우드 기술의 발전은 데이터베이스 운영 방식을 혁신적으로 변화시켰다. Gartner의 보고서에 따르면, 글로벌 데이터베이스 시장은 2022년에 14.4% 성장하여 910억 달러 규모에 도달했으며, 2023년에는 1,000억 달러를 넘어설 것으로 예상된다고 한다. 클라우드 데이터베이스가 시장 성장을 주도하고 있으며(55%), 클라우드 데이터베이스 지출이 온프레미스 데이터베이스 지출(45%)을 이미 초과했다.


특히 비정형 데이터 이용이 늘어나면서 MongoDB, Amazon DynamoDB, Neo4j, Apache Cassandra 등 NoSQL 데이터베이스의 사용이 크게 증가하고 있다. 이는 이러한 데이터베이스들이 스키마 유연성과 비정형 데이터 관리에 용이하기 때문이다.


클라우드 환경에서 데이터베이스 관리의 자동화와 통합 관리 도구의 발전은 데이터베이스 관리자와 개발자들에게 새로운 기회를 제공한다. 특히, 클라우드 네이티브 데이터베이스 기술에 익숙한 인력은 향후 5년간 높은 수요를 유지할 것으로 보인다.


데이터 엔지니어링의 부상

순수 데이터베이스 관리자 역할은 축소되는 반면, 데이터 엔지니어의 중요성이 크게 증가했다. 데이터 엔지니어는 다양한 데이터 소스로부터 데이터를 수집, 처리, 저장하는 파이프라인을 구축하고 관리한다. 즉, 분석을 잘할 수 있는 양질의 데이터를 준비하는 것이 주된 업무다. LinkedIn의 2024년 "Emerging Jobs Report"에 따르면, 데이터 엔지니어는 가장 빠르게 성장하는 직업 중 하나로 꼽혔다

.

AI와 머신러닝의 영향

데이터베이스 시스템에 AI와 머신러닝이 통합되어 자동 튜닝, 예측적 유지보수, 지능형 쿼리 최적화 등이 가능해졌다. 이는 데이터베이스 관리의 효율성을 크게 향상시켰다. 즉, 예전에 10명이 해야 했던 일을 지금은 1명으로도 관리 가능하게 되었고, 점차 고전적 의미의 데이터베이스 관리자의 역할이 축소되고 있다.


데이터 거버넌스와 보안

생성형 인공지능은 거대한 양의 좋은 데이터가 필요하다. 또한 데이터 수집도 다양한 경로를 통해 이루어지기 때문에 데이터 프라이버시에 대한 규제(예: GDPR, CCPA)가 점점 강화되고 있다. 이로 인해 데이터 거버넌스와 보안의 중요성이 더욱 커지고 있다. 데이터베이스 전문가들은 이제 데이터 보안, 규정 준수, 윤리적 사용에 대한 이해가 필수적이다. Gartner는 2025년까지 글로벌 인구의 65%가 개인정보보호법의 적용을 받게 될 것으로 예측했다


미래 전망

점점 순수 데이터베이스 관리자보다는 다음과 같은 역할이 더욱 중요해질 것으로 예상된다:   

클라우드 데이터 아키텍트: 다양한 클라우드 서비스를 활용한 데이터 아키텍처 설계

데이터 엔지니어: 빅데이터 처리 및 데이터 파이프라인 구축

ML 엔지니어: 데이터베이스와 AI/ML 모델 통합

데이터 거버넌스 전문가: 데이터 품질, 보안, 규정 준수 관리


결론

데이터 관련 분야는 여전히 유망하지만, 그 초점이 순수 데이터베이스 관리에서 더 넓은 데이터 생태계로 이동했다. 데이터 엔지니어링, 클라우드 데이터 관리, AI/ML 통합, 데이터 거버넌스 등의 분야에서 기회가 많다. 학위도 중요하지만, 실무 경험과 지속적인 학습이 더욱 중요해졌다. 데이터 분야에 관심 있는 사람들은 이러한 트렌드를 고려하여 자신의 커리어 방향을 설정하는 것이 좋겠다.


#데이터 #데이터엔니지어링 #데이터과학자 #인공지능 #AI #GenAI #Data #DataEngineering #Cloud #AWS #StartupConsulting #Seattle

매거진의 이전글 너무 큰 빅 데이터 생태계
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari