brunch

데이터 사이언스의 뿌리와 진화

통계학적 기원에서 인공지능까지

by Dr Vector

데이터 사이언스는 1960년대부터 데이터를 바탕으로 학습하는 것에 초점을 맞추어 발전해 온 학제 간 분야이다. 최근에는 통계학, 기계 학습, 컴퓨터 과학 등의 통합 분야로 빠르게 진화하고 있다. 데이터 사이언스라는 분야에 대해 초기 개념부터 되짚어보며 발전 과정을 정리해보려 한다.




요약

데이터 사이언스는 통계학과 컴퓨터 과학의 융합에서 시작된 현대 학문으로, 그 뿌리는 20세기 중반 통계학자들의 문제의식에서 비롯되었다.

빅데이터와 인공지능의 부상으로 인해 데이터 과학자라는 직업은 사회 전반에서 주목받기 시작했다.

데이터 사이언스는 의료, 금융, 유통 등 다양한 산업에서 핵심 역할을 하며 학제 간 융합의 중심에 서 있다.

대한민국 역시 이러한 흐름에 발맞추어 학문적 수용과 공공 데이터 활용을 통해 데이터 중심 사회로 나아가고 있다.




1. 데이터 사이언스의 초기 개념과 학문적 뿌리

데이터 사이언스라는 개념은 비교적 최근에 정립되었지만, 그 뿌리는 20세기 중반 통계학 분야에서 찾아볼 수 있다. 당시 선구자들이 데이터 분석의 중요성을 강조하며 기반을 다지기 시작했다.


1.1. 통계학적 기원: 데이터 분석

1960년대 미국의 통계학자 John Tukey는 고전 통계학의 범위를 넘어 데이터 분석의 중요성을 강조하며 학문 통계학의 개혁을 주장했다. 데이터로부터 유의미한 정보를 추출하는 새로운 접근 방식의 필요성을 역설하며, 이후 비슷한 성향을 지닌 다른 통계학자들에게 영향을 미쳤다. 이렇게 고전적인 이론 통계학의 영역을 넘어 확장을 주장하던 학자였던 Bill Cleveland, Jeff Wu는 이런 새로운 분야에 '데이터 사이언스'라는 이름을 제안하기도 했다. 초기 통계학자들의 이런 노력은 데이터 중식점 사고와 방법론의 중요성을 부각하며 데이터 사이언스라는 학문 분야의 씨앗을 뿌렸다.


1.2. '데이터 사이언스'용어의 등장과 초기 논의

'데이터 사이언스'라는 용어는 1974년 Peter Naur의 저서 "Concise Survey of Computer Methods"에서 처음 사용된 것으로 알려져 있다. 당시에는 주로 컴퓨터 과학 분야에서 데이터 처리 및 분석과 관련된 포괄적인 개념으로 사용되었다. 2000년대 중반 이후 빅데이터의 등장과 함께 '데이터 사이언스'와 '데이터 과학자'라는 용어가 다시금 주목받기 시작했다. 특히 2012년 하버드 비즈니스 리뷰에서 '데이터 과학자'라는 직업을 다루면서 그 중요성과 매력이 부각되었다. 이런 맥락에서 데이터 과학은 방대한 데이터에서 숨겨진 통찰력을 발견하기 위한 특정 개념, 문제 정의, 알고리즘 및 절차를 사용하는 프레임워크로 정의되기 시작했다.




2. 컴퓨터 과학 및 정보 기술의 역할 확대

데이터 사이언스의 발전은 통계학적 기반을 바탕으로 컴퓨터 과학과 정보 기술의 발전이 더해지며 가속화되었다. 특히 인터넷이 보급되며 디지털 데이터가 폭발적으로 증가한 것이 데이터 사이언스가 독립적인 학문 분야로 성장하는 데 큰 역할을 했다.


2.1. 컴퓨팅 기술의 발전과 데이터 처리 능력 발달

컴퓨터 과학은 1960년대에 프로그래밍 언어, 컴파일러, 운영 체제 및 이를 지원하는 수학 이론에 중점을 둔 학문 분야로 시작되었다. 1970년대에는 알고리즘 연구가 중요한 이론적 구성 요소로 대두되었고, 컴퓨터를 유용하게 만드는 데 중점을 두었다. 이것은 대량의 데이터를 효율적으로 저장하고 처리할 수 있는 기술적 기반이 되었다. 이와 더불어 향상된 컴퓨팅 성능은 현실 세계의 대규모 데이터를 복잡한 통계 모델과 기계 학습 알고리즘에 적용하는 것을 가능케 하였다. 웹과 소셜 네트워크의 등장은 데이터 수집 및 분석의 새로운 기회와 도전 과제를 동시에 제공하였고, 데이터를 다루는 방식에도 변화를 일으켰다.


2.2. '빅데이터'의 등장과 데이터 사이언스의 필요성 증대

정보 기술과 컴퓨터 성능의 급속한 발전은 디지털 데이터의 생성, 전송, 축적을 가속화하여 '빅데이터'라는 용어가 등장하게 되었다. 빅데이터는 단순히 양적으로 방대한 데이터만을 의미하는 것이 아니라, 기존의 데이터 처리 방식으로는 분석하기 어려운 다양하고 복잡한 형태의 데이터를 모두 포함한다. 다시 말해, 빅데이터는 용량이 얼마 이상인 데이터를 뜻하지 않으며, 레코드 수 혹은 column 수를 기준으로 빅데이터냐 아니냐의 여부를 구분하지 않는다. 여러 환경적 요인에 힘입어 폭발적으로 증가한 데이터를 효과적으로 분석하고 활용하여 새로운 가치를 창출하거나 다양한 문제를 관리해야 할 필요성은 급속도로 커졌다. 이렇게 빅데이터의 개념이 보급되면서, 데이터를 다룰 수 있는 유능한 데이터 과학자에 대한 필요성은 전 세계적으로 급증하게 되었다. 이러한 변화는 데이터 사이언스가 단순히 통계학의 일부가 아닌, 컴퓨터 과학, 기계 학습, 통계학 등을 아우르는 새로운 학제 간 분야로 자리매김하는 데 결정적인 영향을 미쳤다.




3. 데이터 사이언스의 학제 간 융합과 응용 분야 확대

데이터 사이언스는 다양한 분야의 지식과 기술을 융합하며 발전해 왔다. 이러한 학제 간 융합은 그 특성상 응용 범위를 점점 넓혀가며 사회 전반에 걸쳐 그 영향력을 확대하는 데 기여했다.


3.1. 기계 학습과의 시너지

특히 기계 학습은 데이터로부터 패턴을 학습하고 예측 또는 의사결정을 내리는 알고리즘을 개발하는 데 중점을 둔다. 데이터 사이언스는 이러한 기계 학습 알고리즘을 실제 데이터에 적용하고 그 결과를 해석하며, 비즈니스 문제 해결에 활용하는 데 중요한 역할을 하고 있다. 기계 학습과 데이터 사이언스는 뗄 수 없는 관계이자 넓은 교집합을 가지고 있다. 다양한 분야에서 데이터를 파악하는 데 있어 강력한 도구로 사용되며, 과거에는 알 수 없었던 미묘하거나 복잡한 관계도 발견할 수 있게 한다.


3.2. 다양한 분야로의 응용 확대

데이터 사이언스는 의료, 금융, 유통, 서비스 등 다양한 산업에서 영향을 미치고 있다. 의료 분야에서는 질병 진단, 신약 개발, 개인 맞춤형 치료법 제안 등에 기여하고 있으며, 금융 분야에서는 사기 탐지, 신용 평가, 주식 시장 예측 등에 활용된다. 유통 분야에서는 고객 행동 분석을 통해 맞춤형 마케팅 전략을 수립하고, 재고 관리를 최적화하거나 비용을 절감하는 유통 경로를 찾는 데 활용된다. 또한 소셜 네트워크 분석, 자연어 처리, 이미지 등 다양한 비즈니스 및 연구에 필수적인 요소로 자리 잡았다. 이러한 광범위한 응용은 데이터 사이언스가 현대 사회의 복잡한 문제들을 해결하는 데 있어 중요한 역할을 수행하고 있음을 보여준다.




4. 대한민국 데이터 사이언스 발전의 흐름

정보기술 강국으로서 대한민국도 이러한 시대적 흐름에 발맞추어 성장해 왔다. 초기에는 주로 학계와 공공 부문을 중심으로 데이터 분석 및 활용에 대한 인식이 확산되었고, 최근에는 산업 전반으로 그 영향력이 확대되고 있다.


4.1. 학문적 수용과 교육 동향

대한민국에서 데이터 사이언스의 학문적 수용은 2000년대 후반부터 대학들을 중심으로 시작되었다. 초기에는 주로 통계학과, 컴퓨터공학과 등 기존 학과 내에서 데이터 분석 관련 과목이 개설되거나 연구실이 운영되는 형태였다. 이후 빅데이터와 인공지능에 대한 관심이 증대되면서, 2010년대 중반부터는 독립적인 데이터 사이언스 학과나 융합 전공 및 대학원이 신설되기 시작했다. 이들 학과에서는 주로 수학 및 통계 지식 기반 위에 데이터 처리, 분석, 기계 학습 등으로 커리큘럼을 구성하여 학생들에게 제공되었다. 일부 연구에서는 국내 데이터 사이언스 교육이 미국 등 선진국에 비해 수학 및 통계 지식 영역에 대한 비중이 상대적으로 낮았다는 분석도 있었다. 그럼에도 불구하고, 국내 대학들은 데이터 사이언스 전문가 양성을 위한 노력을 지속하며 이 분야의 학문적 기반을 다지는 데 기여하고 있다.


4.2. 공공 부문의 데이터 활용 시도

대한민국의 공공 부문에서는 2000년대 초반부터 전자정부 시스템 구축과 함께 대량의 행정 데이터가 축적되기 시작했다. 2014년부터는 정부 데이터를 공개하는 정책이 추진되면서 공공 부문의 데이터 접근성이 점차 높아졌다. 이는 공공 자금으로 생성된 정보를 광범위한 대중에게 공개해야 한다는 인식에 기반한다. 이렇게 공개된 데이터는 독립된 소스로 활용되거나, 단계적으로 처리한 수 여러 목적으로 활용될 수 있다. 공공 데이터의 활용은 사회 과학 연구 및 정책 수립에 새로운 기회를 제공하며, 기업으로 하여금 데이터 기반의 의사결정을 가능하게 하는 중요한 발판이 되었다. 최근의 한국은 오픈 정부 데이터 정책에서 비교적 우수하다고 평가받지만, 데이터 품질 향상, 오픈 데이터 포털의 플랫폼화, 다양한 사용자 지원, 그리고 데이터 활용 인력 양성이 정책적 과제로 남아있다.



keyword
매거진의 이전글시작하며