데이터 사이언스의 반복되는 일상의 하루를 소개하겠습니다.
[데이터 사이언스가 하는 일]
1. **비정형 데이터를 **정형 데이터로 변환하여 심화 분석을 수행하고, 이를 기반으로 웹 서비스에 분류·태깅 등 다양한 비즈니스를 적용한다.
**비정형 데이터 : 줄 글로 된 텍스트, 사진, 음악, 동영상, 음성으로 된 파일
**정형 데이터 : 엑셀 형태로 컬럼으로 분류되어 저장된 데이터
2. 머신러닝·딥러닝 기술을 활용하여 정형데이터로 변환도 하고 그 모델을 바탕으로 실험하고 내일을 예측하는 일을 한다. 지금 AI의 사실을 말하면 내일이라고 말하면 거창하고 사용자의 다음 행동을 예측하는 것도 버거운 일이다.
3. 실험실에서(오프라인) 예측한 결과가 실제 세상(온라인)에서 얼마나 상관관계가 있으며, 실제 서비스를 이용하는 사용자의 다양한 반응을 인사이트 하여 모델을 고도화 한다.
이 외에도 크고 작은 다양한 일이 있지만, 굳이 비교하자면 데이터 분석가는 어제를 분석하고, 개발자는 오늘을 반영하며, 데이터 사이언스는 내일을 바라보며 일한다고 할 수 있습니다.
지금까지는 교과서적인 내용을 이야기했다면, 이제부터 흥미로운 이야기를 해보려고 합니다.
데이터 사이언스는 모두가 같은 일을 하지만 사람마다 다른 결과를 낼 수 있다는 것입니다.
[과거, 현재 그리고 미래]
데이터 분석과 개발은 서로 다른 코드로 구현하더라도 결과는 반드시 일치해야 합니다. 어제와 오늘을 반영하는 일이기 때문에, 모습(코드)은 달라도 결과가 달라서는 안 됩니다.
그러나 데이터 사이언스는, 모습도 다르지만 결과도 다를 수 있기 때문에 이해관계자와 협업할 때 이 부분을 반드시 고려해야 합니다.
[데이터 과학의 원조는?]
데이터 사이언스의 원조는 아마 지질학과 기상학이라고 할 수 있습니다.
흥미롭게도 사람들은 지질학은 완전히 신뢰하면서도, 기상학에는 콧방귀를 뀌는 아이러니한 상황이 벌어지고 있습니다. 왜 그럴까요?
지질학은 수천 년 동안 쌓인 퇴적층을 연구하며 과거를 밝혀온 학문이고, 기상학은 불과 100여 년 정도의 데이터를 기반으로 짧게는 한 시간 뒤, 길게는 최대 2주(14일) 뒤의 날씨를 예측하는 학문입니다.
아무리 기술이 발전해도 날씨 예측은 14일을 넘을 수 없다고 말하는데, 그 이유는 나비효과 때문입니다.
나비가 날갯짓하는 미세한 바람조차 날씨에 영향을 줄 수 있으며, 기상청에서 활용하는 수치예보 방정식도 14일을 초과해 계산하면 무의미한 값이 나오기 때문이죠.
신기하게도 지질학을 통해 밝혀낸 공룡과 멸종, 대륙 이동, 지층을 통한 연대는 우리가 직접 보지도, 살아보지도 않았음에도 사람들은 “맞다!”라고 확신하며 받아들이면서도 정작 내일을 예측하는 기상학에는 “또 틀리겠지~”라며 의심을 품습니다.
[우리에게 가장 소중한 것은...?]
내일의 날씨를 맞히면 기상청이 제 역할을 한 것이기에 칭찬은 없으며 틀리면 모든 사람의 비난을 받고 있습니다. 하지만 지질학 역시 수많은 가설이 틀려 고쳐져 왔지만, 우리는 그것을 비난하지 않습니다.
그것은 내 삶과 직접적인 연관이 없기 때문일 것입니다. 그러나 내일의 시간은 내가 살아내야 할 고된 하루이기에, 사람들에게 매우 소중하게 다가오는 것 같습니다.
데이터 과학자는 여러분의 소중한 시간을 담보로 일하고 있으며, 정확한 예측을 통해 많은 사람들이 누려야 할 소중한 시간을 지켜드리는 것이 데이터 사이언티스트의 하루입니다.