http://www.yes24.com/Product/Goods/91614222
데이터 쟁이에게 가공되지 않은 데이터는 자동차로 비유하면 연료와 같다. 연료가 꾸준히 주입돼야 목적지를 향해 갈 수 있다. 그래서 20세기는 산유국(産油國)이, 21세기는 산료국(産料國)이 세상을 지배할 것이라 나는 믿는다.
이렇게나 중요한 데이터를 담고 있는 그릇이 바로 데이터베이스다. 말 그대로 데이터들의 근거지라는 의미다.
우리는 데이터 홍수 속에 살고 있다. 데이터는 끊임없이 생산된다. 무한하게 생산되는 데이터를 보관하기 위한 물리적 공간은 제한적이다. 또한 마구잡이로 데이터를 저장할 수도 없다.
그래서 지속적으로 발생하는 데이터를 얼마나 효과적으로 저장할 것인가 하는 문제를 해결하는 것이 데이터베이스에 가장 기본이 되는 원리다.
이런 원리 속에는 단순히 자료가 저장되는 공간의 개념만이 아닌 그 공간에 담길 자료의 구조와 그 들이 가진 성격까지도 고려해야 하는 매우 복합적인 개념을 함께 내포한다.
‘데이터 과학자가 분석만 잘하면 되지 뭐 굳이 데이터베이스까지 알아야 할 필요가 있을 까요?’
맞는 말이다. 어찌 보면 조금은 영역이 다르다고 할 수 있다. 하지만 우리가 분석을 위해 항상 다루는 데이터가 어디로부터 나오고, 더욱이 데이터를 어디서 추출해 내야 하는지를 알고 있다면 더욱 빠르고 정확한 분석이 수행될 수 있다.
데이터베이스의 학문적, 아니 실무적이라 할지라도 그 범위는 매우 넓고 깊다. 분명 분야도 다르다. 이를 모두 인지할 수 없겠지만 개략적인 개념을 알고 있다면 분명 분석에 도움이 된다.
데이터베이스는 데이터가 담기는 그릇과도 같다. 최근 데이터베이스에 담기는 데이터의 유형은 그 성질을 가리지 않는다. 즉 데이터의 유형이 비정형이던 정형이던 모두 담을 수 있다는 의미다.
요즘은 반정형 데이터라는 말도 나오는데 일단 그것은 차치하고서라도 말이다.
정형 데이터라는 것은 여러분이 흔히 사용하는 엑셀을 생각하면 쉽다. 데이터가 특정되고 구분된, 하나의 특성에 따라, 항목에 일정하게 담기는 것을 말한다.
비정형 데이터는 형식이 없는 것을 말한다. 쉽게 말해 음성이나 영상 이미지 등 하나의 데이터 안에 여러 특성이 복합적으로 담겨 있는 데이터를 의미한다.
다른 분들은 정확히 모르겠지만, 나는 아직까지도 원 데이터가 비정형이라 해도 분석을 수행하는 과정에서는 최종적으로 정형화되어 가공된 데이터를 다룬다.
물론 비정형 데이터를 정형 데이터로 변화시키는 과정 역시 빅데이터 분석 분야에 포함이 된다고 주장한다면 나 역시도 비정형 데이터를 다루는 것이 맞다.
하지만 여기서 말하고 싶은 데이터베이스의 범위는 정형화된 데이터를 말한다.