brunch

You can make anything
by writing

C.S.Lewis

by 김기만 Oct 13. 2021

[테크이야기3]가설을세워야데이타분석이의미가있다.


빅데이터시대다. 우리의 일거수 일투족이 모두 기록되고 있다. 아이폰에서 앱마다 개인정보수집을 선택하게하는 프로세스가 생겼지만 앱생산에게만 안보낼뿐 스마트폰에는 고스란히 남아있다. 우리가 결제하는것 우리가 뛰는지 걷는지 어떤 음악을 듣는지 심지어는 스마트스피커를 집안에 놓으면 우리가 하는 대화를 모두 녹음하고 있다. 단지 개인정보와 매치안시킨다는 조건으로 우리의 사적인 대화를 모두 데이터화를 하고 있는것이다.


한번은 우리끼리 한강에서 이용할 접이식 텐트에 대해서 이야기한 적이 있었다. 그 다음날 카카오광고에 접이식텐트 얼만데 관심있어? 이런 광고가 온다. 뭐 그렇게 매치할 수 있는 기술이 충분하다는건 인정한다. 그런데 꼭 그렇게까지 해야만 했냐? 무섭게. 그래서 집에 있던 스마트스피커를 다 치웠다. 이 많은 데이타를 가져가 빅테크기업들은 무엇을 하는것일까?


우리가 일반적으로 엑셀에 수많은 데이타항목을 넣고 좀 더 인사이트있게 보려면 데이타 자체에서 피봇을 하거나 그래프를 그려보고거나 해서 어떤 트렌드를 발견하고 그걸 비즈니스에 적용하는 정도가 1세대였다. 그런데 이런 수집한 데이타가 한 테이블에 넣지 못하고 수십개 수많게 된다고 생각해보자. 그냥 피봇이나 그래프만으로는 절대 우연히 의미있는 발견을 할 수 없다. 설명 발견한다고 해도 엄청난양의 피봇과 그래프 상관관계 인관관계를 찾느라고 해야할 일의 양이 엄청 늘어난다. 이렇게해서는 빅데이타를 이용하는게 아니라 빅데이타에 치이는 꼴이다.


그럼 우리는 무엇을 해야하는가? 요즘 직종중에 데이터사이언티스가 있다. 이들이 하는것이 데이터를 과학적 방법으로 접근하자는 것인데, 과학의 기본방법은 가설과 가설검증의 반복적 수행으로 가설증명을 해나가는 과정이다. 가설이란 잠정적인 결론이다. 우리가 느끼는 트렌드, 직감이나 통찰로 알 수 있는 정의를 데이터로 증명해나가는 과정이 데이터사이언스다. 물론 과학의 방법에는 연역,귀납과 같은 교과서에 나온 방법이 있지만 연역은 명제가 있을때(명제란 증명할 필요가 없는 당연한 사실)가능한 일이고 귀납은 수많은 반복적인 패턴이 나타날때 그걸 사실이라고 정리하는 일인데 이것도 미리 방향이 정하지않으면 무슨 패턴을 찾아야하는지 난감하다.


이래서 아직 증명되지는 않았지만 잠정적인 결론인 가설이 필요한것이다. AI도 이런 가설을 세우고 증명하는 이 루틴을 빠르게 반복해서 결론을 내는 것이고 그 결론을 내기위해서 많은 데이터들을 필요로하는것이다. 예전의 컴퓨터는 말그대로 계산하는 기계로 처음부터 끝까지 맞는지 틀리는지를 수행하지만 지금의 AI는 인간처럼 가설이란 지름길을 이용해 노력의 효율화를 꾀하고 있다. 여기서 머신과 인간의 가설설정의 질 차이가 난다. 가설을 데이터와 연결해서 검증하는 것은 머신이 빠르겠지만 가설의 방향이나 질은 경험이 풍부하고 인사이트가 있는 인간이 더 낫을 수 있겠다.


이런게 우리가 머신보다 앞서 갈 수 있는 분야중에 하나가 아닐까? 인간이 좀더 의미있는 가설을 세우고 머신이 검증하는 방식이 지금 상태에서는 가장 빠른 분석방법일 것이다. 지금도 로봇을 계발하기보다는 인간에 증강기능 수트를 입히는 것이 훨씬 합리적인 것처럼 인간과 머신의 콜라보는 당분간 될 것이다. 그럼 우리의 경쟁력은 가설을 잘 세우는 것이다. 가설을 잘세우려면 모든 일에 모든 현상에 정의 내리는 연습을 많이 해야한다. 지금부터라도 우리 주변의 일들에 대한 정의를 내려보자. 오늘도 파이팅



작가의 이전글 [북리뷰2]럭키 운이나를만드나내가운을만드나
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari