현직 대기업 건설 데이터 분석가 정경문 님/ 인터뷰 2
현재는 빅데이터를 도출된 자료들에 대한 해석을 사람이 하고 있죠. 좀 더 발전하게 되면 해석에 대한 판단을 프로그램이 할 수 있는지, 판단이란 영역은 아직도 미래에도 고유하게 사람의 영역일지
결론부터 말씀드리면 해석은 사람이 해야 된다. 빅데이터 분석의 꽃은 예측이라고 생각해요.
우리가 이제 날씨를 많이 예측하고 싶어 하잖아요. 대기의 흐름, 그리고 기압의 상황. 그리고 지금 수분상태
이런 변수들이 여러 가지 있잖아요? 그런 걸 통해서 예측을 하는 개념이죠.
실무 관점에서의 결정이 사실 굉장히 중요해요. 사실 제일 중요한 부분은 해당 분야에 대한 지식이에요. 예를 들어서 저 같으면 건설 회사 다니면서 현장에서 발생하는 지식이 있고요. 여러 가지 변수들이 많을 거예요.
그것들을 결정하는 데 있어서 해당 분야의 지식이 굉장히 중요해요. 왜냐면 해석할 때도 마찬가지고 중간에 이제 자료 수집할 때도 '어떤 자료를 수집해서 어떠한 데이터를 통해서 내가 뭘 분석하겠다.'라고 하는 전반적인걸 데이터 분석의 설계하거든요. 그걸 어떻게 하느냐에 따라서 결과는 달라질 수 있어요.
컴퓨터는 자료를 모으고 연산을 하고 분석까진 해 줄 수 있어요. 그런데 무엇을 어떻게 하라고 지시를 하는 건 사람이라는 거죠. 그게 프로그래밍이에요. 프로그래밍할 때 A 자료를 쓰라고 했을 때와 B자료를 쓰라고 했을 때 결과가 다르게 늦게 나올 수 있어요. 그리고 그렇게 다르게 나오는 것들에 대해서 실제 이게 의미가 있느냐 없느냐를 통계학적으로, 내지는 아까 말씀드렸던 분야에 지식으로 의사 결정을 할 수 있는 거죠.
일반 사람들이 적극적으로 빅데이터를 쉽게 활용하는 시대가 올지?
데이터를 활용할 수 있는 사람하고 활용할 수 없는 사람의 차이는 굉장히 커질 것 같아요.
중소기업 입장에서도 소상공인 입장에서도 마찬가지가 될 것 같아요. 예를 들면 공공데이터 포털이라는 사이트를 가면 각각의 어떤 소매점으로 매출이 어느 정도인지 그리고 위치가 어딘지. 개업 폐업. 점포현황 같은 것들을 다 데이터로 뿌려 주고 있어요. 그럼 그 데이터를 보고 어떤 업종에서 돈을 많이 벌고 어떤 업종으로 해야 되겠다는 판단이 되죠.
부동산 임대 비용 얼마고, 이런 것들 다 볼 수가 있는데 그런 게 아니고 그냥 내가 감으로 사업을 한다?
그랬을 경우에 성공할 수 있는 확률과 실패할 확률 그거를 점쳐볼 수 있겠죠.
예를 들면 레드오션인데도 그 데이터를 안 보고 그냥 갈 수 있는 경우도 많이 생기겠죠.
특히 창업하시는 분들이라던가 하는 분들은 몰라도 지장은 없어요. 근데 다만 성공할 확률 높이는 거죠.
어떻게 해야 데이터 분석가가 될 수 있는지 실질적인 사례 알려 주시면 감사할 것 같습니다.
꼭 빅데이터를 해야 되겠다고 해서 시작한 건 아니었어요. 말씀드렸던 대로 품질관리, 통계 분석을 하다 보니까 자연스럽게 통계분석 프로그램을 접하게 됐고요. 접하다 보니까 "좀 더 공부를 해야 되겠네?"라고 생각을 했고
그러다 보니까 분석, 알파고 하고 이세돌 바둑 기사 님의 대결로 유명해졌던 딥러닝, 그런 기술들에 대해서 좀 더 공부해 볼 수 있는 계기가 됐던 것 같아요.
첫 번째는 이제 아까 말씀드렸던 수학통계
이 부분은 사실 고등학생 분들이 지루해하시거나 재미없어하실 수도 있어요. 저도 그랬고.
우리나라의 입시 현상, 내지는 상황상 그 문제를 푸는 것에 많이 익숙해요. 일상생활에서 내가 자영업을 한다고 하면 '어떤 종목을 선택하지? 뭐가 돈을 제일 많이 벌지?' 공공데이터 포털이라는 데가 있어요.
우리 동네에 어떤 업종이 있는지 개업했고 폐업했는지 데이터가 다 나와요. 그럼 실제로 데이터를 가지고 할 수 있는 것들이 있거든요. 그 아주 재밌는 과정들을 실제로 일상생활 있는 문제들을 통계로 풀어보는 거죠
실제 내가 관심 있는 분야에 대해서 그냥 데이터 분석을 하는 거예요. 누가 시켜서 하는 게 아니고. 내가 수능을 잘 보려고 하는 건 아니에요. 그냥 내가 관심 있고 내가 좋아하니까 해 보는 거예요.
두 번째는 관련된 소프트웨어를 타이어를 좀 친근하게 다루는 게 중요한 것 같아요.
요즘 많이 쓰는 소프트웨어는 '파이썬'이란 소프트웨어를 많이 쓰고요, 제가 사실 더 편한 소프트웨어는 'R프로그램'인데 무료로 다운로드할 수 있어요.
완전히 다른 분야에서 일하시는 분이라면 처음에 입문이라던가 시작할 때 조금 어려울까요?
진입장벽이 있어요, 저도 처음에 진입장벽이 뭐였냐면 바로 통계였어요.
저는 사실 산업공학이나 통계학과를 전공하지 않았어요. 그래서 그때 진입장벽을 그대로 제가 느꼈고,
그래서 통계나 수학 관련된 내용을 좀 공부를 하셔야 돼요. 관련된 좋은 책들이 많아요. 기초통계학이라던지 아님 요즘에는 이제 유튜브도 많이 있고요. 그렇게 접근하시는 걸 추천드리고요.
통계 중에도 어떤 걸 할지 모르겠다.
아예 감이 없다고 하면 좋은 방법이 빅데이터 분석기사 자격증이 작년 12월에 1회가 생겼어요. 데이터 분석에 필요한 기본적인 프로세스, 절차 방법, 프로그램, 그리고 통계학. 유튜브나 요즘에 엄청 많잖아요? 찾아보고 책도 보고 하는 거예요.
두 번째 진입장벽이 사실 프로그래밍이에요. 아까 소개해 드렸던 알이나 파이썬 같은 경우엔 사실 굉장히 직관적이고 일반인도 접근하기 쉬운 문법을 써요. 그리고 아무 R이나 파이썬이나 문법이 프로그래밍은 다 유사해요. 영어 하면 스페인어도 어느 정도 좀 되고 뭐 이런 거 있잖아요. 그렇게 될 수 있어요.
더 자세한 이야기가 궁금하시다면 아래 영상을 클릭해주세요.
https://www.youtube.com/watch?v=jvxmLjKqc2w&t=97s
현직 대기업 건설 데이터 분석가 정경문 님/ 인터뷰 2
https://brunch.co.kr/@writerjeong#articles