brunch

You can make anything
by writing

C.S.Lewis

by 데잇걸즈 Jun 04. 2018

데잇걸즈 2기 오픈톡 Q&A

지난 주 금요일 저녁에 많은 관심과 참여 속에서 진행된 데잇걸즈 2기 오픈톡의 Q&A를 정리해보았습니다!

6월의 시작, 소중한 불금을 저희와 함께 해주셔서 감사해요. :)


데이터 과학


Q. 데이터 엔지니어의 일은 데이터 사이언티스트가 하는 일과 어떻게 다른가요? 
A. 일반적으로, 데이터 엔지니어와 데이터 과학자는 데이터를 유용한 형태로 활용하기 위해 들이는 노력 및 역할이 다릅니다. 데이터 엔지니어는 데이터베이스 및 대규모 처리 시스템과 같은 아키텍처를 개발, 구성, 테스트 및 유지 관리하는 사람입니다. 반면에 데이터 과학자는 데이터를 정리하고, 다루고, 구성하는 사람입니다.


Q. 데이터 자료를 보는 능력을 키우는 방법과 데이터 과학 관련 전공을 더 효율적으로 공부하여 실무에 적응시킬수 있는 방법이 있나요?

A. 운동량과 몸무게 변화량 등 라이프로그, 미세먼지, 날씨, 교통량 등 공공데이터와 같이 본인의 일상과 관련이 있는 작고 간단한 데이터를 다양하게 다뤄보는 연습을 꾸준히 하면 좋습니다. "다뤄본다"는 것은 단순히 데이터를 살펴보는 것 뿐 아니라 데이터를 분석한 결과가 사소하게라도 일상의 행동에 영향을 주도록 고민하고 실천하는 과정을 포함하면 좋습니다.


Q. 데이터 수집 후 분석을 하는 데에는 “어떠한 데이터가 어떤 형태를 보일 것이다”라는 식의 가정이 필요할 것으로 예상되는데요, 그러한 가정은 주로 어떻게 설정하나요?

A. "수집을 한 후 분석을 한다"는 표현에는 수집 단계가 모두 끝나면 분석 단계가 시작된다는 가정이 담겨 있습니다. 실제로는 수집과 분석을 오가는 경우가 많고 그렇게 하길 권장합니다. 많은 노력 끝에 수집을 모두 다 마친 다음에 분석을 시작하려고 하면 "아차 데이터 잘못 모았다"하는 경우가 많기 때문입니다. 물론 수집과 분석 과정을 짧게 오가는 동안에도 "이 데이터는 어떤 특성을 가질 것이다"라고 가정을 하곤 하지만 되도록 가정을 믿기 보다는 초기에 데이터를 일부만 수집한 이후에 데이터가 어떻게 생겼는지 이리저리 빠르게 둘러보는 편이 좋습니다. 이 과정을 탐색적 데이터 분석(exploratory data analysis)이라고 부릅니다. 데이터를 일부 샘플링하여 다양한 방식으로 시각화해보고, 평균이나 분산 등 여러 통계량을 통해 데이터의 특성을 파악하기도 하고, 데이터에 특정 함수를 적용하여 뒤틀어보기도 합니다(Tukey's Ladder of Powers).


Q. 좋은 데이터와 나쁜 데이터 구분하는 기준이 무엇인가요?

A. 결과로써 좋은 데이터를 판단하는 기준보다는 과정으로써 좋은 데이터를 모으는 방법을 고민하는 편이 유용한 경우가 많았습니다. 한번에 모든 데이터를 다 모은 뒤에 분석을 시작하기보다는 약간의 데이터로 약간의 분석을 해보고, 그 결과에 따라 데이터 수집 절차를 개선하기를 여러차례 반복하는 편이 좋았습니다. “이 데이터로 무엇을 할 수 있을 것인가?“라는 질문과, “이 일을 하려면 어떤 데이터가 필요할까?“라는 질문을 번갈아가며 던져보면 유익합니다. 또한 데이터를 수집하고 이를 분석에 적합한 형태로 가공하는 과정에는 많은 노력이 들어가며 같은 작업을 처음부터 반복해야하는 경우가 상상 이상으로 자주 발생합니다. 따라서 되도록 수집, 정련, 분석 과정이 최대한 자동화되도록 하고 수작업을 줄이는 것이 매우 중요합니다. 마지막으로, 내가 내린 의사결정(어떤 데이터를 수집할 것인가, 어떤 방법으로 수집할 것인가, 결측치를 어떻게 처리할 것인가 등)이 데이터를 어떤 식으로 편향시키는지 항상 주의깊게 생각하는 것이 중요합니다. 완전히 객관적인 데이터는 존재하지 않는다는걸 항상 인식하고 작업하는 것이 유익했습니다.



프로그래밍 언어 및 소프트웨어


Q. R vs. Python?

A. 상황과 목적에 따라 조금 더 적합한 언어와 조금 덜 적합한 언어가 있는 것은 사실이지만 반드시 특정한 언어를 써야만 하는 상황은 생각보다 많지 않다는 점에서 둘 중 어떤 언어를 선택하더라도 중대한 차이가 있지는 않습니다. 처음 배울 프로그래밍 언어로 무엇을 선택할 것인지는 생각만큼 중요한 문제가 아닐 수 있습니다. 특히 파이썬과 R은 서로 유사한 점이 많기 때문에 하나의 언어를 배운 뒤 다른 언어를 배우는 일이 생각만큼 어렵지 않습니다. 현업에 종사하는 많은 엔지니어들은 서너개 이상의 언어를 곧잘 다루곤 합니다. 그럼에도 불구하고 R이 아닌 파이썬으로 교육을 진행하는 이유에 대해 굳이 설명하자면, 데이터 과학 이외의 분야에서도 파이썬이 상대적으로 더 널리 쓰인다는 점, 신경망을 이용한 기계학습 분야에서 파이썬이 상대적으로 더 널리 쓰인다는 점, R의 훌륭한 패키지들을 파이썬에서도 쉽게 불러 쓸 수 있다는 점, R에 비해 언어의 설계가 조금 더 일관성 있다는 점 등을 꼽을 수 있습니다.  


Q. 따로 배워야 하는 소프트웨어가 있나요?

A. 수많은 도구들이 나타나고 사라지기 때문에 반드시 배워야할 소프트웨어를 단순 나열하기 보다는, 도구를 대하는 태도에 대해 말씀드리고 싶습니다. 업무의 맥락에 따라 적절한 도구를 찾아내고, 이를 빠르게 필요한 만큼만 익혀서 활용하는 능력이 중요하다고 생각합니다. 그 과정에서 자연스럽게, 자주 쓰이는 도구에는 점점 더 익숙해지게 됩니다. 반대로 말하면, 업무 맥락에 상관 없이 어떻게 해서든 새로운 도구를 익히지 않고 내가 알고 있는 도구만 써서 해결을 해보려고 하는 태도를 지양해야 한다고 생각합니다.  


Q. 데이터 분석에서 태블로, 파이썬의 위상에 대하여 궁금합니다.

A. 파이썬은 R과 함께 데이터 분석에서 가장 널리 쓰이는 언어입니다. 태블로는 엑셀과 함께 탐색적 데이터 분석 도구 중 가장 널리 쓰입니다. 엑셀에 비해 데이터를 더 다양하고 효과적인 방식으로 표현할 수 있다는 점, 쉽고 빠르게 탐색할 수 있다는 점 등 여러 강점이 있습니다. 파이썬 등으로 데이터를 수집/가공/저장하고 그 결과를 태블로로 시각화하는 등 여러 방식으로 함께 쓰이기도 합니다.  



커리어


Q. 비전공자가 데잇걸즈를 통해 데이터 분석가로 취업할 수 있을까요?

A. 그것을 목표로 교육 과정을 준비하고 있습니다. 어려운 목표이기 때문에, 가르치는 사람과 배우는 사람 모두에게 많은 각오와 노력과 실천이 필요한 일이라고 생각합니다. 교육 기간 중 꾸준히 노력한 과정과 이를 통해 기량을 꾸준히 향상시킨 과정을 정리하여, 차별성 있는 각자의 포트폴리오가 될 수 있도록 할 계획입니다.


Q. 신입이 들어왔을 때 분석 툴을 잘 사용하는 사람이 같이 일하기 편하신가요? 아니면 도메인 지식이 높은 사람이 편하신가요?

A. 의사소통이 원활하고 협업이 잘 되면서 툴도 잘 쓰고 도메인 지식이 많으면 좋기야 하겠지만, 그보다는 상황에 맞는 기술/도구/지식을 빠르게 습득할 수 있고 유행하는 기술보다는 기초통계, 프로그래밍 기초 등 기본기가 튼튼한 사람이 주로 선호 대상입니다. 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari