brunch

You can make anything
by writing

C.S.Lewis

by 쿤데라 Apr 08. 2019

데이터 사이언스 세상에 발을 들이다 (2)

철학 심화 전공 문과 출신 에디터의 데이터 사이언스 입문기.

데이터 사이언스 입문반 2주차. 파이썬을 설치했다. 파이썬은 굉장히 방대한 프로그램 언어다. 남은 수업이 3번뿐인데, 그 방대한 것 중에 뭘 배우냐. 우선순위를 정하고 중요한 것만 집중적으로 익힌다. 매일 쓰는 게 중요한 거다. 그럼 나머지는? ‘구글링하라.’ 이게 마치 ‘네이버에 물어보세요.’처럼 수업을 날로 먹으려는 듯 들릴 수도 있는데, 상황이 좀 많이 달라졌다. 워낙에 방대한 자료가 구글 안에 다 있어서 이제 구글에 물어보는 건 무언가를 배우려는 사람이라면 마땅히 취해야 할 기본 자세가 됐다. 실제로 파이썬 공부하는 데 있어서 구글에 물어 안 나오는 건 없다.


공부 전략도 다른 학문을 공부할 때와는 조금 다르게 짜야 한다. 사실 내가 지금 파이썬을 배운다 하더라도 회사에서 당장 이걸 쓸 일이 없다. 같이 수업 듣는 사람들도 마찬가지. 실전반도 아니고 이제 입문 듣는데, 눈에 보이는 생산성 향상을 기대하는 거 자체가 말이 안 된다. 어차피 장기적으로 데이터 사이언스를 위한 공부라면, 지금 당장에 배운 거를 매일 복습하고 손에 익히고 하는 게 비효율적이다. 6개월, 1년 뒤에 어차피 다시 또 보고 익힐 것 아닌가. 그래서 하루 동안 배운 거를 잘 외우는 것보다 최대한 메모를 잘해서 언제든지 꺼내 쓸 수 있게 하는 게 훨씬 더 중요하다. 결국, 입문반 수업은 메모가 핵심이다.



언어는 소통 수단이다. 그러니까 프로그램 언어(C언어, java, python 등등)는 컴퓨터와 소통하기 위해 쓰는 건데, 얘네들이 high level과 low level로 나뉜다. low level은 인간보다 컴퓨터가 이해하기 쉬운 언어다. 당연히 우리가 배우기는 난위도가 상당하고. 실행 속도가 빠르다. 반면 high level은 사람이 이해하기 쉬운 언어다. 놀라우리만큼 직관적인데, 대표적인 게 파이썬이다.








파이썬이 막강한 이유는 범용성에 있다. 각 분야를 대표하는 패키지가 있어서 그걸 설치하면 거의 모든 분야의 일을 다 할 수 있다. 어제 한 걸 정리해 보자면, 파이썬 기본기를 배우고, 데이터 분석을 위한 패키지 판다스를 설치해 데이터를 정리한 뒤, Decision Tree라는 머신러닝 알고리즘에 정리한 데이터를 넣어 예측값을 뽑아 Kaggle에 제출했다. 그리 Kaggle은 지난주 파이썬과 Decision Tree 없이 혼자 끙끙댔을 때보다 0.02 포인트 향상된 0.78이라는 점수를 하사하셨다.







어제 수업 중 인상 깊었던 포인트: 프로그램 언어에서 가장 중요한 소양은 명시성이다. 어차피 혼자 개발하는 사람 거의 없고, 다 동료들이랑 협업하는 거다. 모두가 알아볼 수 있도록 최대한 깔끔하고 명시적으로 코드를 짜는 게 중요하다. 그래서 띄어쓰기를 생활화하고, 코드를 잘게 쪼개서 짜는 습관을 들여야 한다.


그리고 이건 희망적인 이야기랄까. 실제 소프트웨어 개발 쪽에서 가장 빠르게 적응하는 사람들이 영어영문과 등의 문과들이라는 사실. 수학이나 통계 지식보다 애플 등의 기업에서 주는 문서 읽고 빠르게 이해하는 게 더 필요한 능력이다. 어쩐지 어제는 수업 끝나고 머리가 덜 아프더라. 이제 절반 왔다.


매거진의 이전글 데이터 사이언스 세상에 발을 들이다 (1)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari