3주차에서는 Pandas와 Seaborn을 배운 후에 공공데이터와 Kaggle 데이터를 이용해 기초적인 분석까지 진행했다. 지금까지 파이썬과 여러 라이브러리를 배운 건 데이터를 분석하기 위함이었는데 그 과정이 이제서야 눈에 보인다. 지나온 것들이 어떤 이유로 필요했는지 이제야 어렴풋이 알게되서, 앞에 배웠던 내용을 다시 봐야겠다는 생각이 든다. 전체적인 그림을 처음부터 보여주고 시작하면 좋았을 텐데 하는 아쉬운 마음도 든다. 강의 처음부터 여러 라이브러리 이름이나 나중에 이게 필요할 거라는 식의 언급은 있었지만 좀 얼렁뚱땅 넘어가서 아쉬운 점이 있었는데, 이제서야 그걸 알게 되니 처음부터 말해줘도 좋았을 걸 싶다. 어차피 목적 자체가 데이터 분석을 하기 위한 것이니 처음부터 데이터 분석이라는 과정에서 각 도구들이 왜 필요하고 어떤 흐름으로 사용될지를 알려줬으면, 어디로 가고 있는지 파악하며 들을 수 있었을 것 같다. 물론 그랬다고 해서 지금보다 월등하게 알았을 것 같지는 않지만 적어도 어디쯤 있구나는 알 수 있었을 테니까. 지금은 5주 안에 강의를 다 듣고 어느 정도 소화해야 하기 때문에 제대로 복습을 하기는 어렵고, 5주 후에 찬찬히 처음부터 다시 살펴봐야겠다. 그러면 파이썬 언어와 함수, 라이브러리들이 다시 보일 듯 싶다.
공공데이터와 Kaggle 데이터를 분석하는 과정을 통해 결국 파이썬을 활용한 데이터 분석이란 명령어를 세팅하고, 대상 파일을 불러오고, 분석하고자 하는 데이터 프레임의 각 컬럼 등 정보를 확인하고, 사용할 수 있도록 데이터 전처리 과정을 거치고, 원하는 분석 과정을 거친 뒤에, 시각화하는 과정을 거친다고 이해했다. 이 단계를 모두 제대로 수행하기 위해서 이해하고 알아야 하는 것들이 너무 많지만!
그래도 이번 강의에서 가장 큰 수확은 파이썬이 엑셀보다 왜 편리할 수 있는지를 알게 된 점이다. 강의에서는 계속 파이썬의 뛰어난 속도를 강조했지만, 아직 큰 규모의 데이터를 다루는 것이 감이 잘 오지 않는 상태에서는 속도보다 간편한 필터링과 시각화 툴인 seaborn에 큰 매력을 느꼈다. seaborn은 기본만으로도 굉장히 깔끔한 결과물을 보여주는데, kaggle에 올라온 사례들처럼 몇 가지 추가 코드로 좀 더 보기 좋게 꾸밀 수 있다는 점이 좋았다. 엑셀의 시각화 툴보다 세련되어 보였달까. 필터링의 경우, 엑셀에서도 비교적 간편하게 사용할 수는 있었지만 원하는 방식으로 '추출'할 때는 불편한 점이 분명히 있는데. 파이썬 명령어만 익히면 좀 더 편리하게 결과물을 직관적으로 볼 수 있다는 점이 매력적이었다. 그동안 데이터하면 엑셀과 스프레드시트만 생각했는데 다른 파일형식에 대해서도 좀 더 알고 싶다. 큰일이다. 점점 더 궁금한게 많아진다.
실제로 적용해보는 4주차와 5주차를 시작하기 전에 추가로 제공해 주신 데이터 전처리 강의도 보고 싶은데... 시간이 없다. 게다가 이쯤 배우고 나니 이어서 배우고 싶은 것들이 생긴다. 먼저는 데이터 분석을 더 의미있게 하기 위해서는 결국 수학적 지식이 필요할 수밖에 없다. 다시 수학책을 뒤적뒤적하고 싶어진다. 두 번째로 데이터 분석 외에 파이썬을 이용해 할 수 있는 다른 적용 사례들도 보고 싶다. 시간은 한정되어 있고 현업도 있는데. 배우고 싶은 건 계속 생기고, 시간을 내어 배우면 그 다음에 배우고 싶은 게 또 생기고. 욕심인가 싶다가도 하고 싶은 걸 하는데 그게 또 왜 욕심인가 싶고 뭐 그렇다. 지금까지 잘 정리해뒀으니 하루 이틀은 복습을 좀 하고 4주차 강의로 돌입해야겠다. 아자!
+
강의를 들으면서 한창 재밌게 하다가 어려워져서 결말까지는 못 봤던, 코딩게임이라 할 수 있는 7 billion humans가 생각났다. 다시 아이패드를 열어 하루에 하나씩 하는 중이다. 중간을 넘어가니 여전히 어렵지만 다시 도전해봐야지. 과연 이번에는 결말까지 볼 수 있을 것인가.
#패스트캠퍼스 #내일배움카드 #K디지털크레딧 #바이트디그리 #데이터분석인강