일잘러 데이터 사이언티스트 되기 - 2

현장에서 돋보이게 만드는 한 끗 차이

by 영레코드 YoungRecord

이전 글에서는 데이터 사이언티스트로 일하면서 꼭 필요한 기본기들을 다뤄봤어요. 이번엔 그런 역량들 위에 어떤 걸 더하면 실무에서 한 발 앞서 나갈 수 있을지, 제가 느낀 차별화 포인트들을 정리해보려고 합니다.


1. Graph Database

이걸 아는 건 정말 차별점입니다. Graph database는 네트워크 분석, 추천 시스템, 사기 탐지 등에서 엄청난 힘을 가지고 있어요. 특히 소셜 미디어나 e-commerce 환경에서는 사용자 간의 관계, 콘텐츠 간의 연결성을 분석할 때 전통적인 RDBMS (관계형 데이터베이스)로는 한계가 있거든요. 이럴 때 그래프 구조가 훨씬 유리하죠.


많은 사람들이 graph theory는 들어봤지만, 실제로 Neo4j나 Amazon Neptune 같은 그래프 DB를 써서 문제를 풀어본 경험은 드문 것 같아요. 만약 네트워크 기반 데이터로 분석할 일이 있다면, 이 방법을 제안해 보세요!

이미지 출처: neo4j

2. PySpark 마스터하기: 몇 시간에서 몇 분으로 Big Data 처리

SQL이나 Python은 다들 어느 정도 다루지만, PySpark는 실제 현업에서 적극적으로 쓰는 사람이 많지 않아요. 하지만 데이터 볼륨이 큰 환경에서는 이게 정말 큰 차이를 만듭니다.


실제로 수백만 행짜리 데이터를 Pandas로 처리할 때는 몇 시간이 걸렸던 작업이, PySpark로 바꾸니까 몇 분 만에 끝나더라고요. 메모리 사용량도 훨씬 효율적이고, 분산 처리 덕분에 같은 리소스로도 훨씬 많은 양의 데이터를 다룰 수 있어요. 정말 체감할 수 있는 차이거든요. 대용량 데이터를 자주 다루는 환경이라면 PySpark는 분명한 무기가 될 것입니다.


3. 자신 있게 의견을 말하는 힘

회의든 발표든, 어떤 상황에서든 내 의견을 자신 있게 말하려면 결국 철저한 준비에서 출발하는 것 같아요. 저는 회의 전에 내용을 정리해서 한 번쯤 말로 연습해 보는 걸 습관처럼 하고 있어요. 예상 질문을 미리 떠올려보고 답을 시뮬레이션해 보는 것도 도움이 되더라고요.


특히 외국에서, 영어로 커뮤니케이션을 해야 하는 상황에서는 내가 정말 하고 싶은 말을 정확하게 전달하려면 더 많이 준비하게 돼요. 말이 막히거나 오해가 생기면 괜히 자신감이 떨어질 수 있기 때문에, 미리 정리하고 연습하는 과정이 더더욱 중요하더라고요.


미국에서 일하면서 자주 느낀 건, 아무리 좋은 아이디어가 있어도 말로 잘 전달하지 못하면 아무도 모른다는 거예요. 결국 일 잘하는 것도 중요하지만, 설득력 있게 말하는 능력은 그에 못지않게 중요하다는 걸 점점 더 실감하고 있습니다.



* 이미지 출처: Nitor Infotech (https://www.nitorinfotech.com/blog/pandas-vs-pyspark-comparing-modern-python-data-processing-paradigms/)

keyword