지금 빅데이터 해커톤 이틀 차라 데이터 분석 시각화를 진행하고 있는데, 제공된 11만 건 데이터 중 데이터 전처리를 해야 하는 부분도 있고 당연히 추출하거나 병합해야 하는 것도 있어서 골치가 아프다.
분석을 하더라도 "방향"이 잡혀야 "방식"을 정해 1번에서 넘어갈 수 있는데, 항상 나는 방향을 오래 잡고 방식을 금방 끝내는 편이다(이번엔 둘 다 오래 걸릴 것 같다).
방향을 중시하는 이유라고 하면, 고등학교 때 46개의 수상경력이 있는데(광역시 대표도 함) 그때 좋은 결과를 거둘 수 있던 방법이기도 하고,
"왜"가 없으면 "어떻게"가 나올 수 없기 때문이기도 하다.
대회에 나가면 항상 한 가지 주제를 왜 선정하는가, 그리고 그것을 구현하는 방식이 그 목적에 얼마나 부합하고 자연스러운 스토리텔링이 되는가가 중요하다고 생각한다.
그래서 최근에는 해커톤을 나가기 위해 해커톤 스텝을 하며 내가 무엇을 더 배워야 하고 어떤 것들이 부족하고 주변과 비교했을 때 무엇이 부족한가를 면밀하게 들여다보는 시간을 가졌다.
대회의 방향성만 제대로 잡으면 절대 실패할 수 없다고 생각하는 편.
지난번 대회의 기업은 보수적이라 참신한 아이디어보다는 실용적인 결과물을 선호했다. 아무리 소위 mz눈에 기발한 아이디어라고 하더라도 기업의 고객군에 mz만 존재하는 것은 아니다.
이번에는 데이터셋 제공 기업이 아주 혁신을 좋아하는 편이라 재밌고 편안하게 뭔가를 만들어낼 수 있을 것 같다.
데이터 분석을 할 때도 늘상 이 데이터 저 데이터를 가져와서 기능 구현만 할 줄 아는 사람이 아니라 이 데이터가 다른 데이터와 어떤 관계인지 직관적으로 보고 수학적으로 검증하는 사람이 필요하다.
나는 금융데이터에 대해 빠삭하게 알지 못하기 때문에 대회주관기업이 고객이라고 생각하면서 무엇을 원해서 이 해커톤을 진행하는가, 를 중점적으로 생각하려고 했다.
현재 오류가 별 지점에서 나는 바람에 시각화 되는 대로 발표자료 수정하고 있는데 좀 애를 먹는 중이다. import도 바꾸고 모듈에서 파일 불러오는 방식도 다 바꿔봤는데 gpt도 오류 수정을 못하는 거 보니 인스턴스에 한글 파일 폰트 문제가 있는 것 같다.(이게 아니면 왜...!)
나머지 자료들부터 완성시키고 데이터 분석에 매진해야 할 것 같다. 모델을 하나 만들어야 할 것 같은데 오픈소스에서 괜찮은 폼들을 몇 개 발견했다. 조금씩 차용해서 개발하면 될 것 같다. 모델을 웹에 띄워서 웹에서 모델이 잘 돌아가야 할 텐데 웹은 html, css 불필요한 작업 간소화할 수 있게 파이썬 라이브러리나 jupyter notebook 등을 써야 할 것 같다.
큰 틀은 짜놨으니 이젠 상세하게 빈틈을 채울 때.
반드시 좋은 결과를 거둘 거고 좋은 결과를 거두지 못해도 다음에 더 잘할 거다.
개인 개발 역량 점검이 최우선 목적이라 혼자 나갔는데(팀이랑 의견 조율할 시간 없음, 개발자 친구들도 다 entj entp 이래서 줏대 쎔. 남자들은 보통 결과를 보여줘야 의견을 수용하는 편인데 첫 대회에서 팀원과의 조율까지 미션으로 삼기엔 너무 후달린다.) 역량을 4배 이상 발휘해야겠다.