brunch

You can make anything
by writing

C.S.Lewis

by 마인즈앤컴퍼니 Apr 07. 2022

Data scientist는 무슨 일해요?

마인즈앤컴퍼니 Data Scientist 의 단짠단짠 직무 인터뷰 #1

안녕하세요. 마인즈앤컴퍼니입니다. 

마인즈앤컴퍼니는 인공지능 Data Scientist를 적극 채용 중에 있는데요.

입사하게 되면 구체적으로 어떤 업무를 하게 될지 궁금하신 분들이 많았죠?


2021년 하반기에 Data Scientist 로 (이하 DS) 입사하여 프로젝트를 수행하고 계신 홍승우 매니저님을 만나간단하게 인터뷰를 해보았습니다. 어떤 계기로 마인즈앤컴퍼니에 입사하게 되었는지, 입사 후 어떤 프로젝트를 어떻게 했는지, 솔직하게 털어놓는 시간이 되었는데요. 

부끄러움 많은 샤이가이이지만 일할 때만큼은 열정가이인 홍승우 매니저님의 인터뷰 지금 바로 공개합니다!




Q. 안녕하세요! 간단하게 본인 소개 부탁드려요.

안녕하세요, 저는 2021년부터 마인즈앤컴퍼니 DS팀에서 AI 모델을 개발하고 있는 홍승우 매니저입니다.

마인즈앤컴퍼니에서는 다양한 산업군에서 AI 기술을 활용해 실제 문제를 해결해 나가고 있습니다.


그 중에서도 저희 DS 팀은 프로젝트의 최전선에서 AI 기술로 해결하고자 하는 문제를 정의하는 것 부터 직접 AI 개발을 통한 문제 해결까지의 넓은 스코프를 다루고 있습니다. 저 역시 입사 후 다수의 프로젝트에 참여해 오고 있으며, 현재는 모 제조업체와 함께 조립 공정 생성을 자동화하는 AI 기술을 개발하고 있습니다.


Q. 어떤 계기로 Data Scientist가 되었나요? 

저는 경영학을 전공했는데, 통계학이나 계량경제학 같이 데이터를 다루는 수업들과 잘 맞았었습니다. 데이터 분석쪽 과목들을 많이 듣다 보니, 통계 관련 소프트웨어를 다룰 일이 많았어서 자연스럽게 코딩에 관심을 갖게 되었고 이후에 데이터사이언스 부전공까지 하게 되었습니다.


입사 전, 머신러닝 부트캠프와 인턴을 경험하며, 데이터로부터 인사이트를 얻고 다양한 실험을 통해 발전시켜 나가는 AI 개발 직무와 잘 맞는다고 생각해 DS 직무를 선택하게 되었습니다.


Q. 비전공자이지만 인공지능 Data Scientist를 꿈꾸는 사람들에게 조언을 해주실 수 있을까요? 

저처럼 컴퓨터 관련 전공을 하지 않으신 분 중 데이터 사이언스 직무에 도전해보고 싶다는 분들이 계신다면, 부트캠프 과정에 참여하는 것과 기회가 된다면 실제 기업에서의 인턴쉽을 하며 코딩 능력을 키우는 것을 추천해 드립니다.


최근 국내에 유/무료 (사설 / 국비 / K-Digital Training 등) 로 참여할 수 있는 AI 엔지니어 양성 부트캠프 과정들이 많이 생긴 것으로 알고 있습니다. 저는 두 번의 부트캠프에 참가했고, 이를 머신러닝 이론과 프레임워크에 익숙해지는 기회로 삼았습니다.


본인이 배운 것과 참여한 프로젝트들을 잘 정리해놓는다면, 취업을 준비하면서도, 혹은 취업 후 실무를 하면서도 큰 도움이 될 것입니다. 비록 시작점이 달라도, 각자의 상황에 맞게 최선의 선택을 하며 준비한다면 원하는 목표를 이룰 수 있다고 생각합니다.


Q. 입사 후 어떤 프로젝트를 맡으셨나요?

저는 작년에 입사하여 첫 프로젝트로, NIA의 데이터셋 구축사업에 참여했습니다. 서울대학교 병원과 함께 약 1000건의 수면 적외선 영상 데이터셋을 구축하였고, 마인즈앤컴퍼니의 역할은 구축된 데이터셋이 실제 AI 모델링에 활용될 수 있는지 직접 모델링을 통해 검증하는 것이었습니다.


수면 영상에서 환자가 수면 중 이상행동을 하는 구간들을 찾아내는 시간적 행동 탐지 (temporal action detection) 모델링을 수행했는데, 기존의 관련 연구들과 달리 해당 데이터셋에서는 매우 짧은 행동 구간들을 주로 다뤘기 때문에, 많은 시행착오를 겪었던 기억이 있습니다. 마인즈앤컴퍼니에서는 해당 분야 state-of-the-art 아키텍쳐인 P-GCN 을 커스텀 전처리 방식과 함께 구현하여 목표 성능을 달성하고 해당 데이터셋의 유효함을 검증해 내었습니다.


Q. 해당 프로젝트에 대해 더 자세한 설명 부탁드려요.

시간적 행동 탐지 분야에 대해 좀 더 말씀드리면, 영상에서 행동이 어디서부터 어디까지이며 어떤 행동에 해당하는지를 예측하는 태스크입니다. 시각적 요소뿐 아닌 시간적 요소까지 고려되어야 하기 때문에 모델은 복잡한 구조를 띠게 됩니다. 시간적 행동 탐지 태스크를 수행하기 위해 저희는 P-GCN 아키텍처를 사용했습니다. 


P-GCN은 Graph Convolution Network (GCN) 을 시간적 행동 탐지에 사용한 모델로, 프로포절 (행동이 있을 법한 구간들을 후보로 미리 모델에게 제안해 주는 것) 들 간의 관계를 정보로 활용하여 행동 구간을 좀 더 정교하게 예측할 수 있습니다.


P-GCN 을 비롯한 시간적 행동 탐지 분야는 영상에서 비교적 큰 범위의 행동 (테니스 치기, 달리기 등)에서 주로 연구돼 왔습니다. 그에 비해 저희는 1초 내외의 짧은 다리의 움직임을 잡아내야 했기 때문에, 기존 P-GCN 의 전처리-학습 파이프라인을 그대로 사용할 수 없었습니다. 


따라서, 여러 시행착오 끝에 광학 흐름 (optical flow)의 정보로부터 sliding window 방식으로 프로포절을 생성하는 방식을 개발하게 되었습니다. 아무래도 이렇게 문제를 찾고 해결했을 때가 프로젝트를 하며 가장 기억에 남는 부분이 아닐까 싶습니다.


P-GCN 모델의 구조 / 모델 입력을 위한 데이터 전처리 과정



Q. 본인이 속한 DS팀의 장점이 있나요?

마인즈앤컴퍼니에서는 정말 다양한 기업들과 다양한 분야의 프로젝트를 함께합니다. 따라서, 머신러닝의 여러 하위 태스크를 경험해볼 수 있는 게 가장 큰 장점이라고 생각합니다.


DS 팀원들은 각자 여러 프로젝트에 참여하며 다양한 분야의 경험을 쌓기 때문에, 처음 해보는 분야의 프로젝트에 참여하게 되더라도 언제나 물어볼 동료가 있다는 것이 언제나 참 든든합니다. 또한 처음 입사하게 되면 온보딩 프로그램이 마련되어 있어 기본적인 툴 활용법, 코드템플릿 등에 대해 알려주고, 이미지/자연어/수치해석 분야 이론과 실습 교육을 받을 수 있는 것이 좋았습니다. 


앞으로도 내부에 다양한 연구와 스터디가 예정되어 있어 기대가 큽니다. 다양한 프로젝트 각 분야에서 전문성을 쌓고 있는 팀원들이 더 활발하게 교류하여 서로의 지식과 경험을 나누고, 전문가로 성장하기 위한 장이 되었으면 좋겠습니다. 


Q. 일하면서 힘든 점이 있다면 무엇일까요?

많은 데이터 사이언스를 하시는 분들이 공감하실 것 같은데, 데이터 품질이 기대했던 것만큼 좋지 못하고, 수집 단계에서 문제가 생겨 제때 데이터를 받지 못하는 경우가 종종 있습니다. 막상 데이터를 받고 모델 학습을 시켜보면, 프로젝트 초반에 구상했던 아키텍처와 참고하기로 한 관련 연구들로부터 방향이 달라지는 경우가 있어 어려움을 느끼는 부분이 있던 것 같습니다. 


하지만 완벽한 데이터는 실험실에나 있는 것이고, 업무를 하면서는 주어진 상황에 맡게 방향을 틀고 극복해 나가는 과정이 중요하다고 생각합니다.


Q. 마인즈앤컴퍼니에서 앞으로 이루고 싶은 것이 있다면?

제가 참여한 프로젝트의 특성 (데이터셋 구축) 때문에 아직은 제가 개발한 모델이 실제로 서비스되고, 산업에 실제로 적용되면서 직접적으로 성과를 보이는 것을 아직은 경험해보진 못했습니다. 


현재 참여중인 제조업의 공정 순서 생성 프로젝트가 아직은 연구 단계에 있지만, 하반기까지 실제 사용할 수 있는 정도의 성능을 내는 것을 목표로 하고 있습니다. 올해는 제가 참여한 프로젝트의 실제 AI 기술이 비즈니스에 적용되어 업무의 효율을 높이고 있다는 소식을 들어보고 싶습니다.




마인즈앤컴퍼니는 적극 인재 채용 중입니다. 많은 관심과 지원 바랍니다.  

https://mnc.ai/?p=16


작가의 이전글 [RL] 1-1. 강화학습이란?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari