brunch

You can make anything
by writing

C.S.Lewis

by 익숙하지않은것 Aug 25. 2021

데이터 사이언스 외에 해야 할 일들

데이터 사이언스로 결과를 내기 위해 해야 할 일들

질문


도서관 서비스를 제공하는 A사는, 고객에게 다음에 읽을 만한 책을 추천해 주려고 했다. 내부 데이터 사이언티스트 팀이 고객의 기존 도서 대출 데이터를 기반으로 다음에 특정 책을 읽을지 예측할 수 있는 모델을 개발했다. 그러면 이제 고객에게 책을 추천할 수 있게 되었을까?


 데이터 사이언스 범위의 이해


이 문제를 이해하려면, 현재 데이터 사이언티스트의 업무 범위가 어디까지인지를 알아야 한다.

(물론 업무 범위는 조직과 트렌드에 따라 계속해서 바뀐다.여기서는 '일반적으로' 생각되는 데이터 사이언티스트의 업무 범위를 이야기한다.)


이전의 글에서 데이터 사이언스를 아래와 같이 정의했다.


데이터 사이언스는 주어진 데이터를 가지고, 다른 데이터를 예측할 수 있는 논리적인 모델을 찾아내는 일이다. 


위 정의에 따라 데이터 사이언스팀의 업무의 시작과 끝을 정리하면 다음과 같다.


모델을 만들기 위해 필요한 데이터를 받는 일

모델을 완성하는 일


다음에 해야 할 일


그렇다면 자연스럽게 앞,뒤에서 아래와 같은 일을 해야 함을 알 수 있다.


모델에 사용될 데이터를 만들어내는 일 

완성된 모델을 이용해서 결과를 예측하는 일


결국 아래와 같은 순서로 서비스가 이루어지게 된다.


1. 필요한 데이터를 지속적으로 만들어 낸다.

2. 모델을 가지고 결과를 예측한다.

3. 예측된 결과를 필요한 곳에 전달한다.


그러면 데이터 사이언티스트는 더 이상 할 일이 없을까?

그렇지 않다. 시간이 지나면서 모델의 성능이 떨어질 수 있기 때문이다.


이 글 제일 처음에 예로 들었던, 도서관 서비스를 제공하는 A사에서 만든 책 추천의 경우, 고객 유형이나 도서의 유행이 바뀌면서 예측 성능이 떨어질 수 있다.


그래서 데이터 사이언티스트도 계속해서 모델을 개선해 나가야 한다.


이를 포함해서 서비스의 순서를 다시 정리하면 다음과 같다.


1. 필요한 데이터를 지속적으로 만들어 낸다.

2. 모델을 가지고 결과를 예측한다.

3. 예측된 결과를 필요한 곳에 전달한다.

4. 예측의 성능을 확인해서, 성능이 떨어지지 않도록 모델을 개선한다.

5. 개선된 모델을 이용해서 결과를 예측한다.

6. 예측된 결과를 필요한 곳에 전달한다.

7. 이후 반복


결론


데이터 사이언스를 이용하고자 하는 회사는 크게 아래와 같은 3가지 업무를 수행해야 한다.


모델에 필요한 데이터를 생성하는 일

데이터를 기반으로 모델을 계속 개선하는 일 (=데이터 사이언스)

모델을 이용해 결과를 예측하고, 개선된 모델이 나오면 지속적으로 반영하는 일





주석


데이터를 생성하는 시스템을 만드는 일을 Data Engineering,

모델을 반영하는 시스템을 만드는 일을 MLOps Engineering이라고 부른다.

작가의 이전글 Coursera Plus로 비용 절약하기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari