brunch

You can make anything
by writing

C.S.Lewis

by 데이터파머 DataFarmer Nov 16. 2023

#6 프로세스 마이닝 (데이터 분석#1)

#데이터사이언스 #데이터마이닝 #데이터분석 #프로세스마이닝 #라라크루

지난 3개의 글을 통해 데이터 탐색 분석에 대해 모두 마쳤다. 첫 글에는 데이터 분석보다는 약간의 인문학적인 관점에서 데이터와 인간관계에 대한 내용을 이공계생의 언어로 써보았는데, 어느 작가님이 이과적 언어의 문학이라는 표현이라는 댓글의 힘을 얻기도 했다.


데이터 탐색의 목적은 데이터를 이해하는 것이고, 그것을 이루기 위해서는

적절한 질문을 통해 데이터를 표현하는 적합한 기술 통계 방법을 선택하고, 데이터를 가다듬어서 시각화하는 것이다.


데이터 탐색에 내가 사용한 기술 통계는 바차트, 닷차트, 박스차트를 사용했고, 평균과 1~3 분위 값 등을 이용하여 원하는 데이터에 대한 숫자를 분석하였다. 


기술 통계 방법을 분석할 때는 SPSS, SAS, R 또는 파이썬을 활용하여 전통적으로 사용해 왔고, 누구나 쉽게 이용할 수 있는 엑셀을 활용해서 분석한다. 


하지만 이번에는 기존의 방식과는 다르게 프로세스 마이닝이란 분석 방법을 활용하여 데이터를 분석하였다. 


프로세스 마이닝이란 네덜란드의 컴퓨터 과학자이자 교수인 Wil van der Aalst가 창시한 기술로, 데이터 마이닝의 한 분야라고 볼 수 있다.


프로세스를 기반으로 한 데이터 분석기법으로, 다양한 기기, 일상 또는 업무에서 발생되는 데이터인 이벤트 로그를 분석하는 것이다. 


어떤 일을 하기 위해 누가, 무엇을, 어떻게, 언제 하였는가를 분석해서 가시화할 수 있는 효과적인 방법이다.


예를 들어 자동차 공장에서 차를 만들기 위해서는 A 작업자는 외관, B 작업자는 배선, C 작업자는 내부, D 작업자는 엔진 등의 역할을 나누어서 만든다고 하면, 각 작업자별(누가)로 해당 작업(무엇을)을 하기 위해서 어떤 프로세스를 거치는지(어떻게) 하는지를 매우 간단하게 보여줄 수 있다.

프로세스 마이닝 raw data 및 시각과 프로세스 (출처 : 퍼즐데이터)


우리 병원의 로봇들은 약 배송을 (무엇을; CaseID) 하기 위해서, OneDemand -> Waiting_El -> Boarding_EL -> In_EL -> TakeOff_EL -> TakeOff_EL_Done 이라는 프로세스를 (어떻게; Activity) 거치면서 해당 이벤트들이 시간대별로 언제 (언제; TimeStamp)하는지를 아래와 같이 시각화해서 정리해 준다.

로봇 약제 배송 프로레스 마이닝 분석 결과 (출처 : 저자 작성)


병원의 로봇들은 매우 단순하고 반복적인 일들을 수행하기 때문에 프로세스 마이닝의 결과는 누구도 예상할 수 있게끔 깔끔하게 정리가 된다. 반면 복잡한 공정을 거치는 일이 있는 곳에서는 결과도 복잡하게 나오지만, 이와 같은 일에 대해 분석을 할 때 어떤 부분이 문제가 있는지? 지연이 되는지? 등에 대해 관심 있는 부분을 가시화해줄 수 있다.

복잡한 프로세스 마이닝 결과 (출처: 퍼즐데이터)


국내에서는 해당 분석 툴을 개발한 곳은 퍼즐데이터라는 회사로, 포항공대 송민석 교수 연구진이 개발하였다. 이번 데이터 분석에는 퍼즐데이터의 ProDiscovery 툴을 활용하여 아주 쉽게 하여서, 많은 시간이 절약되었다.


빅데이터 인공지능 시대가 되면서 데이터의 양이 기하급수적으로 늘어나고 있고, 이런 빅데이터에서 중요한 부분을 찾아서 인사이트를 도출하는 게 매우 어려운데, 프로세스 마이닝은 빅데이터 분석에 비전문가도 이용할 수 있는 효과적인 분석기법이라고 생각된다.




매거진의 이전글 #5 데이터로 바라보는 로봇의 흔적 (데이터 탐색#3)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari