brunch

You can make anything
by writing

C.S.Lewis

by 데이터파머 DataFarmer Dec 01. 2023

#7 데이터 마이닝, 그리고 프로세스 마이닝

#데이터사이언스 #데이터마이닝 #데이터분석 #프로세스마이닝 #라라크루

프로세스 마이닝을 자세하게 이해하기 앞서서 데이터과학, 데이터 마이닝을 이해하면 프로세스 마이닝에 대해 보다 쉽게 이해가 가능하다.


데이터 마이닝이란 대량의 데이터에서 패턴, 추세, 상관관계 또는 의미 있는 통찰력을 발견하는 프로세스이다. 데이터를 분석하고 해석하고 의사 결정 및 예측 모델링에 유용할 수 있는 숨겨진 패턴과 관계를 찾아내는 것이다. 여러 분석 알고리즘 및 모델을 이용해 대량의 데이터 안에서 통계적 규칙이나 패턴을 찾아내고 가치 있는 정보를 추출하는 분석 방법이다.


그리고 프로세스 마이닝이란, 지난 글에서도 소개한 바와 같이 이벤트 로그 데이터를 기반으로 다양한 프로세스를 분석하는 데이터 마이닝의 형태이다. 이벤트 로그는 타임스탬프, 관련된 작업자 또는 주체, 이벤트 결과를 포함하여 어떤 일을 하기 위한 모든 이벤트나 활동에 대한 정보를 분석한다. 프로세스 마이닝은 이 데이터를 사용하여 발생하는 실제 프로세스를 시각적으로 표현함으로써 프로세스 실행 방법, 병목 현상이 발생할 수 있는 위치, 특정 프로세스 흐름에서 변형이 발생할 수 있는 방법에 대한 통찰력을 제공한다.


프로세스 마이닝은 일종의 데이터 마이닝의 방법 중 하나이다. 하지만 다른 점은 프로세스 그 자체에 좀 더 집중한다는 점이다. 예를 들어서, 공장에서 쇳물이 하나의 철판이 되기까지 굳히기, 펴지기, 자르기 이런 다양한 과정을 거치는데, 데이터 마이닝이 이런 공정에서 결과적으로 무엇이 일어났는가, 무엇이 일어날 것인가, 왜 일어났는가에 집중한다면, 프로세스 마이닝은 공정 과정(Process) 전체를 분석하고 시각화해서 어떻게 이 공정을 더 효율적으로 개선하고, 발전시킬 수 있는지에 집중하여 보여줄 수 있는 학문이자 분석 방법이다.


Process mining = data science ∩ process science. [출처 : Process Mining: A 360 Degree Overview]


조금 더 넓게 보자면, 데이터 마이닝의 보다 넓은 개념인 데이터 과학과 프로세스 마이닝보다 넓은 개념인 프로세스 과학의 교차점에 프로세스 마이닝이 있으며, 데이터 과학은 데이터를 실제 원하는 가치로 전환하는 것을 목표로 하는 분야로 예측, 자동화된 의사결정, 데이터에서 학습된 모델 또는 통찰력을 제공하는 모든 유형의 데이터를 시각화한 형태로 제공할 수 있다. 데이터 과학에는 데이터 추출, 데이터 준비, 데이터 탐색, 데이터 변환, 저장 및 검색, 컴퓨팅 인프라, 다양한 유형의 마이닝 및 학습, 설명 및 예측 제시, 윤리적, 사회적, 법적, 사업적인 측면에서 프로세스 과학은 정보 기술의 지식과 경영 과학의 지식을 결합하여 운영 프로세스를 개선하고 실행하는 더 넓은 분야를 가리키는 포괄적인 용어로 사용된다. 


반면 프로세스 과학은 다음과 같은 주요 특성이 있다. 주로 비즈니스 프로세스나 시뮬레이션, 작업 관리, 산업공학, 기획 및 관리를 위해 주로 사용되고 있다.

(1) 프로세스에 초점이 맞춰져 있음
(2) 프로세스가 과학적 방법을 사용하여 연구
(3) 다양한 학문, 산업 간 교차 분석 시 사용 가능
 (4) 프로세스 과학의 목표는 측정 가능한 개선을 실현하기 위해 각각의 프로세스를 발견하고 변경하는 것


위 그림에서처럼 프로세스 마이닝은 데이터 과학과 프로세스 과학 사이의 연결고리로 볼 수 있다. 프로세스 마이닝은 이벤트 데이터(예: 관찰된 행동)와 프로세스 모델(수작업으로 만든 모델 또는 자동으로 발견된 모델) 간의 대립을 추구하며, 예를 들어 통찰력 제공, 병목 현상 식별, 예측 등 의미 있는 방식으로 이벤트 데이터를 활용하는 것을 목표로 합니다. 문제를 기록하고, 정책 위반을 기록하고, 대책을 권장하고, 프로세스를 간소화합니다. [출처 :  Process Mining: A 360 Degree Overview]


정리하자면 프로세스 마이닝은 여러 가지 프로세스를 실행하는 도중에 생성된 이벤트 데이터 분석을 포함하는 데이터 과학 분야이기도 하고, 프로세의 과학의 일부분이기도 하다. 프로세스 마이닝의 목표는 이벤트 로그에서 통찰력을 추출하여 프로세스를 발견, 모니터링 및 개선하는 것이다. 프로세스 마이닝애 필요한 주요 구성요소는 다음과 같다.  

이벤트 로그: 이 로그는 프로세스에서 발생하는 일련의 이벤트, 활동 및 타임스탬프임. 이벤트 로그는 프로세스 마이닝 분석을 위한 기본 데이터 소스임

검색: 검색 단계에는 이벤트 데이터를 기반으로 프로세스 모델을 만드는 작업이 포함. 프로세스 매핑, 프로세스 트리 발견, 프로세스 흐름 분석과 같은 기술을 적용하여 활동 순서를 시각화

적합성 검사: 이 단계에는 검색된 프로세스 모델을 실제 이벤트 로그와 비교하여 정의된 프로세스에 대한 변형, 편차 또는 비준수를 식별하는 작업이 포함

향상: 프로세스 마이닝을 통해 프로세스 개선 영역을 식별할 수 있음. 분석을 통해 얻은 통찰력을 바탕으로 프로세스를 개선하여 효율성과 효율성을 높일 수 있음


오늘은 프로세스 마이닝에 관해 자세히 써 보았다. 주 내용은 이 분석 기술을 정리한 Vander Aalst 교수님의 논문을 참조했다.


현재 분석하는 여러 데이터도 프로세스 마이닝을 이용해서 하였으나, 앞으로 이 기술을 좀 더 공부하면서 기존에 발견하지 못했던 사항들을 발견해보고자 한다.


프로세스 마이닝에 머신러닝을 접목하고, 또한 여러 가지 모델을 바꾸어 가면서 분석해 보는 것이다.




매거진의 이전글 [세미나] 의료 서비스 로봇
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari