디지털 전환을 위한 체계적인 '데이터' 확보의 중요성

제조업 중심으로

Dec 30. 2022

2022 카타르 월드컵으로 뜨거운 열기가 가득했던 11~12월. 월드컵을 생각하면 무엇보다 2002년 한·일 월드컵을 빼놓을 수 없을 것입니다. 특히 2002년 월드컵 이후 한국의 이미지를 대표하는 국가 대표 영문 브랜드 ‘다이나믹 코리아 Dynamic Korea’를 기억하십니까? 한국전쟁 이후 한국의 경제적, 사회적 급격한 발전과 변화는 세계인들의 뇌리에 강하게 심어졌고 2002년 월드컵은 이러한 세계인들의 인식을 더욱 강화시킨 계기가 되었습니다.

그리고 다시 그것을 검증이라도 하듯이 한국은 코로나 대응에 참신한 아이디어와 ICT(Information and Communications Technology) 접목을 통해 세계에서 코로나에 가장 잘 대처한 국가로 세계인들의 머리 속에 각인되었습니다. 또한 영화, 드라마, 음악, 체육, 음식 등 문화 컨텐츠 분야에서도 K-바람을 일으키면서 다이나믹 코리아를 이미지를 심어가고 있습니다.

필자는 21세기 세계에서 국가간의 경쟁은 ICT로 대표되는 기술전쟁과 문화전쟁이라고 생각합니다. 현재 그리고 다가올 시대에 국가의 성장과 발전에 기술과 문화가 담당하고 있는 부분이 매우 크다는 의미입니다. 한국은 이 두 분야에서 세계인들에게 다이나믹 코리아를 제대로 보여주고 있는 것입니다.

사실 한국은 선진국들에 비해 ICT를 활용한 디지털 전환의 시작이 늦은 편이였습니다. 실제로 2015년도 조사 결과에서 한국인들은 ‘4차 산업혁명’, ‘디지털 전환’, ‘스마트팩토리’란 단어를 한번이라도 들어보거나 알고 있는 사람은 채 3%가 되지 않는다는 결과가 있었지만, 그 시기 독일인들은 ‘Industry 4.0(독일의 4차 산업혁명을 정의한 내용)’을 잘 이해하고 있다는 사람이 전체 국민의 97%에 달하고 있었습니다. 그런데 2016년에 일어난 큰 이벤트(알파고-이세돌 대국)를 기점으로 우리나라는 전혀 다른 국가로 변모하기 시작했습니다. 인공지능, 머신러닝, 딥 러닝, 4차 산업혁명, 디지털전환, 스마트팩토리 등등에 급격히 관심을 갖게된 것입니다.

그렇게 많은 기업들이 앞다퉈 디지털 전환과 스마트팩토리 등의 성과를 내기 위해 데이터 전문가 채용이나 교육, 컨설팅 등을 실행했고 현재도 그렇습니다. 그럼에도 생산성과 효율성에 대한 이야기는 늘 나오고 있는데요. 필자가 여러 기업들의 디지털 전환·스마트팩토리 컨설팅을 진행하며 직접 느꼈던 문제점을 바탕으로 '데이터 수집'에서 필요한 몇 가지 중요한 사안들을 언급해보고자 합니다.

01. 기업에 분석할 데이터가 없다?

02. 데이터는 있는데, 활용할 수 없다?

03. 데이터는 보유하고 있지만, 연결된 데이터 파일이 아니다?

04. 우리 데이터는 Input 데이터라고요?

#제조업 #디지털전환 #스마트팩토리

기업에 분석할 데이터가 없다?

데이터의 체계적인 수집이 중요
“데이터가 없는 기업은 없다”라는 말이 있습니다. 물론 맞는 말입니다. 하지만 제조기업에서 빅데이터 분석에, AI 기술 적용에 필요한 의미 있는 데이터를 보유하고 있는가를 따져보면 전혀 다른 이야기가 됩니다. 예를 들어 불량 개선, 고장 예방을 위한 빅데이터 분석이나 AI를 적용을 위한 필요한 데이터가 있는 지를 들여다 본다면 거의 대부분의 기업들은 “분석할 데이터가 거의 없다.”라고 말할 수 있습니다. 이는 제조업만의 문제가 아니고 대부분의 영역에서도 마찬가지 상황입니다. 빅데이터 분석, AI 적용을 위해서는 어떤 데이터들이 필요하고 어떤 형태로 어떻게 저장해 두어야 하는 지를 알고 데이터를 모았어야 하는데, 그렇지 못했기 때문입니다.

이세돌과 알파고의 이벤트에서 많은 사람들이 인공지능 알고리즘에 주목했지만 사실 간과하고 놓친 것이 이 알고리즘이 제대로 작동하는 데는 많은 양질의 데이터가 있었다는 사실입니다. 알파고를 최고의 바둑기사로 가르치는데 필요한 데이터, 알파고 입장에서는 딥러닝 알고리즘으로 학습할 수 있는 많은 데이터, 많은 바둑고수들의 대국을 기록한 바둑기보가 있었기에 가능했던 것입니다.

지금이라도 기업들은 향후 빅데이터 분석과 AI 적용에 필요한 데이터는 무슨 데이터를, 어떤 주기로, 얼마만큼의 데이터를 수집해야 하고 또 어떤 형태로 보관해야 하는 지를 알고 데이터를 처음부터 체계적으로 수집해야 합니다. 이것부터 서둘러야 합니다. 제조 디지털 전환, 스마트팩토리 본격 추진에 앞서 기초단계에서 최우선적으로 빠트리지 말고 해야 할 일입니다.

[관련 기사]
빅데이터가 없는 AI는 무용지물 (Why AI Would Be Nothing Without Big Data)
* 출처 : Forbes, 2017

실패 데이터의 중요성

'분석할 데이터가 없다.'라는 주제와 관련하여 ‘실패 데이터’의 부재·부족도 언급하고 싶습니다. 데이터 분석을 해 본 사람이라면 데이터들을 입력(Input)변수인 X인자와 출력(Output)변수인 Y인자 Data의 보유와 구분이 얼마나 중요한지를 잘 알고 있을 것입니다.

생산공정의 입력데이터는 주로 인수검사결과 공정검사결과 공정조건과 같은 것들 해당하고 출력변수로는 주로 완제품 검사결과와 같은 것들이 해당합니다. 그리고 이 데이터들 중에서도 특히 '실패 데이터'들이 중요한데 이 실패 데이터를 보유하고 있지 않거나 턱없이 부족한 경우가 많습니다.

(출처 : 이노핏파트너스)

'실패 데이터'라고 하면 공정 중에 발생산 부적합·불량에 대한 기록이나 고객으로부터의 클레임 이력 설비의 고장이력 등이 이에 해당합니다. 아무런 문제가 없는 상태의 데이터 수 십만 개, 수 천만 개 보다 실패한 상태의 데이터 수 백 개, 수 천 개가 훨씬 값진 데이터 라는 것을 꼭 기억하셔야 합니다. 그러니 미래를 위해서는 비록 내가 아니더라도 후배들을 위해서라도 실패 데이터를 절대 버려서는 안 됩니다.

#데이터베이스 #데이터레이크 #데이터활용

데이터는 있는데, 활용할 수 없다?

데이터를 보유하고 있다는 것은 데이터베이스에 보관하고 있는 데이터라는 의미여야 한다

데이터가 있다 하더라도 데이터가 활용할 수 없는 상태로 보유하고 있다, 즉 데이터가 사일로 형태로 흩어져 저장되어 있는 것입니다. 이는 주로 어느 정도 규모가 있는 중견기업이나 대기업의 경우에 해당하는 경우도 많습니다. Data가 생산설비, 검사설비에 보관되어 있거나 생산설비, 검사설비에 연결된 PC에 저장되어 있는 것입니다. 이것은 데이터 전문가들이 활용할 수 없기 때문에 데이터가 없는 것이나 마찬가지입니다.

무슨 데이터가 저장되어 있는지, 데이터가 어느 위치에 얼마 만큼 있는지를 모르니 데이터 활용 전문가들은 이들을 일일이 다 확인하고 한곳에 모으는 작업을 해야 합니다. 이런 작업들을 해 줄 별도의 인원을 기업에서 보유하고 있지 않으니 말입니다. 어쩌면 고급 인재들이 아까운 시간을 소모하고 있는 것이라고도 볼 수 있습니다.

중소기업에서 생기는 문제는 데이터를 아예 가지고 있지 않거나 또는 데이터를 종이문서에 보관하거나 엑셀 파일 형태로 보관하고 있는 것입니다. 이 역시 데이터를 바로 사용할 수 없으니(데이터를 다 모아서 연결해야 하기 때문에), 이 작업이 선행되지 않은 한 데이터가 없는 것이나 마찬가지 입니다.

이 중에서도 가장 최악의 상태는 Excel 파일로 데이터를 보관하고 있는 것입니다. 왜 이것이 가장 큰 문제라고 하냐면, 해당 문서를 작성한 담당자가 퇴사를 한다던가 다른 부서로 전근 배치를 받아서 1~2년이 지나고 나면 데이터를 어디에 어느 파일에 보관하고 있는 지 찾을 길이 없는 경우가 허다하게 발생하기 때문입니다. 차라리 이럴 바에는 종이문서에 적어서 보관하는 편이 나을 수도 있습니다. 그러면 문자인식 AI로 데이터를 다시 불러와서 저장하면 되니 말입니다. 필자의 관점에서 ‘데이터를 보유하고 있다’는 이야기는 ‘MES 서버와 같은 Data Base에 데이터를 보관하고 있다'는 것입니다. 그래서 최근에 ‘데이터 레이크’에 대한 이야기가 많이 회자되고 있는 것입니다.

[함께 보면 좋을 컨텐츠]
빅데이터로 가치를 만드는 호수 ‘데이터 레이크’ 이야기
* 출처 : 삼성SDS, 2021

#데이터연결분석 #비즈니스데이터 #고객데이

데이터는 보유하고 있지만, 연결된 데이터 파일이 아니다?

준비되지 않은 데이터

세번째로는 데이터를 가지고 있더라도 연결되어 있지 않고 Data 파일로 보관하고 있지 않거나 연결된 Data 파일을 불러올 수 있는 쿼리를 만들어 놓고 있지 않다는 것입니다.

우리 속담에 ‘구슬이 서 말이라도 꿰어야 보배’라는 말이 있습니다. 데이터도 마찬가지 입니다. 분석 또는 최적화에 필요한 데이터들이 서로 연결되어 있어야 합니다. 디지털 전환의 가장 핵심은 데이터를 활용하는 것이고, 스마트팩토리 데이터 분석에서도 가장 중요한 개념이 '데이터 연결분석'입니다. 결국 디지털 전환, 스마트팩토리를 구축하는 하는 목적이 이 데이터 연결분석이라고 할 수 있습니다. 그런데 이 데이터 연결분석은 데이터들이 연결되어 있어야 가능합니다. 기업은 연결분석에 필요한 데이터들을 데이터 활용 전문가(빅데이터 전문가와 AI 전문가)들이 언제라도 불러와 사용할 수 있는 상태로 연결된 파일의 형태로 보관하거나 불러올 수 있는 쿼리를 준비해 두어야 빅데이터 분석과 AI 적용이 가능해집니다.

아래의 그림은 교육 자료에 사용하는 내용으로, 스마트팩토리 교육 전체 과정에서 가장 중요하고 강조하는 페이지입니다. 통합DB Set 구성을 함에 있어 각 생산 공정별, 검사 공정별로 각각의 생산설비와 검사장비 및 ERP, MES 등에 기록·저장되고 있는 기초 Data를 활용하여 통합DB Set으로 연결하여 구성하도록 강조합니다.

(출처 : 변종대 교수)

사실 규모가 있는 회사에서는 필요한 모든 빅데이터 분석과 AI를 활용한 최적화 또는 사전관리 모델링·로직을 만들어 내는 데는 불과 며칠의 시간이면 충분합니다. 문제는 ‘우리 기업들이 이 Data들을 한곳에 연결된 형태로 보유하고 있지 않다’는 것입니다.

데이터 연결이라 함은 우선적으로 기업 내부의 데이터를 연결하는 것이고, 그 다음은 이 데이터들을 협력사와 고객사의 데이터와 연결하는 것입니다. 공급사슬 내의 모든 Data를 연결해야 하는 것이죠. 이렇게 되면 전체 공급사슬 내에서 연결 분석을 통한 전체 최적화를 시도할 수 있습니다. 또한 공급사슬 내에서 모기업의 생산라인에서 문제가 발생했을 경우, 그 내용이 협력사로 실시간으로 전달되고 협력사에서는 그 정보를 받아서 바로 분석과 조치를 할 수 있는 체계가 만들어 질 수 있는 것입니다.

협력사 Smart SCM Data 센터 내에 통합 Data Base 구성 (출처 : 변종대교수)

그 다음은 기업 내의 데이터도 공장에서 가지고 있는 데이터(품질 데이터와 생산데이터 등)가 비즈니스 데이터, 고객 데이터와도 연계성을 가지고 연결하여 분석되어야 합니다. 이렇게 될 때 진정한 데이터 분석의 가치가 만들어지는 것입니다.

[함께 보면 좋을 컨텐츠]
Data와 AI - 비즈니스 결합 이슈 : AI와 디지털전환.. 왜 생각만큼 발전이 없을까?
* 출처 : 동아일보, 2022

#이력데이터 #데이터코드 #코드세분화

우리 데이터는 Input 데이터라고요?

Data의 코드화

마지막으로 '이력 Data의 코드화'에 대해 말씀드리겠습니다. 이력 Data는 품질 부적합·불량 이력, 설비 고장 이력, 금형 수리 이력, 가공 툴 점검이력 같은 것들입니다. 이들 데이터는 대부분 결과 데이터 (Output 데이터), Y인자에 해당합니다.

대부분의 기업에서 X인자(Input 데이터)는 많이 보유하고 있지만, 결과 Data를 제대로 확보하고 있지 못한 경우가 많습니다. X인자(Input 데이터)의 경우에는 생산설비, 검사설비로부터 데이터를 자동으로 불러와서 저장하는 작업만 진행하면 데이터가 자동으로 모이기 때문에 데이터를 확보하기 쉽지만 Y인자(Output 데이터)인 이력 데이터는 사람이 일일이 직접 입력해야 하기 때문에 많은 데이터를 확보하기가 쉽지 않습니다. 더구나 이 데이터를 데이터 분석에 활용할 수 있는 형태로 보관하고 있어야 하는데 그렇지 못한 것이 더 큰 문제입니다.

필자가 컨설팅한 회사의 사례를 예로 들어보겠습니다. 고객 클레임을 기록한 내용을 보았을 때, 문서번호, 접수일자, … 생산로트번호, 불량내역, 원인분석, 개선대책 등 필요한 내용이 대부분 잘 기록되어 있었습니다. 그런데 여기서 문제가 되는 것은 '불량내역', '원인분석', '개선대책' 부분이였습니다. 그 이유는 해당 내용들을 서술어로 기록을 해놓고 있었기 때문입니다.

예를 들어, 불량내용에 대한 기록을 '내용물로 인한 용기 외부 오염'으로 기록해 두고 있습니다. 이렇게 기록해 두면 나중에 이것들을 가지고 나중에 (빅)데이터 분석을 할 수 있을까요? 할 수가 없습니다. 해당 내용을 추후에 데이터 분석을 할 수 있는 상태로 기록해 두어야 합니다. 코드화 해서 기록해 두어야 하는 것입니다. 예를 들어 위의 내용은 그냥 '오염'으로 기록해 두는 것입니다. 컴퓨터 성능이 좋지 못했던 과거에는 각 항목에 대해서 실제로 오염은 Q0001, 스크레치는 Q0002와 같이 직접 코드를 부여하기도 했고 지금도 이렇게 기록하는 기업들도 있습니다. 하지만 컴퓨터 성능이 좋아진 지금은 굳이 기호나 숫자를 이용해서 코드화 하지 않고 문자 자체로 코드화하여 기록해도 됩니다. 그러면 누구나 다 쉽게 코드를 이해할 수 있으니 말입니다. 단, 이 때 유의해야 할 것은 코드화 할 때 '표준화'하는 것입니다.

같은 내용인데 어떤 사람은 '스크레치'라 기록하고 어떤 사람은 '기스', '긁힘'이나 '긁힘 불량'으로 기록한다면 컴퓨터는 전부 다른 항목으로 인식하기 때문입니다. 이렇게 표준화한 다음에는 사람들이 잘 못 입력하는 것을 방지하는 체계를 MES 시스템 등에 만들어 두는 것이 좋습니다.

예를 들어 표준화한 내용이 '긁힘'이라면 사람들이 '기스'나 '스크레치'라고 잘못 입력하더라도 기록은 '긁힘'으로 기록되도록 만들어 두는 것입니다. 이렇게 코드화 해서 기록한 다음 위에서 서술어로 기록한 내용은 '불량내역 상세내용', '원인분석 상세내용' 과 같이 별도로 기록해 둡니다. 이렇게 해두면 추후에 분석을 할 경우 1차 분석 후 상세 내용을 확인할 때 참고로 활용하면 되는 것입니다.

(출처 : 변종대 교수)

코드 항목의 세분화

이력 항목 코드화에서 또 하나 유의해야 할 것은 필요에 따라서는 코드 항목을 세분화 하는 것입니다. 실제 사례를 예를 들어 보겠습니다. 필자가 손 소독제를 만드는 제조기업에서 '코드화' 컨설팅 진행 시, 이 회사의 제품 불량항목 중에 '펌프불량'이라는 항목이 있었는데 이것과 관련하여 담당자와 이야기를 나눈 내용입니다.

(출처 : 이노핏파트너스)

만약 위의 현상을 전부 다 '펌프불량'이라고 기록해 두면 어떻게 될까요? 나중에 분석하면 제대로 된 결과를 얻기가 어려울 것입니다. 표현은 같은 '펌프불량'이지만 실제로는 모두 다른 형태의 불량이기 때문입니다. 이런 것들은 '펌프불량1', '펌프불량2', '펌프불량3'으로 세가지 내용을 구분해서 기록하는 것이 좋습니다. 그리고 이번에도 MES 시스템에 해당항목을 기록할 때 실수 방지하는 체계를 만들어, 입력 하는 사람이 입력창에 '펌프불량'이라고 입력하면 옆에 동시에 팝업(POP-UP) 창이 떠서 '펌프불량 1, 2, 3'과 그것을 설명하는 메뉴가 떠서 그것들 중 하나는 선택하게 하는 것입니다.

디지털 전환에서 가장 근간이 되는 것이 데이터이고, 의미 있고 깨끗한 데이터를 바로 활용할 수 있는 상태로 보유하는 것은 데이터 분석과 AI 활용에 있어서 가장 중요한 기초 작업입니다. 이 기초 작업을 튼튼히 하기 위해 Data 수집에서 몇 가지 중요한 사안들을 언급했습니다. 요약하자면 아래와 같습니다.