brunch

You can make anything
by writing

C.S.Lewis

by 김형복 May 22. 2022

✍ AI 상용화, 실패를 줄이는 방법

품질 관리의 중요성

당신의 AI 프로젝트는 성공적인가?

 Project Management Institute (PMI)의 보고서에 따르면 14%의 프로젝트는 실패하고, 실패라고 간주되지 않은 프로젝트들 중 31%는 목표를 달성하지 못했고, 32%는 초기 예산을 초과했으며, 49%는 기한을 넘겼다고 보고 했다 [1]. 글로벌 실패 사례로 보면 프로젝트의 완전한 성공은 쉽지 않은 것으로 보인다.

프로젝트 실패 조사 보고 [1]

프로젝트가 실패하는 원인은 무엇일까? Garthner의 보고에 따르면 AI 프로젝트의 85%가 실패하고 그 원인 중 가장 큰 비율을 차지하는 것은 비즈니스에 적용을 위한 제품화/상용화 실패(47%)라고 보고 했다 [4]. 이는 AI제품이 고객의 눈높이에 부합하지 못했다는 것을 의미한다.

AI프로젝트가 실패하는 이유

고객의 눈높이란 무엇일까? 미국의 경영 컨설턴트인 Joseph M. juran은 제품의 품질을 다음과 같이 정의했다. 제품은 실사용자의 요구를 충족해야 하며, 결함으로 부터 자유로워야 한다. 단순기능을 만족하는 것이 아니라 고객이 원하는 바. 즉, 사용자가 신뢰하고 만족할 수 있는 제품을 만들어야 한다.


"An essential requirement of these products is that they meet the needs of those members of society who will actually use them. This concept of fitness for use is universal. It applies to all goods and services, without exception. The popular term for fitness for use is Quality, and our basic definition becomes: quality means fitness for use."     - Joseph M. Juran



AI 프로젝트의 품질 관리는 왜 중요한가?


 AI의 시대가 도래했고 우리는 AI가 사람을 능가하는 성능을 발휘해 주기를 기대한다. AI는 다양한 분야에서 사람 전문가를 대체하고 효율적인 업무를 가능하게 했다. 하지만 그것이 우리를 대체하는 데 있어 사용자들이 여전히 우려를 표하는 부분이 존재한다. 아래는 그 사례들이다.


1. 사람의 생명

 - IBM은 6,200만 달러의 비용을 들여 암 퇴치 진단을 돕는 AI 시스템 왓슨을 개발했다. 플로리다 주피터 병원의 의료 전문가와 고객들에 따르면 왓슨은 심각한 출혈이 있는 암 환자에게 출혈을 악화시킬 수 있는 약물을 투여할 것을 의사들에게 조언했다. 암세포를 죽이기 위한 판단인 것으로 보이나, 환자도 같이 죽일 수 있는 의사결정이었다.

 - 시카고의 O'Hare 국제공항 활주로에서 AI 구동 식품 카트가 오작동하여 통제 불능 상태로 돌고 게이트에 주차된 비행기와 사람을 칠뻔했다 [5]. 결국 작업자가 다른 차량을 운전하여 AI 카트를 쓰러뜨리면서 사건을 마무리했다.

시카고 O'Hare 공항의 AI 카트 오작동 사례


2. 금전적 피해

 - 홍콩 부동산 재벌 Samathur Li Kin-kan은 자금을 늘리기 위해 AI 자동 트레이드 시스템을 구입했다. 하지만, AI 트레이딩 로봇은 지속적으로 실패했고, 하루에 최대 2천만 달러의 손실을 냈다 [6].

 - 월스트리트 저널은 한 에너지 회사가 US$243,000의 사기를 당했다고 보고 했다 [7]. 보고에 따르면 영국에 본사를 둔 익명 회사의 CEO는 독일 모회사의 상사와 이야기하는 중 즉시 돈을 이체하라는 명령을 받았다. 유감스럽게도 그 보스는 진짜 사람의 목소리를 정확히 닮은 '딥 페이크' 음성 생성 프로그램이었고, CEO는 본인이 실제 상사와 이야기하는 것이라고 믿었다.


3. 윤리성 결여

 - 마이크로소프트의 챗봇인 테이(Tay)는 24시간 동안 인간 상호작용을 통해 '학습'한 후 트위터에서 “히틀러가 유대인을 증오한 것은 옳았다”라고 선언했다 [8]. 목표는 기계와 인간의 대화 품질을 새로운 차원으로 끌어올리는 속어가 가득한 챗봇을 구축하는 것이었다.

 - Amazon은 채용 프로세스를 자동화하여 수천 개의 채용 공고에 대한 후보자를 신속하게 선택하기를 원했다 [9]. 하지만, 모델을 생성하는 데 사용된 훈련 데이터가 불균형하여 후보 선택에 편향이 발생했다. 결국, 시스템은 백인 남성을 우대하는 성차별적인 문제가 있는 것으로 판명되었다.


 위 사례들은 AI가 사람의 생명을 다루거나 윤리적 이슈로부터 자유롭지 못할 경우 사용자들의 선택을 받지 못한다는 것을 알려주는 사례였다. 이러한 제품 실패는 막대한 비용 손실로 이어진다. AI 제품의 품질과 사용 적합성을 향상해 실패의 가능성을 최소화해야 할 것이다.


어떻게 실패를 최소화할 것인가?


 한 가지 방안은 AI 품질을 지속적으로 관리하는 것이다. 상용화 AI 시스템이라면 사용자가 동의할 때까지 몇 번이고 검증, 테스트되어야 한다. 하버드 비즈니스 리뷰에서 처음 소개된 제품의 품질 비용 관리 자료에 의하면 이것을 일찍 깨달을수록 사업 실패의 확률은 줄어든다 [10,11].

품질 비용의 분류

 품질 관리 전문가 Jennifer Dawson은 비용 절감을 위해 품질 부서의 예산을 무분별하게 줄이는 것은 좋은 생각이 아니라고 말한다 [12]. 좋은 품질 비용은 품질 관리에 도움이 된다. 좋은 비용이라는 단어가 다소 낯설게 느껴질 수도 있다. 품질 비용은 크게 1) 예방비용, 2) 평가비용, 3) 내부 실패 비용, 4) 외부 실패 비용으로 구분된다. 이 중 좋은 품질의 비용은 평가 비용과 예방 비용으로 구성된다. 문제가 생긴 이후에 이를 해결하기 위한 비용보다 품질 문제를 예방하거나 방지하는 것이 더 옳은 전략이라고 말하고 있다.

세부 품질 비용 투자에 따른 전체 비용 변화

 위 그림을 보면 예방 비용과 평가 비용에 예산을 아낄 경우 결국은 제품 출시 이후 막대한 실패 비용을 감당해야 함을 알 수 있다. 적절한 예방, 평가 비용은 전체 비용과 제품 실패의 리스크를 줄여준다.

AI 프로젝트 생애 주기 [13]

 그렇다면 나쁜 비용은 무엇일까? 위 그림은 AI프로젝트의 생애주기를 보여준다. 프로젝트의 범위와 목표 등을 설정하고, 데이터를 수집, 가공하는 과정을 거쳐 모델 학습과 배포로 진행된다. 그림의 위 부분을 보면 Modeling 부분과 Deployment 부분에서 이전 단계로 되돌아가는 화살표를 볼 수 있다. 이는 연구원들이 AI프로젝트를 진행 중 예상했던 성능 결과를 얻지 못할 경우 이전 단계로 돌아가 추가로 데이터를 확보하거나 모델 학습을 다시 진행하는 것을 말한다. 우리는 가급적 이전 단계로 되돌아가는 횟수를 줄일 필요가 있다. 이는 좋지 않은 비용에 포함되는 내부 실패비용(Internal Failure Costs)이다. 그렇다면 AI 프로젝트의 실패 비용을 줄일 수 있는 방법은 무엇일까? 힌트는 AI제품은 일반적인 SW와는 다르게 Data를 필요로 한다는 점이다.


AI프로젝트의 실패 비용을 줄이는 방법


 프로젝트 설계 부분, 즉 풀고자 하는 문제가 변경되지 않는 한 실패로 인한 회귀는 Data 부분에서 멈춘다. 우리의 프로젝트를 성공으로 이끌 수 있는 데이터 확보 전략이 필요하다. 데이터 확보를 위한 단계는 데이터를 수집하는 단계, 가공하는 단계로 나뉜다.


데이터 수집 전략

 우리는 AI가 우리의 의도한 대로 동작하기를 바란다. 예를 들어 낮에는 잘 동작하지만 밤에는 잘 동작하지 못하는 AI CCTV를 상상해보자. 다양한 환경에서도 문제없이 동작하는 강인한(Robust) AI를 만들기 위해서 다음 내용을 참고해주기를 바란다.


이기종 수집 장치  

이기종 장치를 활용한 데이터 수집

 우리가 목표로 하는 서비스의 환경이나 단일 하드웨어 기기로 특정되어 있는 경우라면 고객들의 불평이 적을 것이다. 하지만, 대체로 우리의 제품은 다양한 환경에서 동작되어야 한다.  영상을 다루는 서비스라면 CCTV, 블랙박스, DSLR, 아이폰, 안드로이드 등으로 다양하고, 음성 처리를 메인으로 하는 서비스라면, 헤드폰, 마이크, 이어폰 등 음성을 획득할 수 있는 방식에 따라 노이즈나, 샘플링 품질이 상이할 수 있다. 고객이 우리 제품을 사용하게 될 서비스 환경은 다양할 수 있고, 이를 충분히 반영하여 데이터를 수집해야 할 것이다.


참여자 모집

데이터 균형을 위한 다양한 참여자 모집

  LG 에어컨이 사투리를 인식하게 된 일화를 아는가? LG의 조 부회장은 제품 개발이 어느 정도 완료됐다는 소식을 듣고는 에어컨을 향해 “니 뭐꼬”라고 말했다. 그동안 “네 이름이 뭐니” “너 누구니”라는 질문에 잘만 대답하던 에어컨은 아무런 답변도 하지 못했다 [14]. 조 부회장은 “된다매”라며 자연어 에어컨 개발팀을 채근했고 결국 개발팀은 강원도, 전라도, 경상도 등 전국 각지 음원을 수집해 사투리 인식 기술을 개발한 것으로 전해졌다. 이처럼 우리 제품을 사용할 사용자의 나이, 성별, 인종, 교육 수준, 장애 여부 등 다양한 조건을 고려하여 데이터를 수집해야 할 필요가 있다.


Privacy

개인정보 가명 정보 익명 정보 예시

 2020년 1월 9일 데이터 3 법 통과로, 4차 산업혁명 시대의 핵심 자원인 데이터 거래와 개인정보 유출 우려를 차단한 ‘가명 정보’의 활용이 가능해졌다. 데이터 3 법의 통과 이후로 다양한 환경에서 획득된 데이터를 개인정보 보호 처리를 한 후 활용하고 있다. 특히, 유럽과 같이 개인 정보 보호에 민감한 곳에 진출 계획 중이라면 더욱 철저하게 개인정보를 다루어야 한다. 문서의 텍스트 자료에 포함된 이름, 주민등록번호, 전화번호 등을 익명 처리해야 하고, 영상 데이터에서는 사람의 얼굴, 자동차 번호판 등을 모자이크나 블러(Blur) 처리해야 한다. 영상의 저 멀리 개미처럼 작게 보이는 사람의 얼굴까지도 비식별 처리해야 하는지. 그 범위는 아직 ‘뜨거운 감자’이지만 가능한 범위 내에서는 철저히 개인정보를 보호하여 피해를 보는 사람이 없도록 해야 한다.


데이터 가공 전략

 원천 데이터를 했다면 그 이후는 AI 모델을 학습하기 위해 데이터 셋을 가공하는 과정이 필요하다. 사람이 사과 이미지를 보면 그것이 사과 인지 단번에 알지만, 기계는 그것을 알지 못한다. 그래서 ‘X : 사과 이미지’에 이것이 ‘Y : 사과’라고 X+Y 세트를 만드는 과정이다. 만약 사과에 바나나라고 라벨링이 되어있다면? 사과가 하나가 아니라 사과 꾸러미라면? 사과가 한 입 베어 물린 상태라면 어떻게 라벨링 해야 할까? 잘못 라벨링 된 데이터 셋은 AI의 학습을 방해한다. 우리의 AI가 더 똑똑해질 수 있도록 우리는 좋은 문제집을 제공할 필요가 있다. 아래의 조건들을 유의해주기 바란다.


주관적 판단

데이터 가공에서 발생하는 주관적 판단 예시

 우울증 치료를 하기 위해 환자의 표정 변화를 감지하는 AI를 만든다면? 구매자가 선호하는 패션 카테고리를 정확하게 판단하는 패션 분류 AI를 만든다면? 데이터에 라벨러들은 이미지를 보고 러블리, 댄디, 우아함 등을 태깅하거나, 얼굴 표정을 보고 주관적으로 그 정도를 태깅해야 한다. 사람마다 동일한 데이터에 다른 게 태깅할 수 있다. 일관되지 않은 데이터는 AI학습을 저해시키는 요인이다. 이를 위해 정교한 가공 가이드라인이 필요하다.


프로젝트의 목적

프로젝트 목표에 따른 데이터 가공 예시

 동일한 데이터라도 프로젝트의 목적에 따라 가공 방식이 달라질 수 있다. 아래 왼쪽 그림을 보면 해양 쓰레기 이미지를 볼 수 있다. 우리 프로젝트의 목표가 해양 쓰레기의 영역을 가늠하기 위한 AI를 만들 것인지(Red), 아니면 해양쓰레기를 구성하는 개별 쓰레기들의 종류가 무엇인지(Yellow) 목표에 따라 다르게 가공된 데이터로 AI를 학습해야 한다. 오른쪽 이미지는 도심의 한 장면이다. 장애물을 회피하는 자율주행 AI 시스템을 만들려고 할 때, AI가 탐지하고자 하는 것은 전방에 있는 차량의 보이는 부분인가? 아니면 보이지 않더라도 차량이 있을 것이라고 상상되는 영역인가? 동일한 데이터라도 해결하고자 하는 문제가 무엇인지에 따라 준비되어야 하는 데이터는 달라진다.


가공 대상의 범위

데이터 가공 범위가 중요한 이미지 예시

  사람이나 차량 등의 객체를 탐지하는 AI 시스템을 만든다고 생각해보자. 당연히 사람 객체, 차량 객체가 가공된 데이터가 필요할 것이다. 수집된 데이터에는 무수히 많은 객체들을 포함한다. 가까이 있는 객체는 크고, 멀리 있는 객체들은 작다. 우리의 제품은 고객의 요구사항들을 어디까지 보장해줄 수 있는가? 아래 그림들을 보면 이미지 한 장에도 무수히 많은 객체들이 있다. 가공 비용을 산정할 때는 보통 객체 갯 수 당 가공 비용으로 산정된다. 프로젝트 예산을 고려하여 우리가 현실적으로 달성하고자 하는 목표에 부합하도록 가공 범위를 설정해야 한다. 그렇지 않으면 AI를 배포도 하기 전에 예산이 고갈될 수 있다.


데이터 가공자 교육

 앞서 언급한 데이터 가공의 범위, 주관적 판단, 프로젝트 목적에 따른 가공 방식 등 가공자들마다 다르게 가공하지 않는 것이 중요하다. 이를 데이터 일관성(Data Consistency)라고 한다. 크라우드 소싱을 통한 대규모 데이터 가공은 적절한 데이터 가공 교육이 중요하다. 오프라인 교육장뿐만 아니라, 온라인 교육을 통하여 데이터 라벨러들을 교육하기를 추천한다. 그리고 검수자들은 라벨러들의 가공 결과물을 확인하여 1-on-1 피드백을 수행하라.


도메인 전문가 활용

 고난도 데이터 가공을 요구하는 AI프로젝트에는 전문 분야의 지식을 필요로 한다. 예를 들어 법률 문서를 이해하는 AI라던가. MRI, X-ray 영상을 활용한 진단 AI를 만든다면 변호사, 의사 선생님 등 전문 지식이 있는 분들이 직접 가공 작업을 수행해야 한다. 상시 협력 가능한 전문가 그룹과의 네트워크를 구성하여, 자문을 구하거나, 고품질 데이터 가공을 수행해야 한다.


 본 글에서 우리는 AI 프로젝트에서의 품질 비용 관리의 중요성과 품질 관리를 위해 가장 먼저 노력을 기울일 수 있는 ‘데이터 품질 확보 전략’에 대하여 살펴보았다. 끝으로 당신의 AI 프로젝트는 여전히 성공적인가? 실패 비용을 최소화하여 소 잃고 외양간 고치는 일이 없길 바란다.
 

[1] https://www.getgds.com/resources/blog/business-it/why-it-projects-fail-and-how-to-avoid-the-headache

[2] https://www.techrepublic.com/article/why-85-of-ai-projects-fail/

[3] https://www.fastcompany.com/90449015/this-much-hyped-technology-is-failing-businesses-heres-why

[4] https://gestaltit.com/tech-talks/intel/intel-2021/jimthewhyguy/ai-projects-fail-all-too-often-successful-ones-share-a-common-secret/

[5] https://www.youtube.com/watch?v=zNteckqT-Fw

[6] https://futurism.com/investing-lawsuit-ai-trades-cost-millions

[7] https://www.wsj.com/articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402

[8] https://www.theverge.com/2016/3/24/11297050/tay-microsoft-chatbot-racist

[9] https://www.businessinsider.com/amazon-built-ai-to-hire-people-discriminated-against-women-2018-10

[10] Feigenbaum, Armand V. (November–December 1956), “Total Quality Control”, 《하버드 비즈니스 리뷰》 34 (6)

[11] 품질코스트(Quality Cost)의 관리, http://www.economyf.com/m/view.asp?idx=7063

[12] https://www.g2intelligence.com/dont-crash-burn-why-cutting-your-quality-departments-budget-is-not-a-good-idea/

[13] https://dev.to/gansai9/machine-learning-engineering-for-production-mlops-k9g

[14] https://www.joongang.co.kr/article/22025572#home

매거진의 이전글 ✍ 합성 데이터가 AI에 미치는 영향
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari