AI로 만드는 데이터 분석 서비스, 그 첫 시작

HITL(Human-in-the-Loop)의 데이터 솔루션 기획 (1)

by 빛날수있게


이 프로젝트 글이 바뀌게 된 사연을 소개하며


generative AI, predictive AI, chatbots, and AI agent는

이미 우리의 삶에 자리잡았습니다.


조사 결과에 따른 26년 현재 청소년들의 심리 상담의 제 3순위로 AI 툴이 차지했다고 합니다.


개인적으로 챗지피티가 유료화 서비스를 시작한지 얼마 되지 않았을 24년 하반기부터

AI 챗봇을 정보 수집이나 분석 교차 검증, 파이썬 코딩 등에 활용해보았습니다.

그러면서 26년 연초부터는 AI의 이미지 해석 및 이미지 생성 능력이 더욱 뛰어나지면서

이미지를 주고 텍스트로 변환시키거나, 삽입 이미지나 인포그래픽을 그리는 데에도 툴을

적극적으로 활용하고 있습니다.


그 과정에서 AI가 인간의 감성의 미묘한 반응을 캐치해내 놀라기도 하고

엉뚱하고 말도 안되는 답변으로 인해 작업물을 다 날리고 밤새 수작업으로 수정,

얼얼하게 뒤통수를 맞은 적도 있습니다.


확실한 것은 AI를 제대로 활용하는 증강 인간(Augmented human)은

그 무엇보다 강력한 경쟁력이 될 것이라는 점입니다.


'아니, 데이터 분석으로 서비스를 기획한다더니 왜 갑자기 AI 이야기를 하지'라고 생각하실 수 있습니다.


메타버스-과제기획-최종보고서-003.png 융합경제와 슈퍼 개인(메타 휴먼)에 대한 정의.이것은 23년 콘텐츠 활용 금융 서비스를 기획하면서 넣었던 정의인데, 이것이 26년 현재 이미 자리 잡았고, 더 확장하고 있습니다.


저는 이미 23년에 사람의 역량은 더 이상 1인에 구애받지 않을 것이라는 인사이트가 중요하다고 봤습니다.

물론 이 때는 한창 메타버스 관련 프로젝트 기획이여서,

물리적, 시간적 확장 관점에서 본 것이기는 합니다.


이제는 물리적 시간적 개념에서의 확장은 물론 전문적 지식을 갖춘 1인이

AI 툴의 활용만 잘 할 수 있다면 3명 이상의 몫을 할 수 있는 생산성 자체에 대한 확장이 가능해졌다고 믿습니다.


결국 중요한 것은 내 전문성을 지니고 얼마나 AI를 잘 활용하는가가 미래 인재의 주요 역량이 될 것입니다.


기술경영 코스 중 인간과 AI의 협업 능력에 초점을 두는

HITL(Human-in-the-Loop)에 대해서 요즘처럼 크게 와닿게 느끼는 때가 없습니다.


사실 이 포스팅은 데이터 분석을 활용한 서비스를 기획하는 데에 초점을 두고 1차로 쓰여졌습니다.


그런데, 모델을 설계하고 서비스 기획을 하는 단계에서 마찬가지로 교차 검증을 위해 AI를 활용하다보니

프로젝트의 모습 자체가 AI와의 코워킹으로 흐르고 있음을 체감하게 되었습니다.


그래서, 글의 주제와 프로젝트의 테마를 HITL로 아예 전환하게 되었습니다.


그러나 중요한 것은 여전히 AI는 인간의 충실한 도구라는 것입니다.

AI에게 제대로 된 요청을 하지 못하거나, AI가 준 답변을 이해하지 못하면

그리고 가장 중요하게는 논의와 협업의 관점을 비판적으로 바라보지 못하면

속빈강정의 무용지물 결과만 나오게 될 뿐입니다.


무엇을 접근할 때에 개념과 방법을 이해하는 일은 AI 시대에 더더욱 중요한

사람의 몫이 될 것입니다.

그래서 이 글도 일종의 개념과 접근법의 이해부터 시작하게 되었습니다.


모든 사람은 결국 AI를 활용하는 기획자의 업에 집중하게 될 것이고

지금의 기획자들에게는 완전히 새로운 장이 열리고 있다고 생각합니다.

개발과 디자인처럼 기존에는 협업자를 찾고, 의뢰하고, 비용을 들여야 했던 일이

AI의 도움을 통해 1인의 전유물이 될 수 있기 때문입니다.


이 글이 HITL 방식으로 데이터 솔루션을 기획하는 데에 있어

하나의 경험을 전달해줄 수 있기를 바랍니다.






데이터분석의 목표는 무엇일까?


통계학이라는 뿌리에서 시작된 데이터 분석은 결국 어떤 대상에 대하여

더 깊게 이해하고, 앞날을 예측하고자 하는 노력입니다.


이 '이해'의 중요성을 보여주는 유명한 일화가 있습니다.

2차 세계대전 당시, 미군은 전투기의 생존율을 높이기 위해

수학자 아브라함 발드(Abraham Wald)에게 분석을 의뢰했습니다.

기지로 돌아온 전투기들을 조사해 보니 주로 날개와 동체 부분에 총알구멍이 집중되어 있었죠.

군 관계자들은 당연하게도 "총알을 많이 맞은 날개와 동체를 보강해야 한다"고 주장했습니다.


하지만 발드의 생각은 정반대였습니다.

그는 "조사한 비행기들은 총알을 맞고도 살아 돌아온 비행기들"이라는 점에 주목했습니다.


진짜 치명적인 곳(엔진 등)에 총알을 맞은 비행기들은 이미 추락해서 데이터에 포함조차 되지 않았던 것이죠. 결국 그는 총알 자국이 없는 깨끗한 부분을 보강해야 한다는 결론을 내렸고,

이 예측은 수많은 조종사의 목숨을 구했습니다.


이 사례는 데이터 분석에서 결과만을 추종하는 것이 아니라

전문가가 암묵적으로 현장에서 취득한 지혜와 통찰이 얼마나 중요한 것인가를 잘보여줍니다.


https://www.warhistoryonline.com/war-articles/abraham-wald.html



아래의 프레임워크는 기업에서 데이터분석을 의사결정에 데이터 마이닝 활용하게끔 하는

분석 방법론입니다.


이처럼 과거의 데이터 분석은 기업 내부의 의사결정을 지원하여 더 좋은 선택을 이끌었습니다.

그리고 그 분석의 과정은 직선적으로,

내외부 데이터를 수집해 전처리하고,

정제된 데이터셋 위에서 분석 모형과 알고리즘을 설계한 뒤,

그 결과물을 전략 수립의 근거로 활용하는 방식으로 이뤄졌습니다.


Gemini_Generated_Image_oaabtloaabtloaab (1).png 데이터 분석의 표준화된 방법론으로 일컬어진 CRISP-DM(Cross-Industry Standard Process for Data Mining) 방법론


더불어 위의 사례는 단순히 기업의 의사결정을 지원하는 사례 였다면

현대의 데이터 분석 모습은 '해석'보다는 '예측'의 방향으로 돌아섰습니다.


이제 데이터 분석은 단순히 경영을 보조하는 리포트에 그치지 않습니다.

분석 과정 그 자체가 곧 서비스의 실체가 되는 시대가 도래했습니다.






분석이 리포트를 넘어 '서비스'가 될 때



과거의 데이터 분석이 경영진의 결정을 돕는 조연이었다면,

이제는 분석 그 자체가 무대 위의 주연이 되었습니다.



우리가 유튜브를 켜자마자 보게 되는 알고리즘이 선택한 영상이나,

아마존에서 내 마음을 읽은 듯 제안하는 추천 상품을 떠올려 보세요.



여기서 데이터 분석은 경영용 리포트를 만들기 위한 도구가 아닙니다.

분석 모형이 실시간으로 돌아가는 그 행위 자체가

우리가 소비하는 서비스의 실체(Core) 그 자체인 셈입니다.



그렇다면 이 '살아있는 분석'은 어떤 과정을 거쳐 완성될까요?

SAS에서 제안한 SEMMA 방법론

현대적인 '추천 시스템' 사례에 대입해

그 연결 고리를 파헤쳐 보겠습니다.



스크린샷 2025-12-30 오후 4.53.09.png 데이터가 '추천 서비스'가 되는 5가지 단계: SEMMA



SEMMA는 다음과 같은 단계적 흐름 방법을 제안합니다.


Sampling(추출) - Exploration(탐색) - Modification(수정) - Modeling(모델링) - Assessment(평가)


아마존 등에서 사용하는 추천 시스템의 개발 방법론은 다음과 같습니다.


우선 추출(Sampling) 단계에서 방대한 로그 중 최근의 유의미한 행동 데이터를 골라내고,

탐색(Exploration)을 통해 사용자의 시간대별 선호도나 이탈 패턴 같은 숨은 취향을 발견합니다.

이어 수정(Modification) 단계에서 노이즈를 제거하고

'장바구니'와 같은 중요 행동에 가중치를 부여해 데이터를 정제한 뒤,

모델링(Modeling)을 통해 사용자가 좋아할 만한 콘텐츠를 알고리즘으로 예측합니다.

마지막으로 평가(Assessment) 단계에서

실제 클릭률(CTR)이나 구매 전환율을 확인해 모델의 성능을 검증하며,


이 피드백을 바탕으로 추천의 정확도를 지속적으로 고도화하는 순환 구조를 완성합니다.





자, 여기까지가 이론입니다.

이론에 따른 결과론적 설명은 데이터분석을 매우 쉬운 과정으로 정리해줍니다.

그렇지만 현실은 녹록치 않습니다.


현장에서는 'Garbage In, Garbage Out(쓰레기가 들어가면 쓰레기가 나온다)'이라는 격언이 있습니다.


'무엇을 분석할 것인가?'라는 목적 설정 단계가 사실은 숨은 진짜 문제입니다.

이 부분이 AI가 오랜시간 대체하기 어려운 기획자 만의 행동력과 번뜩이는 인사이트,

판단이 필요한 지점입니다.


예를 들어, 처음에는 "고객의 구매 전환율을 획기적으로 높일 마법의 변수를 찾자"라는

원대한 포부로 시작합니다.


하지만 막상 가지고 있는

데이터를 열어보면 기록이 누락되어 있거나 서비스 구조상 수집 불가능한 경우가 태반입니다.


게다가 이 부분은 사실상 데이터 수집의 문제는 차치한 경우라는 것입니다.


결국 데이터 탐색 과정을 거치며

초기 기획의 '목표'는 점차 희석됩니다.

진짜 알고 싶은 데이터 대신

지금 바로 뽑을 수 있는 데이터에 맞춰 분석의 방향이 수정되는 것이죠.


그래서 진짜 분석 목적 설정 전에

PoC (Proof of concept) 혹은 간단한 샘플 데이터의 탐색 과정이 추가되면 좋습니다.


데이터 탐색은 결국 모델링의 뼈대를 세우는 과정입니다.


이 시리즈를 통해 데이터 분석 방법론을 공유하는 동시에, 제가 직접 프로젝트를 수행하며 얻은

인사이트와 실무적인 기록들을 차근차근 아카이빙해 보려 합니다.