brunch
매거진 생성형 AI

AI 프로젝트 성공의 핵심

기술이 아닌 데이터부터 시작하라

by 송 재희

오늘날 AI 서비스를 구축하는 것은 놀라울 정도로 쉬워졌습니다. 직관적인 노코드 도구와 AI 기반 개발 플랫폼 덕분에 프로그래밍이나 UI/UX 전문 지식이 없어도 비교적 빠르게 기능적인 AI 애플리케이션을 만들 수 있습니다.


하지만 비전공자들로 구성된 7개 팀(1명부터 5명까지 다양한 규모)을 멘토링하며 많은 사람들이 놓치고 있는 중요한 진실을 발견했습니다. 진짜 어려운 건 AI를 만드는 것이 아니라, 그것을 구동할 데이터를 찾는 것입니다.


좋은 아이디어가 데이터 현실과 만날 때

제가 멘토링한 팀들은 지역사회에 실질적으로 도움이 될 수 있는 매력적이고 실용적인 아이디어들을 제안했습니다. 그들의 열정과 창의성은 정말 인상적이었습니다. 하지만 프로젝트를 깊이 파고들면서 모든 AI 개발자 지망생이 이해해야 할 패턴이 나타났습니다.


사례 1: 상처 분류 시스템

한 팀이 제안한 AI 기반 상처 분류 시스템은 다음과 같은 기능을 갖추고 있었습니다:

상처 이미지 분석

7가지 상처 유형으로 분류

증상 해석 제공

관리 지침 제공


비전: 의료진이 상처 평가에 대한 신속한 세컨드 오피니언을 얻어 환자 치료와 치료 결정을 개선할 수 있다.


현실: 팀에서 일부 오픈소스 상처 데이터셋을 찾았지만, 곧 심각한 장애물에 부딪혔습니다:

데이터 분포가 심각하게 불균형했습니다. 일부 상처 유형은 풍부한 예시가 있었지만 다른 유형은 거의 없었습니다

사용 가능한 데이터에는 의미 있는 진단에 필요한 중요한 주석이 부족했습니다: 상처 깊이 측정, 정확한 면적 계산, 심각도 지표, 진행 단계

모든 상처 유형과 특성을 포괄하는 포괄적이고 잘 라벨링된 데이터 없이는 신뢰할 수 있는 결과를 제공할 수 없었습니다



사례 2: 예측 민원 시스템

또 다른 야심찬 팀은 서울시를 위한 사전 예방적 민원 예측 시스템을 설계했습니다:

지난 1년간의 민원 데이터 분석

기상청 API의 날씨 데이터 통합

민원이 발생하기 전에 예측

도로 문제(포트홀, 결빙), 환경 문제(쓰레기, 소음), 시설 관리(가로등, 공원), 교통 문제(불법 주차, 신호등) 등 다양한 카테고리 포함

비전: 시 공무원들이 시민들이 민원을 제기하기 전에 문제를 사전에 해결하여 도시 생활 환경과 정부 대응력을 개선할 수 있다.


현실: 팀에서는 시 민원 데이터를 쉽게 이용할 수 있고 잘 정리되어 있을 것이라고 가정했습니다. 대신 다음과 같은 사실을 발견했습니다:

데이터가 여러 부서와 시스템에 분산되어 있었습니다

서로 다른 소스가 호환되지 않는 형식과 분류를 사용했습니다

관련 민원을 연결할 고유 식별자가 존재하지 않았습니다

필요한 민원 카테고리 중 상당수가 단순히 이용할 수 없거나 불완전했습니다

분산된 데이터 소스를 통합하고 정리하는 데 필요한 노력이 몇 달의 작업을 소모할 것으로 예상되어 프로젝트 일정을 훨씬 초과했습니다


데이터 작업의 숨겨진 복잡성

이러한 경험들은 숙련된 데이터 전문가들이 너무나 잘 알고 있는 사실을 부각시킵니다. 데이터 준비는 일반적으로 AI 프로젝트 전체 일정의 60-80%를 차지합니다. 주요 과제는 다음과 같습니다:

데이터 통합: 각각 고유한 형식, 구조, 품질 표준을 가진 서로 다른 소스의 정보를 병합하는 작업

표준화: 서로 다른 시스템 전반에 걸쳐 일관된 카테고리와 분류를 만드는 작업

품질 보증: 누락된 값, 오류, 불일치를 식별하고 처리하는 작업

주석 요구사항: 많은 AI 애플리케이션에는 정확하게 라벨링된 데이터가 필요한데, 이는 시간이 많이 걸리고 종종 비용이 많이 드는 과정입니다

법적 및 개인정보 보호 제약: 특정 유형의 데이터에 접근하려면 복잡한 승인 과정이나 개인정보 보호 규정이 수반될 수 있습니다


AI 프로젝트 계획을 위한 필수 질문들

AI 프로젝트를 본격적으로 시작하기 전에 다음과 같은 중요한 질문들을 자문해보세요:


1. 데이터 가용성

내 서비스가 필요로 하는 데이터에 접근할 수 있는가?

이 데이터가 이미 수집되고 디지털화되어 있는가?

누가 이 데이터를 소유하고 있으며, 공유할 의향이 있는가?


2. 데이터 접근성

API나 다운로드를 통해 이 데이터를 쉽게 얻을 수 있는가?

어떤 법적 또는 관료적 장벽에 직면할 수 있는가?

개인정보 보호나 보안 제한사항이 있는가?


3. 데이터 품질 및 준비

데이터의 상태는 어떤가?

얼마나 많은 정리 및 전처리가 필요한가?

데이터 준비를 위한 기술과 도구가 있는가?

데이터 작업에 대한 현실적인 시간 투자는 얼마인가?


4. 데이터 생성 옵션

데이터가 존재하지 않는다면 생성할 수 있는가?

데이터 수집에는 무엇이 필요한가(시간, 비용, 전문성)?

합성 데이터나 데이터 증강을 사용할 수 있는가?

작동할 수 있는 대안적 데이터 소스가 있는가?

Screenshot 2025-07-10 at 4.48.06 PM.png

새로운 접근법: 데이터 우선 설계

기가막힌 아디디어로 나중에 필요한 데이터를 확보할수 있겠지라는 막연한 기대감으로 AI 프로젝트를 시작하기 전에, 이런 식으로 접근해 보세요.


1단계: 해당 도메인에서 사용 가능한 고품질 데이터셋 식별

2단계: 이러한 데이터셋으로 무엇이 가능하고 무엇이 가능하지 않은지 이해

3단계: 데이터 현실에 맞춰 AI 서비스 설계

4단계: 자원을 투입하기 전에 데이터 접근성과 품질 검증

5단계: 각 데이터 가정을 증명하며 점진적으로 구축


Screenshot 2025-07-10 at 4.47.14 PM.png

이 접근법은 처음에는 덜 창의적으로 느껴질 수 있지만, 실제로 작동하고 가치를 제공하는 것을 만들 가능성을 극적으로 높입니다.


핵심 교훈

AI 개발 도구의 민주화는 흥미롭고 새로운 가능성으로 열어줍니다. 그동안 기술적인 어려움으로 포기했던 서비스를 구현할수 있는 길을 열어 주기 때문이죠. 저도 요즘 많은 인공지능 서비스를 개발하고 런칭하고 있습니다. 개발자가 아닌 데이터 전문가이기 때문에 전에는 상상도 못한 일이 었습니다. 교육생 중 한 분은 바이브 코딩 워크샵을 참여한후 신세계가 열렸다고 후기를 남기기도 했습니다. 하지만 여럭지 도전이 있는 것은 사실입니다. 가장 핵심적인 것은 데이터이죠.


필요할 때 데이터가 어떻게든 이용 가능해질 것이라고 가정하지 마세요. 대부분의 경우 그렇지 않거나, 데이터를 획득하는 것이 AI 시스템 자체를 구축하는 것보다 훨씬 더 많은 시간, 노력, 자원을 필요로 할 것입니다.


실제로 접근할 수 있는 데이터가 무엇인지 탐색하는 것으로 AI 여정을 시작하고, 그것이 여러분의 혁신을 이끌도록 하세요. 가장 성공적인 AI 프로젝트는 반드시 가장 야심찬 것이 아니라, 견고한 데이터 기반 위에 구축된 것입니다.




keyword
매거진의 이전글AI for Everyone