AI 기반 해커톤 평가 플랫폼 스냅코드 PM 회고록 마지막편
해당 글은 1편과 2편에서 이어지는 글입니다!
https://brunch.co.kr/@7a2e11fe067d43e/20
https://brunch.co.kr/@7a2e11fe067d43e/21
개발이 다 끝난 이후에는 지속해서 QA 테스트를 진행했다.
일반 프로덕트는 기능이 제대로 작동하는지 확인하는 QA 테스트만 진행했다면
이번에는 LLM 모델을 사용했기 때문에 AI QA 테스트도 수차례 진행했다.
가장 먼저, 동일한 프롬프트에서 입력 항목만 다르게 설정한 테스트를 진행했다.
즉, 생성 모델에 동일한 지시문을 주되 ‘주제 반영 비율’을 0%, 40%, 100% 등으로 달리 한 결과물을 비교한 것이다.
그런데 흥미로운 결과가 나왔다.
주제를 0% 반영한 제출물보다, 40% 반영한 버전의 점수가 오히려 더 낮게 나타난 것이다.
여기서 말하는 ‘주제’는 해커톤 평가 기준 중 하나였던 ‘주제 적합성(Theme Relevance)’과 직접적으로 연결된 항목이었다. 즉, 모델이 주제에 얼마나 충실히 맞춰 답변을 구성했는가를 평가하는 부분이었다.
AI의 평가는 단순히 ‘주제어를 얼마나 포함했는가’보다, 전체 문맥의 품질과 완성도를 더 중시한다는 것을 알 수 있었다. LLM 기반 평가 시스템은 텍스트 내 주제 단어가 많이 등장한다고 해서 자동으로 높은 점수를 주지 않는다. 오히려, 주제와의 일치도를 높이려는 과정에서 논리적 일관성이나 자연스러운 문맥 흐름이 깨지면 평가 점수가 떨어지는 경향이 나타난다.
결국, ‘얼마나 주제를 잘 따랐는가’보다 ‘얼마나 설득력 있게 표현했는가’가 더 큰 영향을 미쳤던 것이다.
다음 단계에서는 서로 다른 프롬프트에 동일한 입력 항목을 넣어보는 테스트를 진행했다.
즉, 입력 내용은 동일하게 유지한 채 프롬프트의 구조적 복잡도와 평가 지침의 밀도를 조정하여, 결과 점수의 변화를 관찰했다.
이번 실험에서는 비교적 예측 가능한 결과가 나타났다.
프롬프트가 구체적이고, 점수 기준 및 감점 항목이 세세하게 설정될수록 전체 점수가 낮아지는 경향을 보였다.
우리 팀은 행사장 2층 모니터링룸에서 실시간으로 제출되는 프로덕트를 확인하고 있었다.
개회식에서 AI 심사 사이트를 공개하자마자 트래픽이 엄청 몰렸다.
디스코드로 회원가입이 발생하면 알림이 오도록 설정해 놨는데, 알림이 끊이지 않았다.
오후 시간대에는 여유롭게 제출이 들어오는 편이었고
진짜는 23시부터였다.
제출 마감이 23:59까지라 미리 제출해야 함을 공지를 했어서
23:30 정도부터 제출이 미친 듯이 들어오기 시작했다.
우리끼리 한 독자적인 프로젝트가 아니기에, 모든 내용을 다 공개할 수는 없지만
AI 심사 이전에 이상이 있는 제출물에 대해서 발견해야 됐기 때문에 현장은 엄청난 긴장 상태였다.
(그래서 이때 사진은 아예 없다..ㅋㅋ)
서너 팀을 제외하고는 대부분의 참가팀이 프로덕트를 제출했다.
이제 우리가 연습한 대로 AI 평가를 돌려 상위 47팀이 선정되었다.
빠른 시간 내에 중앙(2차 본선 진출자 발표하는 곳)에 전달을 해야 했지만
혹시 모를 상황에 대비하여 평가 프로세스 후에도 두세 번 더 검토를 한 후에 진출팀 명단을 넘겼다.
우리의 역할이 무사히 끝났음에 안심이 되면서도 행사가 다 끝난 것은 아니었기에
긴장 상태는 계속되었다.
우여곡절이 많았지만 행사는 무사히 끝났고,
스냅코드팀도 우리의 역할을 모두 수행하고 편안해진 마음으로 귀할 수 있었다.
- 작년 대비 전체 팀 심사 시간이 약 90% 감소(4시간 > 25분)
- 단축된 시간을 2차 예선에 배분하여, 보다 많은 팀이 전문가 피드백을 받을 수 있도록 기회 확장(무박 해커톤이기에 효율적인 시간 활용이 중요했음)
- 기존에는 Github 및 배포 링크에 그쳤으나, 올해는 서비스 소개, 핵심 기능, AI 활용, 실행 전략 등 추가 항목을 요구
- 이로 인해 서비스 기획 단계가 구체화되었음 (*AI 심사 항목에서 기획 0점은 전무)
기획 부원 출신으로서, 이번 제출 항목 확대는 개인적으로 가장 뿌듯한 변화였다.
이 서비스를 처음 기획하게 된 이유도 명확했다.
“해커톤에서는 코드를 잘 짜는 것보다
디자인이 예쁘면 상을 받는 것 아니냐?”
이런 불만은 결국 개발자들의 의욕 저하로 이어지기 때문에 프로젝트 관리, 팀원들의 역량을 최대치로 끌어올려야 하는 PM/기획 파트 입장에서도 큰 문제였다. 그래서 매년 반복되던 이러한 불만을 직접 해결해보고 싶었다.
그래서 형식보다 본질, 겉보기에 예쁜 서비스보다 기획력과 개발 품질이 함께 평가받는 구조를 만들고자 했다.
실제 운영 과정에서, 참가자들이 자신의 서비스가 어떤 문제를 해결하고 어떤 사용자 경험을 지향하는지 구체적으로 설명하는 문화가 정착되는 모습을 보며 기획자로서 큰 보람을 느낄 수 있었다.
개인적으로 아쉬웠던 점(Problem&Try)을 꼽자면, LLM의 원리와 AI가 서비스 내에서 작동하는 원리를 알고 프로젝트에 투입된 것이 아니라 프로젝트를 하면서 백엔드 개발자에게 강습(?)을 받으며 체득했어서 기존에 기초 지식을 좀 더 많이 알고 있었더라면.. 하는 아쉬움이 있다. 프로젝트가 끝난 후에는 유튜브 무료 강의나 구글에서 제공하는 강의를 들으며 보강하고 있다.
또한, 앞서 QA 테스트를 언급했는데 테스트 데이터를 구하고, 만드느라 더 많은 테스트를 하지 못했던 것이 아쉽다. (놀랍게도 전체 테스트 데이터 중에 80%는 수동으로 제작한 테스트 데이터였다.) 다음번에는 시간을 적절하게 분배해서 테스트 데이터를 만드는 과정을 자동화해보고, AI 품질 테스트에 더 많은 시간을 쏟아보고 싶다.
감사하게도, 멋쟁이사자처럼의 다음 행사에도 함께 할 수 있게 되어서 지금 이 글을 쓰고 있는 순간에도 기획&테스트를 진행 중이다.
이번 행사는 창업트랙으로, 실제 투자자&VC에게 멘토링을 받을 수도 있는 행사이다.
지난번 행사에서 한 단계 더 나아가 참가자들의 결과물을 심사하고, 보완점을 리포트 형태로 제공한다.
참가는 11월 5일까지라고 하니, AI/창업에 관심 있는 분들은 살펴보시길!
https://event-us.kr/likelionuniv/event/114921