육아 코칭 AI 보니(bonny) 개발기
스타트업이 처음부터 GPT-4 같은 파운데이션 모델(Foundation Model)을 자체 구축한다? 냉정하게 말해서 불가능에 가깝습니다. 천문학적인 GPU 비용과 데이터 학습 비용을 감당할 수 없으니까요.
하지만 보니 팀은 꿈이 있었습니다. 범용적인 AI가 아니라, 육아 도메인에 특화된 우리만의 sLLM (Small Language Model)을 갖는 것. 이 목표를 위해 지난 1년여간, 우리는 모델 학습보다는 '데이터(Data)' 그 자체에 미친 듯이 집착했습니다.
우리가 16만 건의 데이터를 1년 넘게 수집하고 정제한 이유는 명확합니다. "AI 모델은 바뀔 수 있어도, 데이터 자산은 영원하다"는 믿음 때문입니다.
우리는 이 방대한 데이터를 단순 학습용이 아닌, RAG (검색 증강 생성) 엔진의 연료로 사용합니다. 모델이 모든 지식을 암기(Training)할 필요 없이, 필요할 때마다 우리의 검증된 데이터베이스에서 '오픈북 테스트'를 보게 만드는 것이죠.
11개 연령대와 55개의 카테고리 모두 공개한다.
https://www.hibonny.com/datainsight/rag
스타트업에게 '운영 비용(Token Cost)'은 생존과 직결됩니다. 최고 성능의 모델(Opus, Pro급)만 쓴다면 답변 품질은 좋겠지만, 서비스가 성장할수록 적자 폭도 커집니다. 반대로 저렴한 모델을 쓰면 답변이 멍청해지죠.
이 딜레마를 해결하는 유일한 열쇠가 바로 고품질 RAG 데이터였습니다.
가설: "교과서(Context)가 완벽하다면, 똑똑한 대학원생(GPT-4)이 아니라 **빠릿한 고등학생(Haiku, GPT-4o mini)**도 정답을 맞힐 수 있다."
검증: 실제로 우리는 [경량화 모델 + 고밀도 RAG] 조합을 테스트했습니다.
Claude 4 Haiku나 GPT-4o mini 같은 가성비 모델을 사용하되,
프롬프트에 우리 전문가들이 검증한 **'골든 데이터'**를 참고자료로 주입했습니다.
결과: 무거운 모델을 단독으로 쓸 때보다 속도는 2배 이상 빠르고 비용은 1/10 수준이지만, 답변의 전문성은 동등하거나 더 높은 수준을 달성했습니다.
결국 1년의 시간은 헛되지 않았습니다. 지금 쌓아올린 이 데이터들은 현재 저비용 고효율의 RAG 서비스를 가능하게 하는 핵심 엔진이며, 먼 훗날 보니가 독자적인 육아 전문 sLLM으로 진화하기 위한 가장 강력한 밑거름(Fine-tuning Data)이 될 것입니다.
남들이 모델 껍데기를 고민할 때, 우리는 알맹이(Data)를 채웠습니다. 이것이 보니가 기술적으로 가장 자신 있어 하는 부분입니다.