보니 개발기
아이 음식 레시피를 찾다 보면 항상 같은 불편함이 있었다.
검색하면 블로그 글이 쏟아지는데, "이 영상 3번 단계부터 보고 싶다"는 요구를 제대로 들어주는 서비스가 없었다.
유튜브에는 이미 수만 개의 고품질 요리 영상이 있고, 전문 크리에이터들이 직접 만든 레시피가 담겨 있다. 이걸 잘 정리된 데이터로 바꿀 수 없을까 하는 생각에서 시작했다.
목표는 단순했다.
유튜브 요리 영상을 분석해서 재료와 조리 순서를 정리하고, 조리 단계를 클릭하면 영상의 해당 시점으로 바로 이동할 수 있는 보니 레시피를 만들었다.
백종원 같은 메가 채널부터 소규모 채널까지 한국 요리 유튜버 약 270개 채널을 직접 골라 등록한 뒤, 전체 영상 목록을 가져왔다. 2분 이하 짧은 영상은 레시피 내용이 없어서 건너뛰었고, 최종적으로 약 7만 개의 영상을 수집했다.
약 7만 개 중 실제로 레시피가 있는 요리 영상만 추려야 했다. 같은 채널이라도 브이로그, 먹방, ASMR, 광고가 섞여 있어서다.
처음부터 AI에 다 맡기면 비용과 시간이 감당이 안 되니까, 먼저 간단한 규칙으로 걸러내고 애매한 것만 보니 AI가 판단하는 방식으로 처리했다. 채널 이름이나 영상 제목에 "먹방", "vlog", "ASMR" 같은 단어가 있으면 자동으로 제외하고, 나머지는 보니 AI가 제목과 설명을 보고 최종 판단했다.
AI로 걸러낸 약 2,300개 영상을 하나씩 눈으로 확인했다. 요리 영상이더라도 보니의 색깔과 맞지 않는 영상은 이 과정에서 제외했다. 약 7만 개에서 시작해 결국 약 2,300개만 남긴 셈인데, 숫자보다 품질을 택한 결정이었다.
요리 영상으로 추려진 영상들에서 자막을 수집했다. 자막에는 말한 내용과 함께 몇 초에 한 말인지 시간 정보가 담겨 있는데, 이 시간 정보가 핵심이다. 조리 단계를 클릭했을 때 영상의 해당 시점으로 이동할 수 있게 해주는 정보이기 때문이다.
자막을 보니 AI에 넣으면 재료와 조리 순서를 단계별로 정리해준다. 양이 불분명한 표현은 일반적인 기준으로 정제하고, 각 조리 단계가 영상의 몇 초 시점인지도 함께 연결했다. 각 단계 옆에는 그 시점의 실제 영상 화면도 함께 보여준다.
조리 단계에 보여줄 화면은 영상에서 해당 시점의 프레임을 직접 캡처해서 저장했다.
약 8,000개 자막에서 약 6,700개 레시피와 태그가 만들어졌다.
완성된 레시피를 앱에 올렸다. 태그 정보를 활용해서 자연어 검색과 카테고리 필터를 동시에 지원한다.
조리 단계를 클릭하면 유튜브 영상의 해당 시점으로 바로 이동
보이스로 편하게 검색하기
카테고리, 재료, 알레르기, 난이도로 필터링
아래처럼 자연어로 검색 가능하다.
규칙으로 먼저 걸러내고 보니 AI는 애매한 것만 처리한 전략이 주효했다.
처음부터 7만 개를 전부 AI에 넣었으면 비용과 시간이 감당이 안 됐을 것이다.