[3부] Gemma4 31B vs E4B(8B)

실전 라벨링

by dean
Gemini_Generated_Image_2yfmsd2yfmsd2yfm.png

Sonnet 4.6 vs Gemma4 31B vs Gemma4 E4B

벤치마크를 넘어서, 실제 서비스에 쓰이는 라벨링 업무를 맡겨봤다.


영어 학습 앱의 문장 라벨링 — 한국어 번역, 핵심 표현 추출, 빈칸채우기 설계, 문법 해설까지 한 번에 생성하는 작업이다.


비교 대상에 Claude Sonnet 4.6 (API)을 추가해 3개 모델로 테스트했다.


테스트 방식


문장 1개씩 개별 호출 (정확도를 위해 배치 X)

2라운드, 총 15문장 (부가의문문, 선택의문문, 일상 표현 등)

동일한 시스템 프롬프트 + 동일한 JSON 출력 스키마


6.1 한국어 번역 비교 (발췌)


image.png

31B가 가장 한국어답다.


"나한테 거짓말했지, 그치?"처럼 주어 생략, 축약형 사용이 자연스럽고,

"왜 계속 나를 피하는 거야?"에서 "계속"을 넣어 현재완료진행의 뉘앙스를 살렸다.

Sonnet은 "당신은 나에게"같은 번역투가 종종 나왔다.


6.2 빈칸채우기 설계 비교 (발췌)


image.png


E4B의 빈칸 설계가 가장 약하다.


be동사(is, are), 조동사(do), 의문사(How, Why), 전치사(up)를 빈칸으로 잡아서 학습 효과가 거의 없다.

Sonnet과 31B는 핵심 내용어(crush, making, that)를 빈칸으로 잡아 유의미한 어휘 변별 문제를 만들었다.


6.3 핵심 표현 패턴화

image.png

Sonnet과 31B는 학습 카드에 바로 쓸 수 있는 패턴 형식으로 추출. E4B는 단어 하나만 뽑거나 문장 전체를 넣는 경향.


6.4 속도와 비용

image.png

6.5 라벨링 종합 평가

image.png

6.6 라벨링 결론


"라벨링에서 E4B는 탈락. Sonnet은 빠르고 빈칸이 좋지만 한국어가 아쉽고, 31B는 느리지만 한국어와 해설 품질이 최고."


권장 파이프라인:


image.png

이 파이프라인이면 Sonnet의 속도 + 31B의 품질을 모두 활용할 수 있다.


7. 종합 스코어카드


자동 검증 결과 (PASS/FAIL)


image.png

정량 비교


image.png


8. 결론: 그래서 어디에 돈을 써야 하나?


E4B (8B, 1GPU)를 추천하는 경우


비용이 최우선일 때 — 1/4 가격에 3.5배 빠른 처리량

대량 동시 요청 처리가 필요할 때 (챗봇, 분류, 태깅)

구조화된 작업 (JSON 변환, 데이터 분류, 간단한 번역)

자동검증 통과율 97%로 대부분의 실무에 충분


31B (4GPU)를 추천하는 경우


응답 품질이 비즈니스에 직결될 때 (고객 대면, 법률 검토)

복잡한 추론이 필요할 때 (계약서 협상안 도출, 레거시 코드 분석)

한국어 비즈니스 뉘앙스가 중요할 때 (CS, 비즈니스 메일)

옵션/대안을 여러 개 제시해야 할 때

페르소나 유지 등 creative task


실전 라벨링에서 확인한 것


벤치마크뿐 아니라 실제 라벨링 업무 15문장을 Sonnet 4.6까지 포함해 3모델로 비교한 결과:


E4B는 빈칸채우기에서 be동사/조동사만 잡아 학습 효과가 낮았고

31B는 한국어 번역, 핵심표현 패턴화, 해설 모두 최고 품질

Sonnet은 속도와 빈칸 설계에서 강점이지만 한국어 번역투가 약점


결론: Sonnet으로 대량 1차 처리 → 31B로 품질 검수하는 파이프라인이 최적.


핵심 한 줄


"E4B는 일꾼, 31B는 전문가, Sonnet은 스피드 에이스."


대부분의 실무에서는 E4B의 속도와 가성비가 압도적이지만, "답변 하나가 의사결정을 좌우하는" 상황에서는 31B의 깊이가 돈값을 한다.


그리고 두 모델을 파이프라인으로 조합하면 각각의 약점을 상쇄할 수 있다.


테스트 도구


추론 엔진: vLLM 0.19.0

서빙: Flask + OpenAI-compatible API

벤치마크 스크립트: Python (requests, ThreadPoolExecutor)

자동 검증: 키워드 매칭 + JSON 파싱 + 조건 체크

테스트 일시: 2026년 4월 5일


7. 마무리하며: 지난 1년, 작은 스타트업의 생존 전략

사실 이 긴 벤치마크 테스트를 진행한 데에는 개인적인, 그리고 저희 팀의 치열했던 1년간의 배경이 있습니다.


저희 같은 작은 스타트업에게 무한정 값비싼 API를 호출하거나, 수천만 원을 호가하는 최상위 GPU(A100, H100)를 구매하는 것은 현실적으로 불가능합니다.


그래서 지난 1년 동안 저희의 지상 과제는 언제나 가장 현실적인 가격의 L4 GPU 1장에서 잘 돌아가는 오픈소스 모델을 찾고,

이를 우리 도메인에 맞게 깎는 것"이었습니다.


이를 위해 무수히 많은 8B~9B급 소형 모델들을 가져다 테스트했고, 하이퀄리티의 라벨링 정답지(Golden Data)를 수집하여 LoRA 파인튜닝을 적용해 '도메인 전용 특화 모델'을 만드는 작업을 지난 1년간 끊임없이 반복해 왔습니다.


... 뭐 그냥 새로운 모델 나왔다고 이런 수고가 필요 없지 않을까 ... 해서 테스트 해봤습니다..^^ 끝...!



keyword
매거진의 이전글[2부] Gemma4 31B vs E4B(8B)