갤럭시 A 시리즈 Gemma3

Pipeline Benchmark

by LUKE
image.png
image.png


왜 이 테스트가 중요한가

SoC 세대 하나가 추론 속도를 29% 바꿉니다. 미드레인지 폰에서 Gemma3를 실용적으로 쓸 수 있는지, 숫자로 확인했습니다.

온디바이스 LLM을 보급형 스마트폰에 탑재할 때 가장 큰 질문은 "어떤 칩셋에서 실용적인 속도가 나오느냐"입니다. 갤럭시 A16·A26·A36·A56 4종에 gemma-3-270m-it-int8 모델을 MediaPipe CPU 백엔드로 구동하고, 25개 프롬프트에 대한 추론 속도·메모리·정확도를 측정했습니다.

추가로 병렬(4대 동시) vs 직렬(순차, 2회 반복) 두 방식으로 테스트해 실행 방식이 결과에 영향을 주는지도 검증했습니다. 결론: 병렬/직렬 차이는 없었고, SoC 세대 차이는 컸습니다.


테스트 환경

4종 디바이스 모두 동일한 모델 파일과 MediaPipe 엔진을 사용했습니다. 변수는 SoC와 Android 버전뿐입니다.

image.png

A56(Exynos s5e8855)만 최신 세대 칩셋으로, 유일하게 Android 15 환경입니다. A16는 Android 14·구세대 Exynos로 기준선(baseline)입니다.


전체 성능 순위 — SoC가 속도를 결정한다

A56가 11,593ms로 가장 빠르고, A16는 16,430ms로 가장 느립니다. 칩셋 세대 차이가 29% 속도 격차를 만들었습니다.

A56 평균 응답 시간 11.6초 · Decode TPS 23.12 — 4개 디바이스 중 최고

아래 표는 병렬 테스트(25회/디바이스) 기준 핵심 지표입니다. Decode TPS가 높을수록 응답이 빠르고, TTFT가 낮을수록 첫 토큰이 빨리 나옵니다.

image.png

A16(빨간색)는 평균 16.4초로 실시간 채팅 UX에서 사용자 이탈이 우려됩니다. A26·A36는 13.5~14.0초로 실용 범위에 들어오며, A56는 중간값 3.8초로 인터랙티브 응답이 가능합니다.


2ea07e_749704ee3b84495e9230dd2169a9eed0~mv2.png [그림 1] 디바이스별 평균 지연시간 비교 (초)


2ea07e_4da2778e441e42cebe5b55484f9c65db~mv2.png [그림 2] Decode TPS vs Prefill TPS 비교


카테고리별 지연시간 — 짧은 응답은 빠르고, 장문은 기다린다

minimal·math·reasoning은 1초 이하로 빠릅니다. long_generation과 code는 20~60초가 소요됩니다. 이 패턴은 모든 디바이스에서 동일합니다.

image.png


코드·장문 카테고리가 전체 평균을 크게 끌어올립니다. 실제 앱에서 이 두 태스크 비중을 낮추면 체감 속도가 크게 개선됩니다.

2ea07e_6dcc68efabba4cbc88b9ba278082221d~mv2.png [그림 3] 카테고리별 지연시간 히트맵 (초)


메모리 사용량 — Qualcomm이 14% 더 가볍다

모든 디바이스에서 약 415~482MB의 Native 메모리를 사용합니다. 속도가 가장 빠른 A56보다 Qualcomm SM6475 기반 A36가 메모리 효율에서 앞섰습니다.


A36(Qualcomm SM6475) 평균 메모리 414.7MB
A16(482.4MB) 대비 14% 절감

image.png

Qualcomm 플랫폼의 메모리 할당자가 Samsung Exynos 대비 LLM 레이어 로딩 시 더 효율적으로 동작하는 것으로 추정됩니다. NPU 백엔드 전환 시 이 차이가 더 두드러질 것으로 예상됩니다.


벨리데이션 결과 — 모델 한계는 디바이스와 무관하다

Ground Truth가 있는 14개 프롬프트에 대해 정답 여부를 검증했습니다. 모든 디바이스에서 통과율이 50.0%로 동일했습니다. 디바이스가 아닌 모델 자체의 한계입니다.


전 디바이스 벨리데이션 통과율 50.0% (7/14)
구조화 출력·코드 100%, 수학·추론 취약

아래는 통과/실패 항목 전체 내역입니다. 실패 패턴이 모든 디바이스에서 완전히 동일한 점이 핵심입니다.

image.png

factual_02(H₂O)는 모델이 올바른 화학식을 알고 있으나 유니코드 아래첨자로 표기한 것입니다. 벨리데이터에 NFKC 정규화를 추가하면 통과율이 57%로 올라갑니다. 수학·추론 실패는 270M 파라미터 모델의 구조적 한계입니다.


병렬 vs 직렬 — 동시 실행해도 성능은 변하지 않는다

4대를 동시에 돌려도 각 디바이스의 추론 속도는 달라지지 않았습니다. 병렬/직렬 차이가 모두 ±1.5% 이내입니다.

병렬 테스트는 4개 디바이스를 동시에 실행한 결과(25회/디바이스)이고, 직렬 테스트는 각 디바이스에서 순차적으로 2회 반복한 결과(50회/디바이스)입니다.

image.png

MediaPipe CPU 백엔드는 독립된 프로세스 공간에서 동작하기 때문에 다른 디바이스의 동시 부하가 영향을 주지 않습니다. 재현성 인증이 필요할 때만 직렬 2런을 권장합니다.

2ea07e_3ad15689c67d457892621f82c4867986~mv2.png [그림 4] 병렬 vs 직렬 평균 지연시간 비교


2ea07e_99071803082140ca8f8704aa42ea9cf2~mv2.png [그림 5] 지연시간 변화율 % (직렬 − 병렬)


2ea07e_3ffeec167406453bbba2fd73d3dd65ff~mv2.png [그림 6] 지연시간 분포 Boxplot


결론 — 3가지 핵심 규칙

Rule 1. 속도가 필요하면 A56, 메모리가 걱정되면 A36

A56(Exynos s5e8855)는 Decode TPS 23.12로 인터랙티브 UX가 가능한 유일한 디바이스입니다. 메모리 효율은 Qualcomm SM6475(A36)가 14% 앞섭니다. 앱 특성에 따라 우선순위를 선택하십시오.


Rule 2. 병렬 테스트는 신뢰할 수 있다

4대 동시 실행이 개별 성능에 영향을 주지 않으므로, 병렬 방식으로 전체 기기를 동시에 측정할 수 있습니다. 재현성 인증이 필요할 때만 직렬 2런을 권장합니다.


Rule 3. 수학·추론 정확도는 모델 업그레이드 없이 해결 안 된다

벨리데이션 50% 실패는 디바이스 문제가 아닌 270M 파라미터 한계입니다. 정확도가 중요한 시나리오에서는 Gemma3 1B 이상 모델로 업그레이드를 검토하십시오.

image.png

https://www.tecace.com/ko/on-device-llm


작가의 이전글Gemma 3n vs Gemma 4