매거진 AI NOTE

NVIDIA L4 vs 국산 NPU(Warboy) 벤치

NPU, 최적화하면 다 되는 것 아닌가?

by dean



unnamed_(1).jpg?type=w1


파인튜닝모델을 실서비스에 적용하기 위해 진행했던 하드웨어 선정 및 최적화 과정을 기록으로 남긴다.


결론부터 말하자면, "스펙 시트(Spec Sheet)의 권장 용도를 무시하면 엔지니어의 리소스가 낭비된다"는 교훈과, "그럼에도 불구하고 차세대 NPU는 주목해야 한다"는 가능성을 확인한 프로젝트였다.



0. 시작 전의 오해: "NPU, 최적화하면 다 되는 것 아닌가?"


프로젝트 착수 단계에서 NPU(Neural Processing Unit)에 대한 정보, 특히 해당 하드웨어의 아키텍처적 특성에 대한 이해가 다소 부족했다.


Furiosa Warboy가 '비전(Vision) 중심'이라는 정보를 접했으나, 인터넷상의 파편적인 정보와 막연한 기대감으로 인해 중대한 오판을 했다. 사전 조사 단계에서 ChatGPT, Gemini, Claude 등 주요 LLM에게 자문을 구했을 때도, 돌아온 답변은 대동소이했다.



"NPU는 딥러닝 추론(Inference)에 특화되어 있어 GPU 대비 전력 효율과 가성비가 뛰어납니다."


하지만 이는 질문의 디테일이 부족했던 나의 귀책이었다. 'Furiosa Warboy 1세대'라는 구체적인 하드웨어 모델명과 'Transformer 기반 NLP'라는 워크로드를 명시하지 않은 채, 단순히 'NPU'라는 포괄적인 대분류로 접근했기 때문이다.


결국 LLM들이 내놓은 'NPU의 범용적 장점'을 '내가 사용할 하드웨어의 성능'으로 치환해버리는 '일반화의 오류'가 이번 무모한 벤치마크의 시발점이 되었다.


"AI 전용 가속기이므로, 최적화를 거치면 일반적인 NLP(자연어 처리) 추론도 충분한 가성비를 확보할 수 있을 것이다."


이러한 근거 없는 가정과 정보의 해석 오류로 인해, 1세대 비전 전용 NPU에 무거운 Transformer 모델을 올리는 험난한 여정이 시작되었다.



1. 개요: 비교 대상 및 환경


약 79만 건의 데이터로 학습된 KcELECTRA-base (Transformer 기반) 모델을 대상으로 추론 성능을 비교했다.


GPU: NVIDIA L4 (24GB) - 데이터센터용 추론 GPU의 표준

NPU: Furiosa Warboy (1st Gen) - 국산 AI 반도체 1세대 모델.


2. 최적화 과정: 구조적 한계와의 싸움


Warboy 1세대는 예상보다 훨씬 더 CNN(이미지 처리) 가속에 특화된 하드웨어였다. Transformer 아키텍처를 네이티브로 지원하지 않아 대대적인 모델 수정이 불가피했다.


모델 수술 (Model Surgery): NPU 미지원 레이어(Gather 등)를 제거하고, CPU가 임베딩을 처리하고 NPU가 인코더 연산을 수행하는 하이브리드 구조로 변경해야 했다.

양자화 및 컴파일: Float32 모델을 Int8로 양자화하고, ONNX 그래프의 데이터 타입 불일치를 해결하는 등 시스템 레벨의 튜닝을 진행했다.



3. 벤치마크 결과: 압도적인 격차


최적화 작업을 마친 후 진행한 테스트 결과는 냉혹했다. 아래는 테스트 로그를 기반으로 시각화한 데이터와 요약이다.




image.png?type=w1


� NVIDIA L4 (GPU)

단일 추론 (Len 128): 8.7ms (Mean) Throughput: 113 req/s 배치 처리 (Batch 4): 342 req/s (매우 안정적) 평가: 기대한 성능을 완벽히 충족함.



ray-so-export.png


� Furiosa Warboy (NPU)

단일 추론 (Len 128): 1,299ms (약 1.3초) Throughput: 0.77 req/s 배치 처리: Failed - Invalid input tensors (지원 불가) 평가: GPU 대비 약 147배 느린 속도로, 실시간 서비스 적용 불가.


ray-so-export (1).png


ray-so-export (2).png
2025-12-08_14-26-30.png


4. 원인 분석: 왜 실패했는가?


테스트 종료 후 로그와 아키텍처를 분석한 결과, 실패 원인은 명확했다.


아키텍처의 불일치: Warboy 1세대는 CNN(이미지/비전) 처리에 최적화된 설계를 가지고 있다. 토큰 간의 관계를 순차적으로 계산해야 하는 Transformer(NLP) 모델은 해당 하드웨어의 강점을 살릴 수 없는 구조다. I/O 오버헤드 (Hybrid Structure Penalty): NPU 단독 처리가 불가능하여 'CPU ↔ NPU' 간 데이터를 주고받는 과정에서 발생한 핸드쉐이킹(Handshaking) 비용이 실제 연산 시간보다 더 크게 작용했다. 배보다 배꼽이 더 큰 상황이 발생한 것이다.


5. 희망: 2세대 NPU (Renegade)는 다르다


이번 테스트가 1세대 모델의 한계를 확인하는 과정이었다면, 향후 기술에 대한 기대감은 여전히 유효하다. FuriosaAI의 **2세대 NPU 'Renegade (RNGD)'**는 1세대와는 근본적으로 다른 설계를 지향한다고 알려져 있다.


Transformer 네이티브 지원: 1세대와 달리 LLM(거대언어모델)과 Transformer 아키텍처 구동을 목표로 설계됨. HBM3 메모리 탑재: 대역폭 병목을 해소하여 NLP 처리에 최적화. 실증 사례: Llama와 같은 최신 LLM 모델 구동 성공 사례가 보고됨.


즉, 이번 벤치마크는 **"트랙터(1세대 Vision NPU)로 F1 서킷(NLP)을 달린 격"**이었다. 하드웨어의 목적에 맞지 않는 사용이었을 뿐, NPU 자체의 가능성을 부정할 필요는 없다. 2세대 칩셋 확보 시 재검증이 필요하다.



6. 최종 결론 및 전략


이번 프로젝트를 통해 얻은 최종 하드웨어 운용 전략은 다음과 같다.


NLP (텍스트 분석): 현재 시점에서는 NVIDIA GPU (L4 등) 도입이 필수적이다. 모델 수정 없이 즉시 배포가 가능하며 성능이 보장된다. Vision (이미지/영상): Furiosa Warboy는 폐기할 대상이 아니다. 유해 이미지 필터링, OCR 등 Vision AI 태스크로 전환하여 배치한다면 높은 가성비를 기대할 수 있다.


제조사가 명시한 하드웨어의 용도(Vision Only)를 자의적으로 해석하여 '가능할 것'이라 낙관하지 말아야 한다. 하지만 실패한 데이터도 자산이다. 1세대의 한계를 명확히 파악했기에, 차세대 NPU 도입 시 더 정확한 검증이 가능할 것이다.





keyword
매거진의 이전글GPU 파인튜닝 성능 비교: L4 vs A100 vs