라즈베리 파이에서 30B AI 모델이 돌아간다고?

엣지 AI의 새로운 가능성

by 최재철

몇 년 전만 해도 노트북에서 7B(70억 개 파라미터) 모델을 돌리는 것조차 쉽지 않았습니다.

노트북 팬은 비행기 이륙 소리를 내고, AI의 답변은 한 글자씩 느릿느릿 나왔죠. 그런 상황에서 "라즈베리 파이에서 30B 모델을 실시간으로 돌린다"는 말은 농담처럼 들렸을 겁니다.

하지만 지금, ByteShape라는 팀이 실제로 해냈습니다. 손바닥만 한 싱글보드 컴퓨터 라즈베리 파이 5에서 300억 개 파라미터를 가진 Qwen3 모델이 실시간으로 대화합니다. 몇 분씩 기다려야 하는 배치 모드가 아니라, 실제로 사람과 대화하는 것처럼 자연스러운 속도로요.

이것이 왜 중요할까요? 단순한 기술 데모를 넘어, 이는 우리가 AI에 대해 가졌던 여러 가정들을 깨뜨리고 있습니다.


왜 불가능해 보였을까?

AI 모델을 다뤄본 사람이라면 누구나 아는 간단한 규칙이 있습니다.

큰 모델 = GPU 필수, 작은 기기 = 작은 모델

이건 그냥 경험칙이 아니라 실제 물리적 제약 때문이었습니다.


메모리 문제: 30B 모델을 BF16 정밀도로 저장하면 약 60GB가 필요합니다. 양자화로 줄여도 라즈베리 파이의 메모리를 훨씬 초과합니다.

연산 능력: 트랜스포머 모델은 행렬 곱셈을 엄청나게 많이 합니다. GPU는 이런 연산에 특화되어 있지만, 라즈베리 파이의 CPU는 그렇지 않죠.


그래서 지금까지의 상식은 이랬습니다.

엣지 디바이스(라즈베리 파이 같은 작은 기기): 3B~7B 모델

참을성 있다면: 13B까지 가능할 수도

그 이상: 데이터센터에서나 가능


ByteShape의 성과는 이런 상식이 더 이상 절대적이지 않다는 걸 보여주었습니다.


"실시간"이란 정확히 무엇을 의미할까?

여기서 잠깐, 우리의 기대치(=눈높이) 를 조정할 필요가 있습니다.

GPU에서 초당 수백 개의 토큰을 뽑아내는 걸 본 사람에게는 느리게 느껴질 수 있죠.

하지만 인간의 관점에서 생각해봅시다.

대부분의 사람들은 분당 200~300단어를 읽습니다

타이핑은 더 느리고, 대화는 훨씬 더 느립니다

평균적으로 사람은 초당 2~3단어 정도로 말합니다


그래서, 현실적으로 초당 8개 토큰이면 텍스트가 자연스럽게 흘러나오는 것처럼 느껴집니다.

답답하지 않고, 실제로 누군가가 답장을 쓰는 것 같은 느낌이죠.

여기서 중요한 건 전체 처리 시간이 아니라 첫 응답까지의 시간입니다. 빠르게 답변이 시작되는 게 전체 완료 시간보다 더 중요합니다. 긴 침묵 후보다는 지속적으로 답변을 주는게 훨씬 나은 경험을 제공합니다.


핵심 주인공: Qwen3-30B-A3B-Instruct

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
최재철작가님의 멤버십을 시작해 보세요!

(전) SK(주)C&C R&D AI개발부서 파트장, BC카드, 하나카드, 롯데카드를 거쳐 20여년차 IT개발자입니다. 그간의 경험을 쉽게 공유드립니다.

196 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 3개의 멤버십 콘텐츠 발행
  • 총 12개의 혜택 콘텐츠
최신 발행글 더보기
작가의 이전글일본의 AI Agent 시대 진입 전략