엣지 AI의 새로운 가능성
몇 년 전만 해도 노트북에서 7B(70억 개 파라미터) 모델을 돌리는 것조차 쉽지 않았습니다.
노트북 팬은 비행기 이륙 소리를 내고, AI의 답변은 한 글자씩 느릿느릿 나왔죠. 그런 상황에서 "라즈베리 파이에서 30B 모델을 실시간으로 돌린다"는 말은 농담처럼 들렸을 겁니다.
하지만 지금, ByteShape라는 팀이 실제로 해냈습니다. 손바닥만 한 싱글보드 컴퓨터 라즈베리 파이 5에서 300억 개 파라미터를 가진 Qwen3 모델이 실시간으로 대화합니다. 몇 분씩 기다려야 하는 배치 모드가 아니라, 실제로 사람과 대화하는 것처럼 자연스러운 속도로요.
이것이 왜 중요할까요? 단순한 기술 데모를 넘어, 이는 우리가 AI에 대해 가졌던 여러 가정들을 깨뜨리고 있습니다.
AI 모델을 다뤄본 사람이라면 누구나 아는 간단한 규칙이 있습니다.
큰 모델 = GPU 필수, 작은 기기 = 작은 모델
이건 그냥 경험칙이 아니라 실제 물리적 제약 때문이었습니다.
메모리 문제: 30B 모델을 BF16 정밀도로 저장하면 약 60GB가 필요합니다. 양자화로 줄여도 라즈베리 파이의 메모리를 훨씬 초과합니다.
연산 능력: 트랜스포머 모델은 행렬 곱셈을 엄청나게 많이 합니다. GPU는 이런 연산에 특화되어 있지만, 라즈베리 파이의 CPU는 그렇지 않죠.
그래서 지금까지의 상식은 이랬습니다.
엣지 디바이스(라즈베리 파이 같은 작은 기기): 3B~7B 모델
참을성 있다면: 13B까지 가능할 수도
그 이상: 데이터센터에서나 가능
ByteShape의 성과는 이런 상식이 더 이상 절대적이지 않다는 걸 보여주었습니다.
여기서 잠깐, 우리의 기대치(=눈높이) 를 조정할 필요가 있습니다.
GPU에서 초당 수백 개의 토큰을 뽑아내는 걸 본 사람에게는 느리게 느껴질 수 있죠.
하지만 인간의 관점에서 생각해봅시다.
대부분의 사람들은 분당 200~300단어를 읽습니다
타이핑은 더 느리고, 대화는 훨씬 더 느립니다
평균적으로 사람은 초당 2~3단어 정도로 말합니다
그래서, 현실적으로 초당 8개 토큰이면 텍스트가 자연스럽게 흘러나오는 것처럼 느껴집니다.
답답하지 않고, 실제로 누군가가 답장을 쓰는 것 같은 느낌이죠.
여기서 중요한 건 전체 처리 시간이 아니라 첫 응답까지의 시간입니다. 빠르게 답변이 시작되는 게 전체 완료 시간보다 더 중요합니다. 긴 침묵 후보다는 지속적으로 답변을 주는게 훨씬 나은 경험을 제공합니다.
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠