brunch

보안이 걱정된다면! 온디바이스 AI!

AI는 버블입니다. 언빌리버블!

by 퓨처에이전트

온디바이스 AI란, 클라우드 서버가 아니라 스마트폰, PC, IoT 기기 등 사용자 단말기(디바이스) 내에서 직접 실행되는 인공지능 기술을 의미합니다. 즉, 데이터 처리와 AI 연산이 인터넷을 거치지 않고 바로 기기 내부에서 이루어져 개인정보 보호, 응답 속도 향상, 네트워크 장애 시에도 사용 가능 등의 장점이 있습니다.


챗GPT, 클로드와 같은 생성형 AI 서비스는 클라우드에서 처리되기 때문에 프롬프트를 입력하면 해당 서비스의 클라우드에서 처리한 후 디바이스에서 생성이 되기 때문에 보안의 문제, 속도지연 현상, 에너지비용 증가 등의 문제가 있습니다. 그래서 이러한 문제를 해결하기 위해 최근에는 온디바이스 AI 서비스가 출시되고 있습니다.


예를 들어 Msty, ollama 같은 프로그램은 온디바이스 AI 전용제품이 아니라도 현재 사용하고 있는 PC나 노트북에 설치해도 클라우드를 거치지 않고 디바이스 자체에서 생성형 AI 서비스 이용이 가능합니다. 다만 디바이스 사양에 따라 속도가 느릴 수 있으며 원활한 사용을 위해서는 AI 전용반도체가 적용된 온디바이스 AI 전용 제품을 사용하는 것이 좋습니다.

AI 전용 반도체가 적용된 대표적 온디바이스 AI 제품과 그에 사용된 칩(프로세서) 예시는 다음과 같습니다. 삼성은 갤럭시 S24부터 삼성 자체 'Exynos' SoC와 'NPU(Neural Processing Unit, 신경망처리장치)'가 내장되어 인터넷 연결 없이도 생성형 AI, 실시간 번역, 사진 처리 등 대부분의 온디바이스 AI 기능이 NPU에서 구동됩니다. 예를 들면 이전 제품에서 구글번역앱을 이용하기 위해서는 반드시 네트워크 연결이 필요했지만 온디바이스 AI가 적용된 제품에서는 해외여행 시 네트워크 연결 없이도 구글번역앱 사용이 가능합니다.

MS Copilot+ PC (서피스 Pro, 노트북 등)에는 퀄컴 Snapdragon X Elite(전용 NPU 탑재), 일부 최신 인텔/AMD AI 전용 칩을 적용해 오프라인에서 LLM을 구동하고 이미지/음성 AI 지원이 가능합니다. 2025년형 LG 그램 AI(LG gram AI) 역시 온디바이스 AI와 클라우드 AI를 모두 지원하는 프리미엄 초경량 노트북입니다. 특히 최신 인텔 또는 AMD 라이젠 AI CPU와 AI 전용 NPU(신경망처리장치, AI Boost 등)가 내장되어 오프라인에서도 강력한 AI 기능을 제공합니다. 그리고 테슬라, 현대차, BYD 등 최신 차량에도 자체 AI 전용 칩을 탑재해 실시간 센서·카메라 ‘온디바이스’ 분석·판단이 가능합니다.


최근에는 젠스파크(Genspark)의 온디바이스 Free AI가 출시되었는데 기존의 클라우드 기반 젠스파크 AI 서비스와는 다르게, 사용자의 기기(PC나 맥 등)에 AI 모델을 직접 다운로드하고 실행할 수 있는 기능입니다. 인터넷 연결 없이도 작동하며, 무료로 제공되는 AI 모델들을 활용할 수 있다는 점이 핵심입니다. 젠스파크의 온디바이스 AI 기능은 젠스파크 AI브라우저에서 활성화됩니다. 젠스파크 홈페이지에서 무료로 다운로드해서 사용할 수 있으며 브라우저 자체가 AI 에이전트를 탑재한 형태로, 웹 탐색과 AI 작업을 통합합니다.

그림1.jpg

젠스파크의 온디바이스 Free AI는 다양한 AI 모델을 선택하고 설치할 수 있는 저장소 기능을 하는 모델 스토어(MCP Store 등)가 있어, 사용자가 원하는 용도(텍스트 생성, 요약, 번역, 이미지-생성 등)에 맞는 모델을 고를 수 있습니다. 현재 170여 개의 모델을 제공하고 있으며 사용하는 PC와 노트북 사양에 맞는 모델을 추천해 주기 때문에 편리합니다. 다만 온디바이스 AI(예: 젠스파크 Free AI, PC 내장형 AI)는 네트워크 연결 없이 사용하는 방식이라 인터넷 검색이나 웹에서 실시간 정보를 가져와 반영할 수는 없습니다.

그림2.jpg

이러한 온디바이스 AI에 적용되는 LLM(대규모언어모델)은 대부분 경량화(소형화)된 모델인데 스마트폰, 노트북 등 한정된 성능·메모리·저전력 환경에서 작동해야 하므로, 수십억~수백억 파라미터의 초대형 LLM(예: GPT-4, Gemini Ultra 등) 전체를 그대로 탑재할 수는 없습니다. 따라서 온디바이스 환경에서는 수백만~수십억 파라미터 수준의 경량화 LLM(예: MiniGPT, Gemma 2B, Qwen 2B, Phi-2, Llama 3-8B 4bit 등)이 주로 적용됩니다.


하지만 반도체 기술이 충분히 발전하면 대용량 LLM(수십억~수백억 파라미터 이상의 모델)도 점차 온디바이스(내장형)로 직접 사용할 수 있게 될 겁니다. NPU(신경망처리장치)와 GPU 성능이 매년 수배~수십 배로 성장하면서, 앞으로는 기존 서버급 AI 모델을 작은 모바일/PC 기기에서도 구동하는 날이 오리라 기대됩니다. 그때가 되면 챗GPT를 다운로드해서 보안 걱정 없이 안전하게 사용하는 것이 가능해 질지도 모르겠습니다. 앞에서 소개해 드린 Msty, ollama, 젠스파크 온디바이스 Free AI는 누구나 무료로 설치해서 사용이 가능하니 여러분도 직접 체혐해 보시기 바랍니다.


keyword