클라우드부터 임베디드 AI까지
2022년 말 불기 시작한 생성형 AI 열풍이 심상치 않습니다. 업무와 일상생활에서 챗GPT나 Stable Diffusion과 같은 생성형 AI를 활용하는 것은 이제 더 이상 낯선 광경이 아닙니다. 그러나 생성형 AI 뒷단의 프로세스를 이해하고 있는 사람들은 많지 않지요. 생성형 AI를 자동차에 비유하자면, 데이터는 생성형 AI를 움직이는 21세기의 석유와도 같습니다. 현재의 생성형 AI는 기본적으로 방대한 양의 데이터를 사전학습(pre-trained)하고, 이를 바탕으로 새로운 결과를 생성해 내는 지도학습(supervised learning) 방식으로 작동하기 때문입니다.
따라서 생성형 AI는 학습 데이터의 품질에 크게 의존할 수밖에 없습니다. 또한 특정 그룹이나 편향된 데이터를 사용할 경우, 모델이 왜곡되어 다양성과 공정성 등 보안 및 윤리적 관점에서의 문제가 발생할 위험성도 내포하고 있습니다. 이러한 이유로 양질의 말뭉치 데이터를 확보하는 것은 생성형 AI의 성능에 큰 영향을 미치는 요소 중 하나입니다. 말뭉치(corpus)란 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합을 가리킵니다.
그러나 단순히 많은 양의 말뭉치 데이터가 확보 되어있다고 해서 인공지능 모델을 원활하게 운용할 수 있는 것은 아니죠. 생성형 AI 모델이 최적의 성능을 유지하기 위해서는 실시간(real-time)으로 생성되고 변화하는 최신 데이터를 통합하여 재학습하고 정확도를 유지하는 과정이 필수적입니다. 또한 좋은 성능을 유지하면서 보안상의 문제를 해결하기 위해서는 다양한 최신 기술들이 활용됩니다. 이번 시간에는 원활한 생성형 AI 운영의 근간이 되는 클라우드 컴퓨팅(cloud computing) 기술과 인공지능의 미래라고 하는 임베디드 AI(embedded AI) 기술에 대해서 알아보도록 하겠습니다.
이처럼 인공지능 모델이 데이터를 실시간으로 학습하고 운용하기 위해서는 방대한 양의 데이터를 저장하고 적재적소에 필요한 리소스를 배치해 주는 기술들이 필요한데, 이것을 가능하게 해주는 것이 바로 클라우드 컴퓨팅입니다. 클라우드 컴퓨팅(cloud computing)이란 컴퓨팅 리소스를 인터넷을 통해 서비스로 사용할 수 있는 주문형 서비스를 가리킵니다. AWS, Google Cloud, MS Azure와 같은 서비스 제공 기업에서 서버를 빌려와 필요한 데이터를 저장 및 스트리밍(streaming)하는 방식으로, 서버 관리를 위해 직접 리소스를 조달하거나 구성, 관리할 필요가 없으며 사용한 만큼만 돈을 내면 된다는 장점이 있습니다.
데이터를 21세기의 원유에 비유하자면 클라우드(cloud)를 비롯한 데이터 저장 및 운용 기술은 원유를 비축하고 용도에 맞게 적재적소로 흘려보내는 최첨단 파이프라인(pipeline)을 구축하기 위한 기술과도 같다고 할 수 있습니다. 이처럼 클라우드 컴퓨팅 기술과 인공지능은 매우 긴밀하게 연결 되어있으며, 인공지능 기술이 발전할수록 이러한 경향은 필연적으로 더 강해질 수밖에 없을 것으로 보입니다. 인공지능 모델이 점점 더 거대화되고 정교해질수록 실패 없이 더욱 많은 양의 데이터를 실시간으로 공급하는 것이 중요해지기 때문입니다.
특히 수천억 개의 매개변수(parameter)를 바탕으로 천문학적인 양의 비정형 데이터를 학습하는 생성형 AI의 경우는 클라우드 컴퓨팅 기술이 더욱더 중요합니다. 이러한 현실을 반영하듯이 벤처 캐피털 회사 안드레센 호로위츠는 인공지능 스타트업이 생성형 AI를 활용한 애플리케이션으로 올리는 수익의 10~20%가 클라우드 서비스 제공업체로 돌아간다고 추정하고 있을 정도입니다.
클라우드 도입을 위해서는 다양한 요소들을 고려해야 합니다. AWS, Google, MS Azure와 같이 기업에 클라우드 서비스를 제공하는 회사들의 서비스를 이용하는 경우 예산과 보안 등 다양한 요소를 고려하여 SaaS(Software as a Service), PaaS(Platform as a Service), IaaS(Infrastructure as a Service) 등 다양한 형태의 퍼블릭 클라우드를 이용할 수 있습니다. 이처럼 상황에 따라 클라우드 서비스사의 여러 옵션을 고려할 수 있지만, 이러한 방법들은 여전히 클라우드 제공사의 서버에 의존할 수밖에 없기 때문에 기업의 민감정보 등 보안 이슈를 본질적으로 해결하지는 못한다는 단점이 있습니다. 이러한 이유로 오늘날 클라우드 회사에서 제공하는 퍼블릭 클라우드(public cloud)에 전적으로 의존하는 사용자는 거의 없습니다.
이처럼 기존 퍼블릭 클라우드가 가지고 있는 보안상의 단점을 해결하기 위한 기술이 바로 하이브리드 클라우드(hybrid cloud)입니다. 하이브리드 클라우드란 퍼블릭 클라우드와 온프레미스 데이터 센터 또는 프라이빗 클라우드와(private cloud) 같은 서로 다른 환경에서 컴퓨팅, 스토리지, 서비스를 조합해서 사용하여 애플리케이션을 실행하게 도와주는 혼합 컴퓨팅 환경을 가리킵니다. 하이브리드 클라우드는 퍼블릭 클라우드와 프라이빗 클라우드(private cloud)의 기능을 결합하여, 기업들이 더 유연하게 데이터와 애플리케이션을 관리할 수 있도록 합니다. 이러한 모델은 보안과 통제가 중요한 데이터를 프라이빗 클라우드에 보관하면서도, 퍼블릭 클라우드의 확장성과 비용 효율성을 활용할 수 있게 해주죠.
이처럼 최신 기술인 생성형 AI의 운용과 활용을 위해서는 클라우드 컴퓨팅 기술이 더욱 중요해지고 있습니다. 이러한 점을 고려할 때, 하이브리드 클라우드가 더욱 유연한 데이터 및 애플리케이션 관리를 지원하면서도 보안과 통제가 중요한 데이터를 안전하게 보관하는 데에 기여할 것으로 기대됩니다. 이러한 측면에서 하이브리드 클라우드는 현대 기업이 민감한 정보를 안전하게 관리하면서도 클라우드의 유연성과 효율성을 동시에 누릴 수 있는 중요한 솔루션으로 자리 잡을 것으로 예측됩니다. 이러한 발전은 더 나은 데이터 관리와 보안 강화에 기여하며, 기업들이 혁신적인 AI 기술을 안정적으로 적용하는 데 큰 역할을 할 것으로 전망되고 있습니다.
지금까지 생성형 AI를 사용하기 위한 필수적인 데이터 운용 기술인 클라우드 컴퓨팅에 대해 알아보았습니다. 그러나 클라우드 서비스 제공업체의 서버에 의존하는 서비스의 특성상, 보안에 취약하다는 문제가 있었죠. 이를 해결하기 위한 기술이 하이브리드 클라우드 기술이었습니다. 그러나 이 역시도 완벽한 해결책은 아닙니다.
미래에는 데이터와 인공지능 모델이 한 몸이 되어 움직이게 될 것으로 예상됩니다. 이때 임베디드 AI를 활용한 실시간 데이터 처리와 응용 프로그램의 적용이 활발해질 가능성이 높습니다. 임베디드 AI(embedded AI)란 일종의 반도체 형태로 기기나 소프트웨어에 직접 삽입되어 데이터 처리와 의사 결정을 지원하는 기술입니다. 이는 데이터를 처리하고 분석하는 데 있어서 빠르고 신속한 반응성을 요구하는 여러 시나리오에 적합합니다. 자율주행 자동차나 IoT(Internet of Things)와 같은 하드웨어적인 요소와 AI를 결합하는 데에 있어서 필수적인 기술이지요.
특히 IoT (사물인터넷) 분야에서, 임베디드 AI는 센서에서 수집된 실시간 데이터를 분석하고 이를 기반으로 한 자동화된 의사 결정을 가능하게 도와줍니다. 제조업, 스마트 시티, 의료 등 여러 산업 분야에서 중요한 역할을 할 것으로 보이는데요. 임베디드 AI의 발전은 기업들이 더욱 효율적으로 데이터를 수집하고 활용함으로써 새로운 비즈니스 모델을 탐색하고 혁신하는 데 도움이 됩니다. 또한, 임베디드 AI의 진보는 기존의 클라우드 기반 AI 시스템과 연계되어 보다 유연하고 효율적인 환경을 조성할 것입니다. 클라우드와 엣지 컴퓨팅 사이의 연결이 강화되면서, 임베디드 AI는 중앙 집중식 데이터 처리와 엣지 기기 간의 효율적인 데이터 교환을 지원하여 보다 빠르고 신속한 의사 결정을 가능하게 할 수 있기 때문입니다.
*본 기고는 인공지능 기업 AIHeroes로부터 소정의 원고료를 지급 받아 작성하였습니다.