AI 인프라를 어떻게 구성하면 좋을지, 테스트할 수 있다면 어떨까요?
최근 산업 분야를 막론하고 AI 도입을 고민하고 있습니다. TEN에게 AI 인프라에 대해 문의하시는 기업들을 보면 아주 다양한 업종에서 연락을 주시는데요. AI 도입을 고민하며 이것저것 알아보다 보니, AI 인프라를 직접 구축하겠다는 결정과 함께 TEN을 알게 되었다고 하시더라고요. 맞습니다. AI 인프라를 직접 구축하는 것이 장기적인 관점에서는 좋은 결정이 될 수 있습니다. 그에 대해 TEN의 도움을 필요로 하시는 것도, 아주 좋은 타이밍이라 할 수 있겠고요. :)
AI 인프라 구축을 알아보다가 TEN에게 연락을 주시는 이유는 아주 다양합니다만, 대체로 하나의 결을 갖습니다. 바로, “어떻게 구성해야 할까?”입니다. 예를 들어, GPU는 최신 사양이라고 하는 특정 모델을 구입하려고 하는데, 그것만으로는 충분한지 모르겠다거나, 주변에서 GPU에 대한 추천은 받았는데, 그게 정말로 괜찮은 것인지 (특히나 금액도 적지 않기에) 확신이 없다거나, 같은 경우가 있습니다.
TEN이 AI 인프라 전문 기업으로서 이런 문제들을 함께 고민하고, 참고할 수 있는 데이터와 제안까지 해주는 서비스를 제공하고 있다는 것은 AI 피드를 자주 찾아오신 분들이라면 알고 계시리라 생각합니다. TEN이 앞서 이야기한 AI 인프라 구축에 대한 기업들의 고민을 듣게 되면서 깨달은 것이 “AI 인프라 구축에 가이드라인이 없다”는 사실이었거든요. 우리가 집에서 사용할 데스크톱 컴퓨터를 구매할 때도, 내가 주로 사용하는 기능에 맞는 하드웨어 사양에 대한 가이드가 있는데요. 더 큰 비용으로 구축해야 하는 데이터센터급 AI 인프라에 대해서는 가이드가 부족한 것이죠.
그런데, TEN이 어떻게 AI 인프라에 대한 가이드를 제공할 수 있는 것일까요? 데이터센터 수준의 AI 인프라 구축에 대해 어떻게 사양을 확인할 수 있는 것일까요? 답은 바로, TEN이 보유하고 있는 국내 최초, 최대의 ‘레퍼런스 아키텍처’에 있습니다. ;)
‘레퍼런스 아키텍쳐’라고 하면, 이 용어를 이미 알고 계신 분들에게는 웹서비스가 먼저 떠오르실 것 같습니다. 보통 하나 이상의 공통 도메인을 공유하고 있는 여러 최종 시스템을 정규화된 구조로 만든 것을 ‘레퍼런스 아키텍쳐’라고 합니다. 공통 기능 및 구성을 일반화하고 추출하는 역할과 안정적이고 비용 효율적으로 사용하는 인스턴스화에 대한 기반을 제공하는 역할을 하는데요. 이렇게 사전적으로 정의된 '레퍼런스 아키텍처'의 역할을 ‘AI 인프라’ 문제에서 수행할 수 있다면 어떨까요?
AI 인프라 구축 케이스는 아주 다양합니다. 데이터센터 수준의 대형 인프라를 구축하려 할 수도 있고, 사업 진척도에 맞춰 유연하게 확장해 나갈 수 있도록 합리적인 규모의 인프라를 구축하려 할 수도 있죠. 그럼에도 불구하고 AI 인프라를 구축하기 위해 꼭 갖춰야 하는 구성 요소들이 있을 겁니다. 또한 AI 도입과정에서 AI 인프라의 구성 요소들이 수행하는 기능들도 달라지지만, 정리가 가능한데요. 여기에 TEN이 노하우를 더해서 AI 인프라에 대한 ‘레퍼런스 아키텍처’를 만든 것입니다.
레퍼런스 아키텍쳐 안에는 고객의 AI 개발 또는 서비스 환경을 재현하기 위해 다양하게 인프라 환경을 구성해 볼 수 있도록, 최신 사양의 하드웨어 요소들이 다수 포함되어 있습니다. 다양한 제품들을 조합해 학습 효율, 비용 효율과 서비스 안정성까지 모두 고려해 볼 수 있는 인프라 구성안을 제안할 수 있는, 의미 그대로의 ‘레퍼런스 아키텍쳐’가 되겠습니다.
TEN의 레퍼런스 아키텍쳐는 AI 인프라 구축 시 참고할 수 있는 정확한 데이터를 얻어, 적합한 하드웨어 구성을 제안할 수 있도록 하는 역할을 하고 있습니다. 이를 위해서는 TEN에서 서비스하고 있는 RA:X(랙스)에 대해 이야기해야겠는데요. [AI, 더 깊게]에서 다룬 RA:X(랙스)에 대한 소개 콘텐츠에서 한 번 설명해 드린 바가 있습니다.
▶ RA:X 서비스 개발자의 인사이트: 혼합 정밀도와 GPU 성능 비교
TEN은 AI 인프라를 구축하려 하는 고객으로부터 데이터를 받아, 레퍼런스 아키텍처에서 테스트를 해보게 됩니다. TEN에게 있어 레퍼런스 아키텍쳐는 실험실이자, 연구실인 셈입니다. 여기서 ‘테스트’란 트래픽 테스트(부하 테스트)를 의미합니다. 단순하게 트래픽을 측정하는 것이 아닙니다. 고객이 AI를 도입하면서 인프라를 사용하게 되는 상황을 레퍼런스 아키텍쳐에서 재현하고, 트래픽을 측정하는, 일종의 시뮬레이션 테스트를 거칩니다.
고객으로부터 테스트가 필요한 딥러닝 프로세스(docker image나 py 파일, 또는 ipynb 파일, 학습에 관한 테스트일 경우 학습에 필요한 부가 데이터 필요)를 전달받으면, TEN에서는 AI 개발, 학습, 서비스 운영 등 고객의 AI 인프라 주 사용 목적에 맞춰 프로세스를 재현합니다. 물론, TEN이 구축해 놓은 Reference Architecture(레퍼런스 아키텍처)의 클러스터 위 각각의 노드에서 실행하는 거죠. TEN은 소요 시간을 포함하여 고객에게 필요한, 또는 고객이 요청한 내용으로 추출한 메트릭을 고객에게 공유하고 있습니다. 필요하다면 서버에 대한 제안도 할 수 있습니다.
AI 인프라 문제는 구축에서부터 고민할 것이 매우 많기 때문에, 정확한 수치로 효율과 안정성을 확인해 볼 수 있는 테스트 결과를 받아볼 수 있는 것만으로도 다양한 방면에서 합리적인 구성으로 AI 인프라를 구축하실 수 있을 거예요. 그래서 TEN의 레퍼런스 아키텍처는 RA:X(랙스) 출시 전부터 많은 주목을 받았습니다. AI를 이미 도입하신 기업 담당자들에게도, AI 인프라의 하드웨어를 취급하는 업체들에도 랙스(RA:X)의 합리성에 대해 호평받았는데요. ;)
국내 최초이자, 최신 사양의 하드웨어를 포함한 최고의 ‘레퍼런스 아키텍처’를 여러분이 이용해보시는 방법은 간단합니다. 바로, AI 인프라 구축 또는 추가 구축에 앞서 TEN의 RA:X를 이용해 보시는 겁니다. 마치 랙스(RA:X)에 대한 영업 같이 느껴지신다면, 맞습니다만…ㅎ 국내외 기업들이 ‘레퍼런스 아키텍처’라는 AI 인프라에 대한 좋은 ‘교보재’가 있다는 사실을 모르고, 거액을 들여 데이터센터 등 AI 인프라를 구축하게 되는 상황이라면요. 여러 기업들이 AI를 활용해서 사회에 좋은 가치를 실현하고자 하는 데에 도움이 되지 않을 테니까요. 그 점이 아쉬워서 꼭 소개해 드리고 싶었답니다. :)
AI 인프라는 구축에서부터 큰 비용이 드는 일이기 때문에 정확한 데이터 또는 참고 자료 없이 그대로 갖가지 HW 요소를 구입해 결정하기 어렵습니다. 경쟁사 혹은 AI 산업의 선두 기업이라고 할 수 있는 타사의 사례를 참고하기에도, 비즈니스적으로 혹은 예산 및 환경 차원에서 고려해야 할 문제가 각자 다르기 때문에 그대로 받아들이기 어렵지요. TEN 역시 이런 문제에 공감하고 있기에 마련한 것이 바로 ‘레퍼런스 아키텍처’입니다.
오늘 [AI, 더 쉽게]에서는 이 '레퍼런스 아키텍처'는 자리 잡고 더 자세히 소개해 드리고 싶은 마음이 굴뚝 같은데요. (어떤 돌침대 회사의 광고 카피가 떠오르네요. '이게 참...좋은데....') AI 인프라는 AI 도입에 있어 처음부터 끝까지 함께하는 문제인 만큼, 구축에서부터 전문가의 의견과 정확한 데이터를 참고할 수 있도록, TEN을 찾아보시는 것은 어떨까요? 지금까지 에디터 SA였습니다. 다음 주에 다시 최신 AI 소식들로 다시 찾아오겠습니다. :)
* 주식회사 텐의 콘텐츠를 더 빨리 만나는 방법! 텐의 AI피드를 방문해 보세요!