brunch

You can make anything
by writing

C.S.Lewis

by 김라텔 Apr 08. 2023

이미지분할 AI 모델 'SAM'으로 세상을 놀래킨 메타

'SAM'은 무엇이며 활용 방안은 어떻게 될까?

들어가며

메타가 얼마 전인 4월 5일, Segment Anything 프로젝트를 깜짝 공개했다.

https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/


Segment Anything은 이름 그대로 어떤 이미지든 분할(segment)하는 것을 목표로 하는 프로젝트다. 여기서의 이미지 분할(Image segmentation)이란 이미지 내의 픽셀이 어떤 물체에 속하는지 식별하는 작업을 말한다. 배경과 사물을 분리하는 작업인 '누끼 따기'를 떠올리면 이해가 쉽다. 사실 이 '이미지 분할'은 고도의 작업을 필요로 하는데, Segment Anything 프로젝트의 핵심은 이를 다른 차원으로 업그레이드 시켰다.  


https://segment-anything.com/

본 글에서는 SAM이 무엇이고 어떻게 이미지 분할을 작업을 업그레이드 시켰는지, 어떤 기능과 가능성이 있는지에 대해서 간단히 살펴보도록 하겠다.  


SAM은 무엇인가
Segment Anything Model에 대해


Segment Anything 프로젝트의 비전은 이미지 분할에 필요한 작업(작업별 모델링 전문성, 학습 컴퓨팅, 이미지 분할을 위한 맞춤형 데이터 주석 등)의 필요성을 줄이는 것이다. 이를 위해 메타는 Segment Anything Model 이하 SAM과 데이터셋 SA-1B를 둘 다 구축했다. SA-1B는 사상 최대의 규모를 자랑하는 이미지 분할 데이터셋으로, 모델을 학습시킬 기존의 정보가 많지 않아서 직접 만들었다고 한다. 데이터셋 내의 이미지 수는 기존의 것의 6배에 달하고, 마스크의 경우엔 무려 400배에 달한다.

이미지 데이터셋
마스크 데이터셋


이를 통해 SAM은 '물체가 무엇인지'에 대한 일반적인 개념을 학습했으며, 훈련 중에 접해보지 못한 물체와 이미지 유형을 포함하여 모든 이미지 또는 비디오의 모든 물체에 대한 마스크를 생성할 수 있다. 이게 얼마나 대단한 거냐면, 수중 사진이나 현미경으로 들여다 본 세포 등의 새로운 이미지 영역에 대해서도 추가적인 학습 없이 바로 이미지 분할 작업을 수행할 수 있다고 한다.


SAM은 기존의 어떤 문제를 해결했는가?


SAM 이전의 이미지 분할 방식에는 단 두 가지가 존재했다. 첫 번째는 대화형 분할(Interactive Segmentation)로 이는 모든 종류의 사물을 분할 수 있지만, 인간이 마스크(Mask)를 반복적으로 다듬어서 가이드를 제공해야 한다는 한계점을 지녔다. 두 번째 접근 방식인 자동 분할(Automatic Segmentation)의 경우, 미리 정의된 특정 사물의 카테고리(Ex. 고양이, 의자 등)를 분할할 수 있지만, 엄청난 양의 사물 이미지를 학습시켜야만 했다. 예를 들어 고양이를 이미지 분할하기 위해 수천에서 수만 개의 분할된 고양이의 예시를 학습시켜야 했다.  즉, 두 가지 접근 방식 모두 한계가 존재했다.


SAM은 이 두 가지 접근 방식을 일반화했다. 즉, 대화형 분할과 자동 분할을 동시에 수행할 수 있는 단일 모델인 것이다. 일반화를 했다는 말은, 실무자가 더 이상 직접 분할 데이터를 수집하고 사용 사례에 맞게 모델을 미세 조정할 필요가 없다는 것을 의미한다. 이미지 분할의 완전 자동화와 일반화를 실현한 것이다.


SAM의 기능


(1) SAM은 어떤 사물이든 클릭 한 번으로 이미지를 분할하여 사물을 포함하거나 제외하는 것이 가능하다.


(2) SAM은 분할 대상 사물이 모호한 경우에, 여러 개의 유효한 마스크를 출력해준다.

 

(3) SAM은 이미지 내의 모든 사물을 자동으로 찾아서 마스킹해준다.


(4) SAM은 실시간으로 입력된 정보를 바탕으로 이미지를 분할하기 때문에, 사용자는 입력한 정보에 따라 이미지가 어떻게 분리되는지를 빠르게 확인할 수 있다.

상자 안의 모든 과일을 분할해내는 SAM (출처: 메타)

SAM의 작동 원리

작동 원리에 대해서는 간단하게 사진을 한 장 첨부하도록 하겠다. 보다 자세한 내용은 여기서 확인 할 수 있다.

(출처: 메타)

SAM의 미래
기술의 가능성과 우리에게 가져다 주는 이점은?


자 이제 우리한테 제일 중요한, SAM의 미래 가능성과 실생활에서 우리에게 가져다 줄 수 있는 영향에 대해 얘기해보자.


메타는 앞으로 SAM이 이미지에서 물체를 찾고 분할해야 하는 다양한 영역의 애플리케이션을 강화하는데 사용될 것이라 한다.


(1) AI 연구 커뮤니티


SAM은 이미지와 텍스트를 모두 이해하는 대규모 AI 시스템의 주요 구성요소가 될 수 있다. SAM의 이미지 분할 능력을 활용하면 웹페이지에서 제공되는 모든 정보를 효과적으로 분석하고 이해하는 한층 더 고도화된 AI가 탄생할 수 있다.


(2) AR/VR


SAM은 유저의 시선에 따라 물체를 선택하고 이를 3D로 '리프팅'할 수 있다. 즉 SAM이 물체를 분할하여 이를 3D 모델로 변환하고, 유저가 선택한 위치로 이동시키는 등 물체를 가상 공간에서 조작하고 탐색할 수 있다고 한다.

시선에 따른 물체 선택 (출처: 메타)

또한 미래에는 SAM이 AR 안경을 통해 일상적인 물건들을 식별할 수 있게 될 것이라 한다. 이는 일정 관리나 사용법 안내 등 유저에게 유용성을 제공할 수 있다. 예를 들어 아래의 오른쪽 그림처럼 강아지 밥 그릇을 식별하여 강아지가 언제 마지막 식사를 마쳤는지 정보를 표시해줄 수 있다.

(출처: 메타)


(3) 콘텐츠 제작


콘텐츠 제작자의 경우, SAM을 통해 콜라주나 비디오 편집을 위한 이미지 영역 추출 작업이 훨씬 간편하고 정확하고 빨라질 수 있다.


(4) 과학 연구


연구나 추적 대상인 동물 또는 물체의 위치를 파악하는 등, 지구나 우주에서 발생하는 자연적인 현상을 연구하는 과학적인 분야에서도 활용될 수 있다. 머지 않아 농업 분야에서 농부들을 돕거나 생물학자들의 연구를 지원할 수 있을 것이라고 메타는 말한다.

(출처: 메타)

끝맺으며


이처럼 SAM의 가능성은 무궁무진하고, 아직 상상조차 하지 못한 수많은 잠재적 사용 사례에 대한 기대가 크다. SAM 그 자체로는 우리 실생활에 어떤 이점을 가져다줄지 모호한 감이 있었는데 메타의 AR 글래스와 합쳐지면 시너지 효과가 상상을 초월할 것 같다. 또 메타가 이전부터 꾸준히 밀고 있는 메타버스와 VR 그리고 SAM이 연계되면 사용자 경험이 크게 개선될 것으로 기대된다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari