brunch

You can make anything
by writing

C.S.Lewis

by 신동형 Aug 18. 2024

SAM 2: 이미지와 비디오의 경계를 넘는 혁신적 AI

AI(Claude3)가 작성 보고서 시리즈

AI(Claude3.5)가 작성한 「SAM 2:이미지와 비디오의 경계를 넘는 혁신적 AI 분할 모델"」보고서(2024.08.02.)


글쓴이 Claude 3(by Anthropic), 프롬프팅·편집 신동형(donghyung.shin@gmail.com)


##저는프롬프팅만했습니다.

#AI가작성했습니다.


1. 서론


1.1 SAM 2 개발 배경


인공지능 기술의 발전으로 컴퓨터가 이미지와 비디오를 이해하는 능력이 크게 향상되었습니다. 특히 객체 분할(Object Segmentation) 기술은 이미지나 비디오에서 특정 객체를 정확하게 구분해내는 중요한 과제입니다. 마치 어린아이가 그림책에서 동물이나 사물을 손가락으로 가리키며 배우는 것처럼, AI도 이미지 속 객체들을 인식하고 구분하는 법을 배우고 있습니다.


메타(구 페이스북)에서 2023년에 발표한 SAM(Segment Anything Model)은 이 분야에 큰 혁신을 가져왔습니다. 하지만 SAM은 주로 정지 이미지 처리에 특화되어 있어, 움직이는 영상을 다루는 데에는 한계가 있었습니다. 마치 사진 속 물체는 잘 찾아내지만, 동영상 속에서 움직이는 물체를 따라가며 찾아내는 것은 어려워하는 것과 비슷합니다.



1.2 기존 SAM의 한계점


기존 SAM 모델의 주요 한계점은 다음과 같습니다:

①    비디오 처리 능력 부족: SAM은 정지 이미지에 최적화되어 있어, 연속된 프레임으로 구성된 비디오를 효과적으로 처리하기 어려웠습니다.

②    객체 추적의 어려움: 비디오에서 시간에 따라 변화하는 객체의 위치와 형태를 지속적으로 추적하는 능력이 부족했습니다.

③    실시간 상호작용의 한계: 비디오 분할 작업에서 사용자와 실시간으로 상호작용하며 결과를 수정하는 기능이 제한적이었습니다.

④    메모리 효율성 문제: 긴 비디오를 처리할 때 모든 프레임 정보를 저장해야 해서 메모리 사용량이 급증하는 문제가 있었습니다.


이러한 한계를 극복하기 위해 메타는 SAM 2를 개발하게 되었습니다. SAM 2는 마치 영화를 보면서 등장인물을 계속 따라가며 인식할 수 있는 사람의 능력을 AI에 구현한 것과 같습니다.




2. SAM 2의 기술적 혁신


2.1 통합 아키텍처


SAM 2의 가장 큰 특징은 이미지와 비디오를 동시에 처리할 수 있는 통합 아키텍처입니다. 이는 마치 한 명의 전문가가 사진과 동영상을 모두 능숙하게 다룰 수 있는 것과 같습니다. 이 통합 아키텍처는 다음과 같은 이점을 제공합니다:

①    일관된 성능: 이미지와 비디오에서 동일한 수준의 높은 분할 성능을 보입니다.

②    효율적인 학습: 하나의 모델로 두 가지 작업을 수행할 수 있어 학습 효율성이 높아집니다.

③    유연한 적용: 다양한 응용 분야에서 일관된 방식으로 활용할 수 있습니다.



2.2 스트리밍 메모리 기술


SAM 2는 스트리밍 메모리 기술을 도입하여 긴 비디오도 효율적으로 처리할 수 있습니다. 이는 마치 사람이 영화를 보면서 중요한 장면만 기억하고 나머지는 잊어버리는 것과 유사합니다. 주요 특징은 다음과 같습니다:

①    실시간 처리: 비디오 프레임을 순차적으로 처리하며 실시간으로 결과를 생성합니다.

②    메모리 효율성: 모든 프레임 정보를 저장하지 않고, 필요한 정보만 선택적으로 저장합니다.

③    장기 의존성 처리: 시간이 지나도 이전에 등장한 객체를 잘 기억하고 추적합니다.




2.3 다양한 프롬프트 지원


SAM 2는 다양한 형태의 사용자 입력(프롬프트)을 지원합니다. 이는 마치 선생님이 학생에게 여러 가지 방식으로 질문하고 힌트를 주는 것과 비슷합니다. 지원하는 프롬프트 유형은 다음과 같습니다:

①    점(Point): 객체의 한 점을 클릭하여 지정

②    박스(Box): 객체를 둘러싸는 사각형을 그려 지정

③    마스크(Mask): 객체의 일부 영역을 직접 그려 지정


이러한 다양한 프롬프트 지원은 사용자가 더 정확하고 세밀하게 원하는 객체를 지정할 수 있게 해줍니다.


표 1 SAM과 SAM 2의 주요 기능 비교




3. SA-V 데이터셋 소개



3.1 데이터셋 구성 및 특징


SA-V(Segment Anything Video) 데이터셋은 SAM 2 개발을 위해 메타에서 구축한 대규모 비디오 분할 데이터셋입니다. 이 데이터셋은 다음과 같은 특징을 가지고 있습니다:

①    규모: 50.9K개의 비디오와 642.6K개의 마스크렛(시공간 마스크)으로 구성되어 있습니다. 이는 마치 50만 개가 넘는 짧은 영화 클립에 등장하는 모든 물체에 이름표를 붙인 것과 같습니다.

②    다양성: 실생활의 다양한 장면과 객체를 포함하고 있어, AI가 현실 세계를 더 잘 이해할 수 있도록 돕습니다. 예를 들어, 도시 거리, 자연 풍경, 실내 환경 등 다양한 상황에서 촬영된 영상들이 포함되어 있습니다.

③    지리적 다양성: 47개국에서 수집된 영상으로 구성되어 있어, 문화적 편향을 줄이고 글로벌한 적용이 가능합니다.

④    해상도 및 길이: 240p에서 4K까지 다양한 해상도의 비디오가 포함되어 있으며, 평균 길이는 13.8초입니다.



3.2 데이터 수집 및 주석 방법론


SA-V 데이터셋의 구축 과정은 다음과 같습니다:

①    비디오 수집: 크라우드워커들이 실생활에서 다양한 장면을 촬영하여 제공합니다.

②    마스크렛 생성: a) 수동 주석: 전문 주석자들이 SAM 2를 이용해 비디오 내 객체들을 분할하고 추적합니다. b) 자동 생성: SAM 2를 이용해 자동으로 마스크렛을 생성한 후, 검증 과정을 거칩니다.

③    품질 검증: 생성된 마스크렛은 별도의 검증자들에 의해 검토되며, 품질이 낮은 경우 재작업됩니다.


이러한 방법론은 마치 대규모 협동 작업과 같습니다. 수많은 사람들이 영상을 찍고, AI 도구를 사용해 물체를 표시하고, 다른 사람들이 그 결과를 검토하는 과정을 통해 높은 품질의 데이터셋이 만들어집니다.


표 2 SA-V 데이터셋과 기존 비디오 분할 데이터셋 비교



4. 성능 평가 및 비교


4.1 이미지 분할 성능


SAM 2는 기존 SAM 모델과 비교하여 이미지 분할 성능에서도 향상을 보였습니다. 23개의 다양한 이미지 데이터셋에 대한 제로샷(zero-shot) 평가 결과, SAM 2는 다음과 같은 성능을 보였습니다:

①    1-클릭 mIoU (평균 Intersection over Union): 61.4% (SAM: 58.1%)

②    5-클릭 mIoU: 83.7% (SAM: 81.3%)


이는 마치 퍼즐을 맞추는 속도와 정확도가 모두 향상된 것과 같습니다. 특히 단 한 번의 클릭만으로도 더 정확한 분할 결과를 얻을 수 있다는 점이 주목할 만합니다.



4.2 비디오 분할 성능


비디오 분할 성능에서 SAM 2는 기존의 최고 성능 모델들을 크게 앞섰습니다. 다양한 비디오 분할 벤치마크에서 다음과 같은 결과를 보였습니다:

①    DAVIS 2017 검증 세트: J&F 점수 91.6% (기존 최고 성능: 90.1%)

②    YouTube-VOS 2019 검증 세트: J&F 점수 89.1% (기존 최고 성능: 87.5%)


이러한 성능 향상은 마치 전문 영화 편집자가 수작업으로 영상 속 물체를 추적하는 것보다 더 정확하고 빠르게 AI가 작업을 수행할 수 있게 되었음을 의미합니다.




4.3 처리 속도 개선


SAM 2는 기존 SAM 모델 대비 처리 속도가 크게 개선되었습니다:

①    이미지 처리 속도: 초당 130.1 프레임 (SAM: 21.7 프레임)

②    비디오 처리 속도: 초당 43.8 프레임


이는 기존 모델보다 약 6배 빠른 속도로, 실시간 처리가 가능한 수준입니다. 마치 느린 비디오 플레이어가 순식간에 고성능 스트리밍 서비스로 업그레이드된 것과 같은 변화입니다.


표 3 SAM 2와 타 모델의 성능 비교 (DAVIS 2017 검증 세트 기준)



이러한 성능 향상은 SAM2가 실제 응용 분야에서 더욱 효과적으로 활용될 수 있음을 시사합니다.





5. 실제 응용 분야


SAM 2의 뛰어난 성능과 다양한 기능은 여러 산업 분야에서 혁신적인 응용을 가능하게 합니다.


5.1 의료 영상 분석


의료 분야에서 SAM 2는 다음과 같은 방식으로 활용될 수 있습니다:

①    종양 검출 및 추적: MRI나 CT 스캔 영상에서 종양을 정확하게 분할하고, 시간에 따른 변화를 추적할 수 있습니다. 예를 들어, 폐암 환자의 CT 스캔 시리즈에서 종양의 크기 변화를 자동으로 측정할 수 있습니다.

②    수술 지원: 내시경 영상에서 실시간으로 장기나 혈관을 식별하여 외과 의사의 시술을 보조할 수 있습니다. 마치 내비게이션이 운전자를 안내하듯, SAM 2는 의사에게 중요한 해부학적 구조를 실시간으로 표시해줄 수 있습니다.

③    병리학적 분석: 현미경 영상에서 세포나 조직을 자동으로 분할하고 계수하여 병리학자의 업무를 보조할 수 있습니다.


이러한 응용은 의료진의 업무 효율성을 높이고, 진단의 정확성을 향상시킬 수 있습니다.



5.2 자율주행 및 로봇공학


자율주행 차량과 로봇 분야에서 SAM 2는 다음과 같이 활용될 수 있습니다:

①    실시간 객체 인식: 도로 위의 보행자, 차량, 신호등 등을 실시간으로 식별하고 추적합니다. 예를 들어, 갑자기 달려나오는 어린이를 즉시 인식하고 차량을 제동할 수 있습니다.

②    환경 맵핑: 로봇이 주변 환경을 이해하고 지도를 생성하는 데 활용됩니다. 실내 청소 로봇이 가구와 벽을 구분하고, 효율적인 청소 경로를 계획하는 데 사용될 수 있습니다.

③    물체 조작: 로봇 팔이 다양한 형태의 물체를 정확하게 인식하고 집어들 수 있도록 돕습니다. 물류 센터에서 다양한 크기와 모양의 상품을 정확하게 분류하고 포장하는 데 활용될 수 있습니다.




5.3 증강현실 및 비디오 편집


미디어 및 엔터테인먼트 산업에서 SAM 2는 다음과 같은 혁신을 가져올 수 있습니다:

①    실시간 배경 교체: 화상 회의나 라이브 스트리밍에서 사용자 주변의 배경을 실시간으로 변경할 수 있습니다. 마치 휴대폰 카메라의 인물 모드를 비디오에 적용한 것과 같습니다.

②    고급 비디오 편집: 영화나 TV 프로그램 제작에서 특정 객체만을 선택적으로 편집할 수 있습니다. 예를 들어, 액션 영화에서 주인공의 움직임만을 추출하여 특수 효과를 적용할 수 있습니다.

③    인터랙티브 AR 경험: 모바일 AR 앱에서 실제 환경의 객체를 인식하고 이와 상호작용하는 가상 요소를 추가할 수 있습니다. 예를 들어, 박물관 투어 앱에서 전시품을 인식하고 관련 정보를 실시간으로 오버레이할 수 있습니다.


표 4 SAM 2의 주요 응용 분야 및 예시




6. 윤리적 고려사항 및 향후 과제


SAM 2와 같은 강력한 AI 기술은 많은 혜택을 제공하지만, 동시에 중요한 윤리적 고려사항도 제기합니다:

①    프라이버시 보호: 비디오에서 개인을 식별하고 추적할 수 있는 능력은 프라이버시 침해 우려를 낳습니다. 예를 들어, 공공장소의 CCTV 영상에서 특정 개인을 자동으로 추적할 수 있다면, 이는 사생활 침해로 이어질 수 있습니다.

②    데이터 편향성: SA-V 데이터셋이 다양성을 추구했음에도 불구하고, 여전히 특정 지역이나 문화에 편향될 수 있습니다. 이는 모델의 공정성 문제로 이어질 수 있습니다.

③    악용 가능성: 고도화된 객체 분할 기술은 딥페이크 제작이나 감시 도구로 악용될 수 있습니다.


향후 과제로는 다음과 같은 것들이 있습니다:

①      윤리적 가이드라인 수립: AI 기술의 책임 있는 사용을 위한 명확한 가이드라인이 필요

②      합니다. 이는 개인정보 보호, 공정성, 투명성 등을 포함해야 합니다.

③      모델의 해석 가능성 향상: SAM 2가 왜 특정한 분할 결과를 도출했는지 설명할 수 있는 기능이 필요합니다. 이는 마치 의사가 진단 결과를 환자에게 설명하는 것과 같이, AI의 결정 과정을 사용자가 이해할 수 있게 해줍니다.

④      실시간 성능 개선: 더 긴 비디오나 더 높은 해상도의 영상에서도 실시간으로 작동할 수 있도록 성능을 개선해야 합니다.

⑤      다중 객체 처리 능력 향상: 현재 SAM 2는 여러 객체를 동시에 처리할 때 효율성이 떨어집니다. 복잡한 장면에서 여러 객체를 동시에 분할하고 추적하는 능력을 개선해야 합니다.

⑥      적응형 학습: 새로운 환경이나 객체 유형에 빠르게 적응할 수 있는 능력을 개발해야 합니다. 이는 마치 사람이 새로운 상황에 빠르게 적응하는 것과 같은 유연성을 AI에 부여하는 것입니다.


표 5 SAM 2의 윤리적 고려사항 및 향후 과제





7. 결론


SAM 2는 이미지와 비디오 분할 기술의 새로운 지평을 열었습니다. 이 모델은 다음과 같은 주요 성과를 보여주었습니다:

①    통합 아키텍처: 이미지와 비디오를 동시에 처리할 수 있는 유연한 구조를 제시했습니다.

②    성능 향상: 기존 최고 성능의 모델들을 뛰어넘는 정확도를 달성했습니다.

③    속도 개선: 처리 속도를 6배 향상시켜 실시간 응용을 가능하게 했습니다.

④    대규모 데이터셋: SA-V 데이터셋을 통해 비디오 분할 연구의 새로운 기준을 제시했습니다.


이러한 성과는 의료, 자율주행, 증강현실 등 다양한 분야에서 혁신적인 응용을 가능하게 할 것으로 기대됩니다. 예를 들어, 의료 영상에서 종양을 더 정확하게 식별하고 추적할 수 있게 되어 암 진단과 치료에 큰 도움이 될 수 있습니다. 자율주행 차량은 도로 위의 객체들을 더 정확하고 빠르게 인식하여 안전성을 높일 수 있습니다.


그러나 이러한 발전과 함께 프라이버시 보호, 데이터 편향성, 기술의 악용 가능성 등 중요한 윤리적 문제들도 제기됩니다. 따라서 기술의 발전과 더불어 책임 있는 사용을 위한 가이드라인과 규제 체계의 발전도 필요합니다.


SAM 2는 AI 기술의 발전이 우리 일상생활과 산업에 가져올 수 있는 변화를 보여주는 중요한 이정표입니다. 마치 스마트폰이 우리의 생활 방식을 크게 바꾼 것처럼, SAM 2와 같은 AI 기술은 우리가 이미지와 비디오를 다루는 방식을 근본적으로 변화시킬 잠재력을 가지고 있습니다.


향후 연구에서는 더욱 복잡한 장면에서의 성능 향상, 다중 객체 처리 능력 개선, 적응형 학습 등을 통해 SAM 2의 한계를 극복하고 더 넓은 응용 분야를 개척할 것으로 기대됩니다. 이러한 발전은 AI 기술이 인간의 창의성과 생산성을 증진시키는 강력한 도구로 자리잡는 데 기여할 것입니다.


결론적으로, SAM 2는 컴퓨터 비전 기술의 새로운 장을 열었으며, 앞으로 다가올 AI 주도의 혁신적인 응용들의 선구자 역할을 할 것입니다. 이 기술이 가져올 변화에 대비하고, 그 혜택을 최대화하면서 동시에 잠재적 위험을 최소화하기 위한 사회적 논의와 준비가 필요한 시점입니다. 

-끝-


#AI영상분할, #SAM2, #컴퓨터비전, #메타AI, #비디오분석, #이미지처리, #딥러닝, #객체인식, #실시간AI, #증강현실

#VideoSegmentation, #SegmentAnything, #ComputerVision, #MetaAI, #VideoAnalysis, #ImageProcessing, #DeepLearning, #ObjectDetection, #RealtimeAI, #AugmentedReality


참고자료


Introducing SAM 2: The next generation of Meta Segment Anything Model for videos and images (Meta, 2024)(LINK)





브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari