13. 고수준(High-Level) 인식

3장 현재까지의 로봇들

Nov 12. 2025

physicalai-멀티모달AI와-로봇-top2.png

이전 저수준 인식(Low-level Perception)은 이미지나 센서 데이터를 직접 처리하여 물체의 형태나 위치와 같은 기초 정보를 추출하는 단계였습니다.

이제는 그 위에 쌓이는 단계, 즉, 환경과 상황의 의미를 이해하는 고수준 인식(High-level Perception)이 중요해졌습니다. 로봇이 "무엇을 보고 있는가?"에서 한 걸음 더 나아가, "지금 어디에 있고, 어떤 공간 구조 안에 있는가?"를 파악하는 단계입니다.

이번에는 고수준인식의 대표 사례인 지도생성(Map Generation)과 의미적 장면 이해(Semantic Segmentation)등을 중심으로 설명합니다.

⑴ 지도 생성 (Mapping)

지도생성은 로봇 내비게이션의 핵심입니다. 로봇은 자신이 움직이는 동안 주변환경의 구조를 파악하고, 그 정보를 지도 형태로 표현하여 이동 경로를 계획합니다.

즉, 지도 생성은 "공간을 인식하고 위치를 추정하는 과정"이며, 장애물 회피, 경로 탐색, 물체 탐색 등 거의 모든 로봇 행동의 기반이 됩니다. 지도 생성은 크게 2가지 접근으로 나뉩니다.

① SfM (Structure from Motion)

② SLAM (Simultaneous Localization and Mapping)

① SfM (Structure from Motion)

여러 장의 이미지에서 대응점을 찾아내고, 카메라의 이동궤적과 장면의 3차원 구조를 동시에 복원하는 기법입니다.

정적인 장면(움직이지 않는 환경)에서 3D 구조를 재구성할 때 자주 사용됩니다.

사진 측량, 문화재 복원, 드론 기반 3D 모델링 등에 활용됩니다.

② SLAM (Simultaneous Localization and Mapping)

로봇이 이동하면서 자신의 위치와 주변환경을 동시에 추정하는 기술입니다. 즉, "지도를 만들면서 현재 위치를 알아내는 것"입니다.

센서 종류에 따라 여러 변형 기법이 존재합니다.

- 지도 표현 방식

지도는 로봇이 공간을 어떤 관점이 이해하느냐에 따라 크게 메트릭 맵(Metric Map)과 토폴로지 맵(Topological Map)으로 구분됩니다.

ⓐ 메트릭 맵(Metric Map)

환경의 정확한 기하학적 정보(위치, 거리, 형태)를 보존하는 방식입니다. 좌표계 기반의 정밀한 공간 표현이 가능하며, 로봇의 위치 추정에 주로 활용됩니다.

대표적인 형태는 다음과 같습니다.

점군 지도 (Point Cloud Map)

SfM, Visual SLAM, LiDAR SLAM의 결과물로 생성되는 드문드문한(spare) 3D 점들의 집합입니다. 데이터가 가볍고 계산이 빠르지만, 세밀한 구조 표현에는 한계가 있습니다.

Gaussian Splatting 기반 지도

점군의 각 점에 가우시안 분포(위치, 색, 스케일 등)를 부여해 연속적이고 부드러운 장면 표현을 가능하게 하는 방식입니다. 실시간 렌더링과 시점 이동에 강하며, 최근 3D 비전 분야에서 빠르게 확산 중입니다.

점유 격자 지도 (Occupancy Grid Map)

공간을 격자 단위로 나누고, 각 격자에 물체가 존재할 확률을 저장합니다. 자율주행 로봇의 경로 계획, 장애물 회피에서 표준적으로 사용됩니다. 예: OctoMap

부호 거리장 (SDF/TSDF) 기반 지도

공간의 각 점에서 최근접 표면까지의 거리를 '부호있는 값'으로 표현합니다. 물체의 형태 복원, 충돌 감지, 3D 경로 계획 등에 자주 쓰입니다.

NeRF 기반 지도

공간의 위치마다 색상과 밀도를 반환하는 연속 함수로 장면을 학습하는 방식입니다. 고품질 시각 재구성이 가능하지만, 계산 비용이 높습니다. 최근에는 NeRF를 SLAM과 결합한 NeRF-SLAM 형태로 연구가 활발합니다.

ⓑ 토폴로지 맵 (Topological Map)

토폴로지 맵은 공간을 '장소(노드)'와 '연결 관계(엣지)'로 단순화한 지도입니다. 예를 들어,

방, 복도, 교차로 등을 노드로,

이동 가능한 통로를 엣지로 표현합니다.

이 방식은 공간의 정확한 거리보다는 이동 가능성이나 구조 관계를 표현하기에 적합합니다.

예: 복도 - 회의실 - 출입구 간 연결 관계 파악, 순찰 경로 계획 등

의미 기반 토폴로지 맵 (Semantic Topological Map)

토폴로지 맵에 의미(semantic label)를 부여한 확장 형태입니다.

예시:

"이 노드는 주방이다."

"이 구역은 작업 구역이다."

이러한 의미 정보를 함께 저장하면 로봇이 '주방으로 가서 컵을 가져와"와 같은 고수준 언어 명령을 이해하고 실행할 수 있게 됩니다.

- 메트릭 vs 토폴로지 요약

지도 생성 기술은 로봇의 자율성, 환경 적응력, 공간 이해 능력을 결정하는 핵심 요소입니다. 최근에는 파운데이션 모델과 결합해 센서 데이터 → 3D 지도 → 언어 명령 수행까지 하나의 통합 파이프라인으로 발전하고 있습니다.

⑵ 씬 그래프(Scene Graph)

로봇이 환경을 단순히 '보는' 수준을 넘어서 '이해'하기 위해 필요한 핵심 개념이 씬 그래프(Scene Graph)입니다. 씬 그래프는 주변의 사물과 공간의 관계를 구조적으로 표현하여, 로봇이 상황을 논리적으로 해석하고 대응할 수 있게 해줍니다.

- 씬 그래프란?

씬 그래프는 환경 내 객체(Object)를 노드(Node)로, 이들 간의 공간적/의미적 관계(Relation)를 엣지(Edge)로 나타내는 그래프 구조 표현입니다. 즉, "무엇이 어디에 있고, 어떤 관계로 연결되어 있는가"를 그래프로 표현하는 방법입니다.