brunch

13. 고수준(High-Level) 인식

3장 현재까지의 로봇들

by AI개발자
physicalai-멀티모달AI와-로봇-top2.png

이전 저수준 인식(Low-level Perception)은 이미지나 센서 데이터를 직접 처리하여 물체의 형태나 위치와 같은 기초 정보를 추출하는 단계였습니다.

이제는 그 위에 쌓이는 단계, 즉, 환경과 상황의 의미를 이해하는 고수준 인식(High-level Perception)이 중요해졌습니다. 로봇이 "무엇을 보고 있는가?"에서 한 걸음 더 나아가, "지금 어디에 있고, 어떤 공간 구조 안에 있는가?"를 파악하는 단계입니다.

이번에는 고수준인식의 대표 사례인 지도생성(Map Generation)과 의미적 장면 이해(Semantic Segmentation)등을 중심으로 설명합니다.



⑴ 지도 생성 (Mapping)

지도생성은 로봇 내비게이션의 핵심입니다. 로봇은 자신이 움직이는 동안 주변환경의 구조를 파악하고, 그 정보를 지도 형태로 표현하여 이동 경로를 계획합니다.

즉, 지도 생성은 "공간을 인식하고 위치를 추정하는 과정"이며, 장애물 회피, 경로 탐색, 물체 탐색 등 거의 모든 로봇 행동의 기반이 됩니다. 지도 생성은 크게 2가지 접근으로 나뉩니다.

① SfM (Structure from Motion)

② SLAM (Simultaneous Localization and Mapping)


① SfM (Structure from Motion)

여러 장의 이미지에서 대응점을 찾아내고, 카메라의 이동궤적과 장면의 3차원 구조를 동시에 복원하는 기법입니다.

정적인 장면(움직이지 않는 환경)에서 3D 구조를 재구성할 때 자주 사용됩니다.

사진 측량, 문화재 복원, 드론 기반 3D 모델링 등에 활용됩니다.


② SLAM (Simultaneous Localization and Mapping)

로봇이 이동하면서 자신의 위치와 주변환경을 동시에 추정하는 기술입니다. 즉, "지도를 만들면서 현재 위치를 알아내는 것"입니다.

센서 종류에 따라 여러 변형 기법이 존재합니다.

ai-robot048.jpg


- 지도 표현 방식

지도는 로봇이 공간을 어떤 관점이 이해하느냐에 따라 크게 메트릭 맵(Metric Map)토폴로지 맵(Topological Map)으로 구분됩니다.

ai-robot049.jpg


ⓐ 메트릭 맵(Metric Map)

환경의 정확한 기하학적 정보(위치, 거리, 형태)를 보존하는 방식입니다. 좌표계 기반의 정밀한 공간 표현이 가능하며, 로봇의 위치 추정에 주로 활용됩니다.

대표적인 형태는 다음과 같습니다.


점군 지도 (Point Cloud Map)

SfM, Visual SLAM, LiDAR SLAM의 결과물로 생성되는 드문드문한(spare) 3D 점들의 집합입니다. 데이터가 가볍고 계산이 빠르지만, 세밀한 구조 표현에는 한계가 있습니다.


Gaussian Splatting 기반 지도

점군의 각 점에 가우시안 분포(위치, 색, 스케일 등)를 부여해 연속적이고 부드러운 장면 표현을 가능하게 하는 방식입니다. 실시간 렌더링과 시점 이동에 강하며, 최근 3D 비전 분야에서 빠르게 확산 중입니다.


점유 격자 지도 (Occupancy Grid Map)

공간을 격자 단위로 나누고, 각 격자에 물체가 존재할 확률을 저장합니다. 자율주행 로봇의 경로 계획, 장애물 회피에서 표준적으로 사용됩니다. 예: OctoMap


부호 거리장 (SDF/TSDF) 기반 지도

공간의 각 점에서 최근접 표면까지의 거리를 '부호있는 값'으로 표현합니다. 물체의 형태 복원, 충돌 감지, 3D 경로 계획 등에 자주 쓰입니다.


NeRF 기반 지도

공간의 위치마다 색상과 밀도를 반환하는 연속 함수로 장면을 학습하는 방식입니다. 고품질 시각 재구성이 가능하지만, 계산 비용이 높습니다. 최근에는 NeRF를 SLAM과 결합한 NeRF-SLAM 형태로 연구가 활발합니다.


ⓑ 토폴로지 맵 (Topological Map)

토폴로지 맵은 공간을 '장소(노드)'와 '연결 관계(엣지)'로 단순화한 지도입니다. 예를 들어,

방, 복도, 교차로 등을 노드로,

이동 가능한 통로를 엣지로 표현합니다.

이 방식은 공간의 정확한 거리보다는 이동 가능성이나 구조 관계를 표현하기에 적합합니다.

예: 복도 - 회의실 - 출입구 간 연결 관계 파악, 순찰 경로 계획 등


의미 기반 토폴로지 맵 (Semantic Topological Map)

토폴로지 맵에 의미(semantic label)를 부여한 확장 형태입니다.

예시:

"이 노드는 주방이다."

"이 구역은 작업 구역이다."

이러한 의미 정보를 함께 저장하면 로봇이 '주방으로 가서 컵을 가져와"와 같은 고수준 언어 명령을 이해하고 실행할 수 있게 됩니다.


- 메트릭 vs 토폴로지 요약

ai-robot050.jpg

지도 생성 기술은 로봇의 자율성, 환경 적응력, 공간 이해 능력을 결정하는 핵심 요소입니다. 최근에는 파운데이션 모델과 결합해 센서 데이터 → 3D 지도 → 언어 명령 수행까지 하나의 통합 파이프라인으로 발전하고 있습니다.


⑵ 씬 그래프(Scene Graph)

로봇이 환경을 단순히 '보는' 수준을 넘어서 '이해'하기 위해 필요한 핵심 개념이 씬 그래프(Scene Graph)입니다. 씬 그래프는 주변의 사물과 공간의 관계를 구조적으로 표현하여, 로봇이 상황을 논리적으로 해석하고 대응할 수 있게 해줍니다.

ai-robot052.jpg

- 씬 그래프란?

씬 그래프는 환경 내 객체(Object)노드(Node)로, 이들 간의 공간적/의미적 관계(Relation)엣지(Edge)로 나타내는 그래프 구조 표현입니다. 즉, "무엇이 어디에 있고, 어떤 관계로 연결되어 있는가"를 그래프로 표현하는 방법입니다.

예시:

"테이블 위에 사과가 있다"

"사람이 컵을 들고 있다"

"의자가 책상 옆에 있다"

이처럼 씬 그래프는 객체 간의 관계를 명시적으로 표현함으로써, 로봇이 단순히 인식한 사물을 넘어 상황(context)을 이해할 수 있게 만듭니다.


- 구성요소

ai-robot051.jpg

엣지는 크게 3가지 관계로 나눌 수 있습니다.

1. 공간적 관계(Spatial) - 위/아래, 앞/뒤, 근처 등

2. 기하하적 관계(Geometric) - 접촉 여부, 거리, 방향 등

3. 의미적 관계(Semantic) - 소유, 행위, 기능 등


- 예시로 보는 씬 그래프

"테이블 위에 사과가 있고, 옆에는 컵이 있다"

이를 씬 그래프로 표현하면 다음과 같습니다.

노드: [테이블], [사과], [컵]

엣지:

(사과) - [위에 있다] → (테이블)

(컵) - [옆에 있다] → (테이블)

이 구조를 이용하면 로봇은 "테이블 위의 사과를 집어라"와 같은 명령을 논리적 관계 기반으로 처리할 수 있습니다.


- 씬 그래프의 활용

씬 그래프는 단순한 시각 표현이 아니라, 로봇의 상황이해 및 행동계획(Planning)의 핵심 중간 표현으로 사용됩니다.

시각 인식 강화: 이미지/RGB-D/LiDAR등 다양한 센서데이터를 통합하여 객체 간의 관계를 그래프로 정리함으로써, 단순 물체 인식보다 풍부한 의미 정보를 제공합니다.

작업(Task) 계획: "컵을 테이블 위로 옮겨라"같은 명령을 씬 그래프 상의 관계 변화로 해석하여 로봇의 행동을 논리적으로 분해할 수 있습니다.

지식 기반 reasoning: "컵은 일반적으로 테이블 위에 놓인다"와 같은 사전 지식을 그래프 구조와 결합해, 로봇의 추론 능력을 강화할 수 있습니다.


- 씬 그래프와 다른 표현의 관계

씬 그래프는 토폴로지 맵과 개념적으로 닮았지만, 초점이 다릅니다.

ai-robot053.jpg

즉,

토폴로지 맵은 "공간의 구조(Geometry)"를 다루고,

씬 그래프는 "의미적 관계(Semantics)"를 다룹니다.

두 개념이 결합되면, 로봇은 '어디에 무엇이 있으며, 어떻게 관련되어 있는지'를 동시에 이해할 수 있게 됩니다.


- 최근 동향

최근에는 씬 그래프가 기반 모델(Base Model)과 결합되며 빠르게 발전하고 있습니다.

비전-언어 모델(Vision-Language Model)은 이미지에서 자동으로 씬 그래프를 추출하고 자연어로 해석합니다.

로봇 파운데이션 모델은 씬 그래프를 행동 계획(Planning)입력으로 사용해, 복잡한 환경에서도 상황별로 적절한 행동 시퀀스를 생성할 수 있습니다.


ai-robot054.jpg

씬 그래프는 결국 "로봇의 세계관"을 구조화하는 언어입니다. 로봇이 단순히 보는 것을 넘어 "상황을 이해하고 행동을 결정하는" 지능의 기초가 됩니다.



©2024-2025 MDRULES.dev, Hand-crafted & made with Jaewoo Kim.

이메일문의: jaewoo@mdrules.dev


AI 에이전트 개발, 컨텍스트 엔지니어링 교육 컨설팅, 바이브코딩 강의 문의: https://bit.ly/4kjk5OB


keyword
이전 12화12. 저수준(Low-level) 인식