12. 저수준(Low-level) 인식

3장 현재까지의 로봇들

by AI개발자

Nov 12. 2025

physicalai-멀티모달AI와-로봇-top2.png

이번에는 로봇의 저수준 인식(Low-level Perception)에 대해 다룹니다. 인식이란, 센서로부터 얻은 물리적 신호를 로봇이 이해가능한 정보 형태로 변환하는 과정입니다. 예를 들어,

카메라로 본 물체의 위치나 종류,

현재 작업의 진행 상태,

주변환경의 밝기나 색상 변화

등이 이에 해당합니다.

여기서 말하는 저수준 인식은, 환경에서 얻은 센서 데이터를 직접 처리하여 기초적이고 정량적인 정보를 추출하는 단계입니다. 반면, 계획(Planning)과 제어(Control)는 로봇의 종류나 수행과업에 따라 달라지지만, 인식에 사용되는 기본 기법들은 로봇의 형태가 달라도 공통적으로 반복 활용되는 경우가 많습니다.

이번에는 다음 다섯가지 대표적인 인식방법을 순서대로 설명합니다.

전통적인 이미지 인식(Classical Image Recognition)

뉴럴 네트워크 및 딥러닝 기반 이미지 인식

깊이 영상 인식 (Depth Perception)

음성 인식 (Speech Recognition)

텍스트 인식 (Text Recognition)

⑴ 전통적인 이미지 인식

로봇 비전 시스템에서 "무엇을 인식할 것인가"는 상황에 따라 다릅니다. 예를 들어, 어떤 물체를 집을지, 어떤 색의 버튼을 눌러야 할지, 또는 물체의 위치와 형태를 파악해야 할 수도 있습니다.

딥러닝 이전에는 이러한 요구를 해결하기 위해 사람이 직접 설계한 특징(feature)을 이용한 전통적인 이미지 인식 기법들이 주로 사용되었습니다.

ⓐ 색상 추출 (Color Extraction)

색상 정보를 기반으로 물체를 구분하는 방법입니다. RGB, HSV, LAB 등의 색공간에서 특정 색 범위를 지정해 그 색상을 가진 픽셀만 분리(세그멘테이션)합니다.

예: 신호등의 빨간불감지, 빨간 컵 찾기

→ 단순하지만, 지금도 로봇 비전 초기 처리 단계에서 자주 쓰입니다.

ⓑ 템플릿 매칭 (Template Matching)

찾고자 하느 물체의 이미지를 템플릿으로 미리 준비해두고, 입력 이미지 위를 슬라이딩하여 유사도(Similarity)를 계산합니다. 정형화된 패턴이나 규격화된 부품 탐지에 유용합니다.

예: 특정 로고, 버튼, QR코드 검출

ⓒ 엣지 검출 (Edge Detection)

Sobel, Prewitt, Canny등의 필터를 이용해 밝기 변화가 큰 경계를 찾아 물체의 형태나 윤곽선을 추출합니다. 특히 Canny엣지 검출기는 노이즈 제거와 경계 강화 기능이 포함되어 있어 지금도 정확한 물체 외곽선 추출에 자주 사용됩니다.

ⓓ 허프 변환 (Hough Transform)

엣지로부터 직선(line), 원(circle), 타원(ellipse)등의 도형을 인식하는 방법입니다. 좌표를 파라미터 공간으로 변환해 '투표(voting)'방식으로 형태를 찾습니다. 노이즈에 강하고, 도형 구조를 명확히 인식할 수 있습니다.

예: 차선 검출, 원형 부품 감지

ⓔ Harris 코너 검출 (Corner Detection)

이미지 내의 코너나 교차점 같은 국소 특징점(Local Features)을 검출합니다. 물체의 회전이나 크기 변화에 강하며, 스테레오 매칭이나 영상 추적(Tracking)에도 자주 사용됩니다. 개선된 알고리즘으로 Shi-Tomasi코더 검출기가 있습니다.

ⓕ Haar-like 특징 (Haar-like Features)

밝기 차의 단순 패턴을 기반으로 얼굴이나 객체를 탐지하는 방식입니다. Adaboost + 카스케이드 분류기 구조로 동작하며, 한때 실시간 얼굴 인식(웹캠, CCTV)에 널리 사용되었습니다.

ⓖ HoG 특징량 (Histogram of Oriented Gradients)

이미지를 작은 셀 단위로 나누고, 각 셀에서 기울기(gradient) 방향의 분포를 히스토그램 형태로 표현합니다. 형태(Shape)인식에 강하며, 주로 보행자 검출이나 물체 윤곽 인식에 사용되었습니다. SVM(서프트 벡터 머신)과 함께 사용되는 것이 일반적입니다.

ⓗ SIFT (Scale-Invariant Feature Transform)

크기나 회전 변화에 영향을 거의 받지 않는 강력한 특징점 추출 알고리즘입니다. 3D 재구성, 물체 정합(Object Matching), 로봇 위치인식(SLAM)등에서 활용되었습니다. 단점은 연산량이 많다는 점입니다.

ⓘ SURF (Speeded-Up Robust Features)

SIFT의 연산속도를 개선한 기법으로 스케일과 회전에 강하면서도 실시간 처리에 적합합니다.

고전적 이미지 인식은 노이즈나 조명 변화에 약하고, 사람이 직접 설계한 특징(feature)에 의존하는 한계가 있습니다. 하지만, 적은 데이터로도 빠르게 동작하며, 실시간성/효율성 측면에서 여전히 가치가 있습니다.

특히, 산업 현장에서는 딥러닝 모델과 결합하여 전처리 단계나 보조 판단 알고리즘으로 지금도 널리 활용되고 있습니다. 딥러닝의 등장은 이후 인식 패러다임을 완전히 바꿔놓게 되었습니다.

⑵ 딥러닝 기반 이미지 인식

2012년, ImageNet 대회(ILSVRC)에서 Hinton연구팀의 AlexNet이 당시까지의 전통적 기법을 압도하며 우숭했습니다. 이 사건은 이미지 인식 기술의 패러다임을 완전히 바꿔놓았습니다.

그전까지는 사람이 직접 색상, 엣지, 형태 등의 특징(feature)을 설계해야 했지만, 딥러닝 등장은 데이터로부터 자동으로 특징을 학습하는 시대를 열었습니다. 이후 인식 정확도는 급격히 향상되었고, 로봇 비전뿐만 아니라, 자율주행, 의료영상, 제조검사등 거의 모든 분야로 확산되었습니다.

① 딥러닝 기반 이미지 인식의 주요 구조

딥러닝 이미지 인식에서 사용되는 대표적인 구조는 아래와 같습니다.

ⓐ 다층 퍼셉트론 (MLP, Multi-Layer Perception)

가장 기본적인 신경망 구조로, 입력 데이터를 완전연결층(fully-connected layer)을 통해 처리합니다. 비선형 활성화 함수(ReLU, Sigmoid 등)를 이용해 복잡한 관계를 학습할 수 있습니다. 단, 이미지 인식에서는 공간 구조를 활용하지 못하므로 CNN보다는 성능이 낮습니다.

ⓑ 합성곱 신경망 (CNN, Convolutional Neural Network)

이미지 인식의 핵심 모델입니다. 합성곱층 → 풀링층 → 전결합층 구조로 구성되어 있으며, 지역적 패턴을 추출하고 공간 정보를 점진적으로 축소하여 요약합니다.

대표 모델:

VGG: 단순하고 깊은 구조로 대표적인 CNN 기본형

ResNet: 잔차 연결(residual connection)로 학습 안정화

EffcientNet: 파라미터 효율을 높인 경량 고성능 모델

CNN은 현재까지도 객체 검출(Object Detection), 세그멘테이션(Segmentation), 자율주행 비전 등에서 가장 널리 사용됩니다.

ⓒ 순환 신경망 (RNN, Recurrent Neural Network)

시간적 연속성을 가진 데이터를 처리하는 구조입니다. 영상 시퀀스나 행동인식처럼 시간 흐름을 고려해야 하는 경우에 사용됩니다. LSTM(Long Short-Term Memory), GRU(Gated Recurrent Unit)등이 대표적입니다. → 이미지보다는 비디오 인식, 모션예측, 언어 처리에 주로 적용됩니다.

ⓓ 적대적 생성 신경망 (GAN, Generative Adversarial Network)

생성기(Generation)와 판별기(Discriminator)가 경쟁하며 학습하는 구조입니다. 고품질 이미지 생성, 데이터 보강(Data Augmentation), 이미지 변환(Style Transfer)등에 활용됩니다.

대표 예시: StyleGAN, CycleGAN, DeepFake등

ⓔ 오토인코더 (Autoeoder)

입력 데이터를 잠재공간(latent space)에 압축했다가 다시 복원하는 구조입니다. 차원 축소, 노이즈 제거, 특징 추출 등에 사용도비니다.

파생 구조:

VAE(Variational Autoencoder) 확률 기반 생성 모델

Denoising Autoencoder: 노이즈가 포함된 입력 복원

→로봇의 시각 센서 데이터 노이즈 보정 등에 실제 적용됩니다.

② 딥러닝 이미지 인식의 주요 특징

- 데이터 중심 학습 (Data-driven Learning)

딥러닝은 사람이 설계한 특징 대신, 대량의 데이터에서 직접 패턴을 학습합니다. 이는 인간이 미처 정의하지 못한 복잡한 특징까지 포착할 수 있는 강점이 있습니다. 하지만 데이터 편향(Bias)이 존재하면 모델이 왜곡된 패턴을 학습할 위험이 있습니다. 이. 문제는 로봇 비전에선 조명/배경/재질 다양성 부족으로 자주 발생합니다.

- 대규모 데이터와 연산자원 도구

딥러닝 모델의 성능은 데이터 양과 연산량에 비례합니다. 고정성 GPU/TPU, 대규모 병렬 학습 환경이 필수이며, 데이터가 부족할 경우 전이학습(Transfer Learning)이나 데이터 증강(Data Augmentation)으로 일반화 성능을 보완합니다.

- 비선형 관계 학습 능력

딥러닝의 핵심은 비선형 활성화 함수를 통한 복잡한 패턴 학습입니다. 이는 기존 선형 모델이 표현하지 못하던 다차원적 상호작용(예: 그림자, 질감, 구조적 왜곡)을 정확히 모델링할 수 있게 합니다.

- 구조적 유연성과 확장성

딥러닝은 모델 구조를 자유롭게 조합하여 다양한 과업에 최적화할 수 있습니다.

예시:

이미지 분류: ResNet, EfficientNet

객체검출: YOLO, Faster R-CNN

세그멘테이션: U-Net, Mask R-CNN

또한, 사전학습된 모델을 다른 과업에 재활용하는 전이학습으로 학습 비용을 크게 절감할 수 있습니다.

- 계층적 특징 표현 (Hierarchical Representation)

딥러닝은 입력 데이터를 계층적으로 추상화합니다.

초기층: 엣지, 코너, 텍스처 등 저수준 특징

중간층: 패턴, 형태

심층층: 객체의미, 장면 이해

이 계층적 구조는 로봇이 복잡한 장면을 해석하는 기반이 됩니다.

- 생성 능력 (Generative Capability)

GAN, VAE 등 생성 모델은 로봇 학습용 데이털르 가상으로 생성하거나, 새로운 환경을 시뮬레이션하는데 사용됩니다.

→ "GenAug"와 같은 로봇 데이터 확장 연구로 발전했습니다.

- 블랙박스 문제 (Black-box Issue)

딥러닝은 높은 정확도를 내지만, 내부 판단 근거를 해석하기 어렵다는 한계가 있습니다. 이를 해결하기 위해 설명 가능한 AI(XAI)가 연구되고 있으며, Grad-CAM, LIME등 시각화 기법을 통해 모델의 주목 영역을 해석하려는 시도가 활발합니다.

딥러닝 기반 이미지 인식은 고전적 인식 방식에 비해 정확도와 범용성 면에서 혁신적 발전을 이뤘습니다. 하지만, 동시에

대규모 연산 자원의 필요,

데이터 품질 의존도,

블랙박스 문제

라는 새로운 과제도 함께 남겼습니다.

오늘날의 로봇 비전 모델은 여러 인식 과업을 단일 네트워크로 통합하는 방향으로 진화하고 있으며, 이런 흐름은 곧 파운데이션 모델 기반 비전 시스템으로 이어지고 있습니다.

⑶ 깊이(Depth) 영상인식

이전에 RGB 영상기반의 인식을 다루었지만 이번에는 깊이(Depth)영상인식 기술을 살펴봅시다. RGB영상만으로는 물체까지의 거리 정보를 알 수 없습니다. 따라서 로봇이 실제 공간을 인식하고 조작하려면, 깊이 정보 또는 3차원 거리 센서 데이터가 필수적입니다.

깊이 영상을 이용하면,

물체의 3차원 형태(geometry)

로봇과 물체 사이의 상대 위치 관계,

공간 내의 장애물 구조

를 정확히 파악할 수 있어, 보다 정교한 조작과 이동이 가능해 집니다.

- 깊이 이미지 인식의 주요 기법

아래는 깊이 영상 및 점군(Point cloud) 데이터를 분석하기 위해 자주 사용되는 대표적 방법들입니다.

ⓐ 평면검출 (Plane Detection)

깊이 이미지에서 바닥, 벽, 테이블 등 평평한 면(plane)을 찾아내는 기술입니다. RANSAC(Random Sample Consensus)알고리즘을 사용하면 노이즈나 이상치를 제거하면서 안정적으로 평면을 검출할 수 있습니다.

→ 예: 바닥/벽 인식, 테이블 위의 물체 분리 등

ⓑ 유클리드 클러스터링 (Euclidean Clustering)

점군 데이터(Point Cloud)상의 거리 정보를 이용해 가까운 점들을 하나의 그룹으로 묶는 클러스터링 기법입니다. 이를 통해 서로 다른 물체나 구조물을 분리할 수 있습니다.

→ 예: 물체 인식, 장애물 분리, 로봇 경로 확보

ⓒ 주성분 분석(PCA)에 기반한 방향 추정

점군의 분산 방향을 계산하여, 물체의 주축(orientation) 또는 자세(pose)를 추정합니다. 이는 로봇이 물체를 어떤 각도로 잡아야 할지 결정하는데 활용됩니다.

ⓓ ICP 매칭 (Iterative Closest Point)

두 점군 간의 대응점을 반복적으로 찾으며, 병진(translation)과 회전(rotation)값을 최적화하는 정합 알고리즘입니다.

→ 예: 3D 스캔 데이터 정렬, 로봇 위치 추정(SLAM), 물체 추적

ⓔ 노멀 벡터 추정 (Normal Estimation)

깊이 이미지의 각 점 주변 기하 정보를 바탕으로 표면의 기울기 방향(법선, normal)을 계산합니다. 이 벡터는 물체의 표면 형태나 질감 해석, 조작 위치 선정 등에 사용됩니다.

ⓕ 키포인트 검출 및 특징 기술자(3D Feature Descriptors)

SIFT나 SURF와 유사한 개념을 3D 데이터에 적용한 방법입니다. FPFH(Fast Point Feature Histogram), SHOT(Signature of Histograms of Orientations)등이 대표적입니다.

→ 점군에서 의미있는 지점을 검출하고, 그 주변 형상을 벡터로 표현하여 물체 매칭, 위치 추정 등에 활용됩니다.

ⓙ 딥러닝 기반 깊이 인식

최근에는 CNN, PointNet, PointNet++ 등 3D 딥러닝 모델을 사용하여 깊이 이미지나 점군 데이터를 직접 학습합니다. 이를 통해 물체 분류, 세그멘테이션, 3D 물체 검출까지 수행할 수 있습니다. 특히 Point Transformer기반 모델들은 복잡한 장면에서도 정밀한 인식이 가능해, 로봇 시각의 핵심기술로 자리잡고 있습니다.

- 깊이 인식의 특징

깊이인식은 2D인식과 원리는 비슷하지만, 3차원 공간 구조를 직접 다룬다는 점이 가장 큰 차이입니다. 이 덕분에 로봇은 단순히 '보는 것'을 넘어서 '공간을 이해하고 움직이는 것'이 가능해졌습니다.

- 실제 활용 예시

로봇 팔 조작: 깊이 카메라를 통해 물체의 위치 및 자세를 파악해 정확한 그리핑 수행

자율주행: LiDAR 데이터를 이용한 장애물 감지 및 3D 지도 생성

산업 검사: 깊이 영상을 활용한 제품 표면 결함 탐지

SLAM(동시적 위치추정 및 지도작성): RGB-D센서와 ICP기반 정합으로 3D환경 구축

- 한계와 과제

고비용 센서 의존: LiDAR 등 고정밀 센서의 비용부담

노이즈와 반사 문제: 밝은 표면이나 투명 물체 인식이 어려움

데이터 부족: 대규모 3D학습용 데이터셋 구축 난이도

계산 부담: 고해상도 점군 데이터의 실시간 처리 한계

그럼에도 불구하고, 깊이 인식은 로봇 비전의 핵심축으로 자리잡고 있으며, 파운데이션 모델의 등장 이후에는 RGB영상, 언어, 점군을 통합 처리하는 멀티모달 인식으로 발전하고 있습니다.

⑷ 음성 인식

음성은 로봇이 사람과 상호작용할 때 매우 중요한 입력 수단입니다. 지금까지 음성인식 기술은 여러 세대를 거치며 발전해왔고, 그 기반 원리는 여전히 현재의 대형 모델에서도 중요한 역항을 하고 있습니다.

- 혼합 가우시안 모델 (GMM, Gaussian Mixture Model)

GMM은 음성에서 추출한 특징(예: MFCC, Mel스펙트로그램 등)의 분포를 여러 개의 가우시안(종모양 곡선)으로 표현하는 통계적 모델입니다. 같은 발음이라도 사람마다 녹음 환경마다 마이크 상태마다 소리의 형태가 조금씩 다르기 때문에 하나의 단일 분포로 설명하기 어렵습니다. GMM은 이런 다양한 발음 형태를 여러 분포의 혼합으로 근사합니다.

예시: "아" 소리를 여러 사람이 말했을 때 생기는 미세한 차이 → 여러 가우시안으로 표현

역할: 발음의 다양성과 잡음을 통계적으로 표현

특징: 단순하고 계산이 빠르지만, 시계열 구조를 직접 다루지는 못함

- 은닉 마르코프 모델 (HMM, Hidden Markov Model)

HMM은 시간에 따라 변화하는 음성의 순서를 확률로 모델링하는 방법입니다. 음성을 일정한 단위(음소, phoneme)로 나누고, 이 음소들이 어떤 순서로 이어질 확률이 높은지를 학습합니다.

예:

"안녕하세요" 발화 → [안] → [녕] → [하] → [세] → [요]

이 순서가 자연스러운 확률이 가장 높다고 판단하는 모델

역할: 시간 순서에 따른 발화 패턴 모델링

특징: 시계열 데이터에 강하지만, 특징 추출(GMM 등)과 결합해야 함

- GMM-HMM 기반 음성 인식

과거의 표준 구조는 GMM과 HMM을 결합한 형태였습니다.

GMM: 음향 특징 분포를 모델링

HMM: 시간 순서(문맥)를 모델링

두 모델이 함께 작동하여 입력 음성을 가장 가능성 높은 단어 시퀀스로 변환합니다.

예:

"밤 먹었어?" → GMM으로 소리패턴 추출 → HMM으로 "밥 → 먹었 → 어" 순서 확률 계산 → 가장 자연스러운 문장 선택

초창기 음성인식의 표준 구조

한국어, 영어등 다국어 시스템에서 오랫동안 사용

- DNN-HMM 기반 음성 인식

딥러닝이 등장하면서, 기존의 GMM을 심층 신경망(DNN)으로 대체하는 방식으로 발전했습니다. DNN은 음성 특징(MFCC 등)을 입력받아 각 시점의 음소(phoneme)확률을 직접 추정할 수 있습니다.

특징:

"여러 프레임의 음향 정보를 동시에 고려 가능"

"잡음 환경에서도 높은 인식률"

"한국어 및 영어등 복잡한 발음 체계에도 대응"

이 구조는 여전히 상용 음성 인식 시스템의 근간으로 활용되고 있습니다.

- CTC기반 End-to-End 음성인식

CTC(Connectionist Temporal Classification)는 음성 프레임열과 문자(또는 음소) 시퀀스 사이의 정렬(alignment)을 명시적으로 지정하지 않아도 학습할 수 있는 구조입니다. 기존 HMM기반 방식은 "음소와 시간축을 맞추는" 정렬 과정이 필요했지만, CTC는 가능한 모든 정렬을 통계적으로 고려해 자동으로 학습합니다. 이를 통해 음성 → 문자 시퀀스로 바로 변환할 수 있게 되었고, DeepSeech 2, Whisper, Conformer등의 모델이 이 방식을 채택하면서 음성인식은 완전한 End-to-End 구조로 진화했습니다.