4. 로봇이 스스로 오류를 수정하는 REFLECT

2장 파운데이션 모델이 로봇에게 끼치는 영향

Nov 11. 2025

파운데이션 모델의 영향은 단순히 언어 이해나 물체 인식에 그치지 않습니다. 이제 로봇은 상황을 해석하고, 실패를 인지하며, 스스로 수정하는 단계로 진화하고 있습니다. 그 대표적인 사례가 REFLECT(Robot Environment Feedback and Learning through Context Translation)입니다.

REFLECT는 기본적으로 언어지시를 입력받아 태스크를 수행한다는 점에서는 SayCan이나 Code as Policies와 유사하지만, 가장 큰 차이는 다양한 모달리티 정보를 통합적으로 활용한다는 점입니다.

REFLECT의 핵심 아이디어

REFLECT는 로봇의 실패를 인식하고, 그 원인을 설명하며, 수정 방안을 스스로 도출하는 프레임워크입니다. 이를 위해 로봇은 이미지, 깊이정보, 음향, 로봇 내부 상태(센서, 관절값 등)와 같은 다양한 관측 데이터를 수집합니다. 이 데이터를 요약(summary) 형태로 정리한 뒤, 파운데이션 모델에 입력하여 "무엇이 잘못되었는가?"와 "어떻게 수정할 수 있는가?"를 질의합니다.

다중 모달 인식과 상태 표현

REFLECT의 첫 단계는 다양한 센서 데이터를 언어적 표현으로 변환하는 것입니다.

시각인식: 파운데이션 모델은 현재 장면 내의 모든 물체를 식별하고, 각 물체의 상태를 판단합니다. 예: "전자레인지 문이 열려있다.", "컵이 뒤집혀 있다", "테이블 위에 있다"

공간관계: 인식된 물체와 그 상태정보를 3D 포인트 클라우드 상에 매핑하여, 물체 간 관계("앞에 있다", "안에 있다", "위에 있다")를 공간적으로 표현합니다.

청각인식: 음향 데이터를 분석해 "물이 끓는 소리", "전자레인지가 작동 중인 소리"처럼 환경의 상태를 언어적 정보로 추출합니다.

이처럼 REFLECT는 시각, 청각, 위치, 로봇 내부 상태 등 여러 모달리티 정보를 언어로 통합 변환(멀티모달 언어화) 할 수 있습니다. 이는 파운데이션 모델이 가진 표현력과 일반화 능력 덕분입니다.

태스크 플래닝과 실패 수정

상황 정보가 언어로 정리되면, SayCan과 같은 LLM기반 플래너를 이용해 "현재 상태에서 어떤 스킬을 어떤 순서로 수행할지"를 결정합니다. 로봇은 이 계획에 따라 실제 동작을 수행하지만, 현실 세계에서는 스킬 순서가 잘못되거나, 인식오류로 인해 태스크 실패가 발생하기도 합니다.

REFLECT의 핵심은 이 실패를 언어로 다시 기술하고, 그 원인과 수정방법을 모델에 재질의한다는 점입니다. 즉,

"컵을 잡으려 했지만, 테이블 가장장리와의 거리 오차로 실패했습니다. 어떻게 수정할까?"와 같은 식으로 실패 상황을 언어화하여 LLM이 문제를 스스로 분석하도록 하는 것입니다.

이 과정을 통해 로봇은,

실패 원인을 설명하고,

수정된 계획을 재수립하며,

같은 태스크를 더 높은 성공률로 재실행합니다.

이것이 REFLECT의 이름('반성하고 수정한다')이 의미하는 바입니다.

REFLECT의 기술적 특징

REFLECT의 접근은 다음 3가지 특성으로 요약됩니다.

결과적으로 REFLECT는 단순히 실행가능한 플래너를 넘어, 자기인식(self-awareness)과 피드백 학습(self-correction)을 가능하게 하는 기반을 마련했습니다.

파운데이션 모델의 등장은 로봇이 단순히 "움직이는 기계"에서 "스스로 상황을 이해하고 학습하는 존재"로 발전하는 전환점을 만들어냈습니다. REFLECT는 그 방향성을 상징적으로 보여주는 연구로 로봇이 이제는 실패를 단순히 "오류"로 처리하는 것이 아니라, 경험으로부터 스스로 배워나가는 학습 주체로 변화하고 있음을 보여줍니다.