2026년 1월 18일(일)

최신 AI 토픽 뉴스

Jan 18. 2026

BabyVision, AI의 기초 시각의 한계를 폭로

구글 Gemini 3 Pro를 포함한 최신 AI 모델들이 6세 아동 수준의 시각 인지 능력조차 갖추지 못한 것으로 나타났다.

원문: https://huggingface.co/papers/2601.06521

UniPat-AI의 AI 연구원인 량 첸(Liang Chen)이 이끄는 연구진이 현대 MLLM(*)의 근본적인 시각적 추론 한계를 규명하기 위한 새로운 벤치마크 'BabyVision'을 도입했다.

인간은 언어를 습득하기 훨씬 전부터 핵심적인 시각 능력을 발달시키지만, 최신 AI 모델들은 언어적 사전 지식에 의존해 취약한 시각적 이해력을 감추는 경향이 있다. 이 벤치마크는 22개 하위 클래스에 걸친 388개의 항목으로 구성되어 텍스트 기반 지식과는 완전히 독립적인 능력을 측정한다.

연구 결과는 인공지능과 인간 사이의 거대한 성능 격차를 보여준다.

Gemini 3 Pro-Preview와 같은 최상위 모델조차 어린아이 수준의 시각적 직관을 따라가지 못했다.

연구에 따르면 MLLM은 지식 집약적 과제에는 뛰어나지만, 진정한 지각 및 공간 논리에 필수적인 시각적 원형(Primitives)이 부족한 것으로 나타났다. 이를 해결하기 위해 연구팀은 시각적 퍼즐 해결을 위한 생성적 접근 방식인 BabyVision-Gen과 오픈소스 평가 툴킷을 함께 출시.

이번 연구는 인간 수준의 지각 능력을 갖춘 멀티모달 시스템 학습 방식에 근본적인 변화가 필요함을 시사한다.

*1 MLLM: 텍스트뿐만 아니라 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 함께 이해하고 생성할 수 있는 거대언어모델

앤스로픽, 범용 에이전트 '클로드 코워크' 공개

가상화 기술을 기반으로 복잡한 터미널 작업을 데스크톱 UI에서 직관적으로 실행할 수 있는 자동화 환경을 구축했다.

원문: https://simonwillison.net/2026/Jan/12/claude-cowork/#atom-everything

유명 개발자이자 오픈 소스 유지 관리자이며 데이터셋 개발자인 사이먼 윌리슨(Simon Willison)은 앤스로픽의 새로운 범용 에이전트 연구 프리뷰인 클로드 코워크를 분석했다.

클로드 코드(Claude Code)의 사용자 친화적 진화 모델로 설계된 코워크는 사용자가 클로드 데스크톱 앱 내에서 직접 로컬 파일과 웹 검색을 포함하는 복잡한 워크플로우를 자동화할 수 있게 해준다. 윌리슨은 이 인터페이스가 터미널 명령의 복잡성을 숨겨 개발자가 아닌 사용자도 강력한 자동화 기능을 사용할 수 있게 했다고 평가했다.

기술적 아키텍처는 단순한 파일 접근 그 이상을 포함. 애플 가상화 프레임워크를 활용해 맞춤형 리눅스 루트 파일 시스템을 부팅함으로써 높은 수준의 격리 성능을 보장한다.

하지만 보안은 여전히 해결해야 할 과제다.

앤스로픽에서 클로드 코드를 개발한 엔지니어 보리스 체르니(Boris Cherny)는 시스템이 WebFetch(*) 기능을 통한 요약 방식을 사용해 프롬프트 인젝션(*) 위험을 완화한다고 밝혔다.

가상화된 환경이 시스템의 직접적인 침해는 방지하지만, 악성 데이터가 에이전트의 동작을 조작할 가능성은 여전히 주요한 보안 장벽으로 남아 있다.

*1 WebFetch: 웹페이지 내용을 직접 실행하지 않고 필요한 정보만 읽어 요약해 가져오는 기능

*2 프롬프트 인젝션: AI 모델에 악의적인 입력을 주입하여 원래의 지침을 무시하고 공격자가 의도한 비정상적인 동작을 수행하게 만드는 기술

엔비디아, 지능형 창고 및 카탈로그 고도화 AI 블루프린트 공개

엔비디아가 창고 운영과 상품 카탈로그 관리를 동시에 자동화하는 AI 블루프린트 2종을 소개

원문: https://blogs.nvidia.com/blog/multi-agent-intelligent-warehouse-and-catalog-enrichment-blueprints/

엔비디아가 리테일 현장에 바로 적용할 수 있는 오픈 소스 개발자 레퍼런스 2종을 공개했다. 하나는 멀티 에이전트 지능형 창고(MAIW), 다른 하나는 리테일 카탈로그 고도화다.

MAIW는 창고에서 흔히 벌어지는 IT와 OT(*) 간 단절을 줄이는 데 초점을 맞춘다.

안전 준수, 장비 모니터링, 수요 예측 같은 일을 에이전트별로 나눠 맡기고, 중앙 운영 어시스턴트가 이들을 조율한다. IoT와 ERP에 흩어진 데이터를 한데 모아, 관리자가 자연어로 물어보면 병목을 찾거나 작업 흐름을 재배치하는 식으로 쓸 수 있다는 구상이다.

Nemotron VLM(*)으로 제품 이미지를 분석해 제목, 설명, 구조화된 메타데이터를 자동으로 만들고, AI 판정관으로 품질과 브랜드 일관성을 확인. 리테일 카탈로그 고도화는 텍스트 정보가 부족한 상품을 대량으로 관리해야 하는 문제를 겨냥한다.

엔비디아는 이 두 도구를 통해 지능형 에이전트가 실제 물류·리테일 현장에서 판단하고 움직이는 피지컬 AI(*) 적용을 앞당기겠다는 입장이다.

*1 OT: 창고·공장 같은 물리 현장을 제어하고 모니터링하는 기술(설비·센서·제어 시스템 등)

*2 Nemotron VLM: 엔비디아가 공개한 생성형 AI 모델 계열로, 텍스트·이미지 이해 같은 작업에 쓰인다

*3 피지컬 AI: 로봇·물류 설비처럼 현실 세계에서 작동하는 시스템에 AI를 적용하는 흐름

keyword

TEUM Lab 직업 연구자

한국에서 태어나 캐나다에서 자랐고, 일본에서 15년간 직장 생활을 했습니다. 좋은 책, 좋은 음악, 그리고 흑백 사진을 사랑하며, 기술과 역사 이야기에 죽고 못삽니다.

팔로워 111

매거진의 이전글2026년 1월 17일(토)2026년 1월 19일(월)매거진의 다음글