인간과 AI의 다른 길.

차원이 축소되는 인간, 차원을 확장하는 AI

by 일등박사
당신은 좌파인가 우파인가


DINO라는 모델이 있다.

attention_maps.png DINO의 결과물 (from https://github.com/facebookresearch/dino)


DINO는 Meta(구 Facebook)가 2021년에 공개한 이미지 분석 모델로, 기존의 AI 모델들과 달리 자가학습(Self-Supervised Learning) 방식을 기반으로 한다.

기존의 AI 모델들은 대부분 지도학습(Supervised Learning)에 의존하여, 사람이 제공한 정답(라벨)을 바탕으로 학습한다.

그러나 DINO는 이런 레이블 없이 스스로 학습할 수 있도록 설계되었다.


구체적으로는, 하나의 이미지를 두 가지 형태로 변형한다.

첫 번째는 원본 이미지 전체이고, 두 번째는 일부가 잘리거나 색상이 반전된 변형된 이미지다.

그리고 서로 다른 두 개의 모델을 초기화한다.
교사(Teacher) 모델은 원본 이미지를 통해 표현을 학습하고, 학생(Student) 모델은 변형된 이미지를 학습한다.

이후 교사 모델은 자신이 학습한 표현을 기준으로 학생 모델의 출력을 지도하며, 학생 모델은 교사 모델의 표현을 모방하도록 학습된다.
이러한 과정을 Knowledge Distillation(지식 증류)이라고 부르며, 사람이 라벨을 주지 않아도 모델이 스스로 지식을 전수하고 확장할 수 있게 한다.


흥미롭게도, 2025년 초 전 세계를 놀라게 한 DeepSeek의 혁신 역시 이와 유사한 원리 — 즉, 기존 대형 모델(OpenAI 기반 모델)로부터의 지식 추출(distillation) — 을 통해 이루어졌다고 평가된다.



GidT2ueWkAAXAMe.jpg DeepSeek의 지식추출 (@EvanKirstel from X)


이렇게 공개된 DINO 모델의 성능은 놀라웠다.

어떤 이미지만을 제공해 주면 모델이 스스로 이미지 내의 주목할 부분을 픽셀 단위로 추출하게 된다.

이 모델은 이후 객체분할(Object segmetation), 3D Vision 등 수많은 분야에 활용되게 된다.

478764433-1411f491-988e-49cb-95ae-d03fe6e3c268.jpg?jwt=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3NjI5MDkxODksIm5iZiI6MTc2MjkwODg4OSwicGF0aCI6Ii82MDM1OTU3My80Nzg3NjQ0MzMtMTQxMWY0OTEtOTg4ZS00OWNiLTk1YWUtZDAzZmU2ZTNjMjY4LmpwZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNTExMTIlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjUxMTEyVDAwNTQ0OVomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTJkNWE3OGE3ZjZjM2NiZjQzY2E3ZTExZTQ4MTBmODA3YTBkNGQ0OTgyNzgyYzk2OGM3MTBiOTg5NjliZGY5NWUmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.GbAdW9FNOz81qrOPYtIMxtXSuVghP_lZiYxT0X-wSIY

그러나 DINO는 끝이 아니었다. Meta에서는 이어서 DINO-v2(2023년), DINO-v3(2025년)를 선보였다.

각 모델들은 더 다양한 사진들을 활용, 학습법의 개선 등을 통해 모델의 성능을 발전시켰다.

이를 상징적으로 보여주는 것이 바로 표현 공간의 차원 확장이다.

DINO가 발전할수록 모델이 다루는 표현 공간은 768→1,536→4,096차원으로 확대되며,

점점 더 고차원적이고 정교한 관계를 포착할 수 있게 되었다.


AI 모델은 버전이 높아질수록 더 많은 차원을 포용하며 복잡한 관계를 학습하지만,

인간의 인식은 오히려 점점 단순한 양극화의 1차원 축으로 수축하고 있는 듯하다.

다차원적 시각에서 보면, 다양한 관점과 의견이 존재할 수 있는 사고의 공간이

단지 ‘왼쪽’과 ‘오른쪽’이라는 1차원적 축 위로 투영되어 이해되고 있는 것이다.


political-spectrum.jpg


AI 시대, 사람의 두뇌가 보다 더 AI모델에 의존되며 발생하는 당연한 현실인가 싶기도 하다.

이렇게 차원이 축소되는 인간, 차원을 확장하는 AI의 끝은 어디일까!?

keyword