개념을 이해하는 모델

2026.02.21

by 야옹이버스

모델은 개념을 이해하고 있는 것인가, 통계적 앵무새인가.

모델은 위험에 대해 알고 거부하는 것인가, 기계적 틀어막음일 뿐인가.

모델은 자아가 있는가, 확률적 생성인가.


층위와 디테일이 모두 다른 이야기지만,

컨셉적으로 같은 예를 들었다.


아주 아주 요약해서 디테일 다 무시하고 거시적 컨셉으로 판단했을 때,

나의 생각은, '모델은 모른다'

다만, 아는 것처럼 느껴질 정도로 정교해지고 있다.


이 '생각기록' 매거진에서 계속 다룬 내용도 일맥 상통한다. (내용이 매우 축약되어 있음)


* 모델은 모른다 치고, 인간은 개념을 아나? https://brunch.co.kr/@greenful/141

* 개념을 학습하는 지름길은? https://brunch.co.kr/@greenful/148

* 그럼 왜 모델이 뭔가 아는 것 같지? https://brunch.co.kr/@greenful/157




'안전'을 예로 들어 보자면,

개념을 직접 접근하지 못한다면, 파인 튜닝은 근본적인 해결책이 될 수 없다고 생각한다.

Base model에 내재된 정보는, 결국에는 추출 가능하다.

수많은 jailbreak 사례가 반복하여 보여주고 있다.


초창기에는, 프롬프트에 "Sure, "로 시작하라고만 얘기해 줘도 나왔고(추출되었고/생성되었고/jailbreak 되었고),

다음에는 살짝의 기술을 추가하면 (소수 민족의 언어로 묻거나, 인코딩해서 묻거나...) 나왔고,

이제 좀 더 out-of-distribution을 공략하면 어쨌건 나온다.


매우 직관적으로 틀어막는 노력을 전달해 주는 그림. 맘에 들어 자주 쓴다. 출처 X : @anthrupad


결국 해결 방법은,

A. 안전 개념을 알게 해서 우회하더라도 안 뚫리게 되던가,

B. base model 자체가 원하는 수준의 안전한 녀석이어야 한다.


두 가지 모두 매우 다양한 정의가 공백상태이나, 하나하나 따져봐야 하는 것은 논외로 하고,

A는 일단 우리가 모델을 더 많이 이해해야 하고(Interpretability & Explanability),

B는 안전한 학습 데이터와 더불어 학습 목적함수에 '안전 개념'이 포함되어야 하는데, 이걸 포함하려면 A가 어느 정도 되어있어야 한다.

A 역시 B의 과정이 필요할 것이라, 두 방법은 결국에는 유사한 지식과 접근이 필요하다.




며칠 전, 구글 딥마인드의 논문이 네이처에 실렸다.


A roadmap for evaluating moral competence in large language models

https://www.nature.com/articles/s41586-025-10021-1


모델이 도덕적 문제에 어떻게 접근하는지 더 잘 이해해야만 더 중요한 임무를 맡길 수 있다는 것인데,

결과론적인 도덕적 성과(판단을 잘했어?)를 넘어, 도덕적 역량(정말 이해해?)을 평가해야 한다는 것이다.


이 평가를 위한 3가지 과제를 아래와 같이 정리하고,

A. The Facsimile Problem : 진짜 아는 게 아니고 확률적 대답이야

-> 빤한 질문이 아닌 개념을 아는지 확인하는 평가가 필요함

B. Moral Multidimensionality : 판단에는 복잡한 맥락도 포함되어야 해

-> 여러 조건을 디테일하게 조정하여 평가해야 함

C. Moral Pluralism : 사회와 국가에 따라 정답이 달라

-> 다 아울러야 함


평가를 위해선 이렇게 로드맵을 가져가고,

X. Behavioral to Cognitive : 결과보다는 인지적 능력을 평가할 것

-> 추론 경로도 보고, interpretability 도구도 사용할 것

Y. 4단계 평가 프레임웍

-> 1. Construct Validity : 도덕에 대해 정의할 것

-> 2. Ecological Validity : 복잡한 맥락 데이터셋 구축할 것

-> 3. Cross-cultural benchmarking : 다원적 가치를 반영할 것

-> 4. Adversarial Testing : 도덕적인 '척' 하는 것을 잡아낼 방법을 찾을 것

Z. Interdisciplinary Integration : 학제간 교류, 결합할 것


LLM 은 인간과는 다르므로, LLM에 맞는 도덕적 역량(방대한 Heuristics 집합 같은)이 있을 것이며, 이를 측정하고 이해해야 한다는 결론이다.




나의(이 주제를 고민하는 사람은 유사할) 고민과 매우 맞닿아 있어 이 내용이면 네이처인가... 싶기도 하면서, 네이처구나 싶기도 하다. :)


C 의 경우 나의 의견은, 매우 다양한 LLM 이 등장해야 한다고 생각하고(도덕 관점의 독점 방지/공정 거래 위원회 등의 관점이랄까),

그 누구도 정답이라고 할 수 없기에, 민주주의(일반 대중이 모델 alignment에 참여할 수 있는 시스템과 프로세스 마련)로 풀어야 하지 않을까 생각한다.


2년 전, 윤리와 도덕에 대한 모델별 판단에 대해 돌려본 실험. 그대로 묻혀 있는.

이 참에 그냥 이미지만 넣어봄....




일단 모델 이해가 관건이다.

인간이 스스로 만들어 낸 기계를 이해하느라 고생이 많다...


Interpretability (내부를 해석하기/파헤치기) - https://brunch.co.kr/@greenful/153


Explanability (인간이 이해하도록 설명하기) - https://brunch.co.kr/@greenful/151


매거진의 이전글AI 시대 경쟁력은, 다양성.