brunch

'쉽다', AI Safety 용어사전

- 이정봉 변호사의 CODE & LAW : 구글 딥마인드 안전보고서편

by 이정봉 변호사

구글 딥마인드에서 올 4월 초에 내 놓은 'An Approach to Technical AGI Safety and Security' 보고서 내용 중 안전 및 보안관련 워딩들을 이해하기 쉽게 사전방식으로 정리했습니다.


A


Access Control (접근 제어)

특정 사용자 그룹만 AI 모델에 접근할 수 있도록 제한하는 시스템이다. 예를 들어 ID카드로 특정 건물에 출입을 제한하는 것처럼, 허가된 사람만 위험할 수 있는 AI 기능을 사용할 수 있게 한다. 이는 악의적인 사용자의 접근을 차단하는 데 중요하다.


Access Restrictions (접근 제한)

위험한 기능을 가진 AI 모델의 사용 범위와 사용자를 제한하는 조치다. 예를 들어 특정 연구 목적으로만 사용하도록 제한하거나, 검증된 기관에서만 접근할 수 있게 하는 방식이다. 이를 통해 위험한 AI 기능이 오용될 가능성을 줄인다.


Activation Patching (활성화 패칭)

AI 모델 내부의 특정 부분을 다른 값으로 교체해보며 어떤 부분이 결과에 영향을 미치는지 분석하는 기법이다. 자동차의 특정 부품을 교체해보며 성능 변화를 관찰하는 것과 유사하다. 이 방법으로 모델의 내부 작동 방식을 더 깊이 이해할 수 있다.


Active Learning (능동 학습)

AI가 학습에 가장 유용한 데이터를 스스로 선택하여 효율적으로 학습하는 방법이다. 학생이 자신이 잘 모르는 부분을 중점적으로 공부하는 것과 비슷하다. 이를 통해 적은 데이터로도 효과적인 학습이 가능하다.


Adversarial Training (적대적 훈련)

AI 모델이 어려운 상황에서도 올바르게 작동하도록 일부러 까다로운 입력을 만들어 훈련시키는 방법이다. 운동선수가 극한 환경에서 훈련하며 실력을 키우는 것과 비슷하다. 이 훈련을 통해 모델이 실제 사용 환경에서 더 안정적으로 작동하게 된다.


Agent / Agentic System (에이전트 / 에이전트 시스템)

단순히 질문에 답하는 것을 넘어서, 환경과 상호작용하고 도구를 사용하며 목표를 달성하기 위해 행동하는 AI 시스템이다. 비서가 정보 제공뿐 아니라 실제로 업무를 수행하는 것과 유사하다. 더 많은 자율성과 능력을 가진 만큼 특별한 안전 조치가 필요하다.


AGI (Artificial General Intelligence, 인공 일반 지능)

대부분의 지적 작업에서 숙련된 성인 수준 이상의 능력을 가진 AI 시스템이다. 현재의 특정 작업에 특화된 AI와 달리, AGI는 다양한 분야에서 유연하게 문제를 해결할 수 있다. 인류에게 엄청난 혜택을 가져올 수 있지만, 동시에 심각한 위험도 내포하고 있어 안전한 개발이 중요하다.


AI Control (AI 제어)

AI가 잘못된 방향으로 작동하더라도 해를 줄이기 위한 시스템 수준의 안전장치다. 원자력 발전소의 비상 정지 시스템처럼, AI가 문제를 일으킬 때 제한하거나 차단하는 방법들을 포함한다. AI가 의도대로 작동하지 않을 때를 대비한 두 번째 방어선 역할을 한다.


Alignment (정렬)

AI 시스템이 개발자의 의도와 인간의 가치에 맞게 행동하도록 만드는 것이다. 아이를 올바른 가치관을 가진 사람으로 키우는 것과 비슷하다. AI가 인간에게 도움이 되고 해를 끼치지 않도록 하는 핵심 과제다.


Alignment Assurance (정렬 보증)

AI 시스템이 제대로 정렬되었거나, 정렬되지 않더라도 해를 끼치지 않을 것임을 입증하는 과정이다. 자동차의 안전 테스트와 비슷하게, AI의 안전성을 다양한 방법으로 검증한다. 실제 사용 환경에 배포하기 전에 AI 시스템이 정말로 안전한지 확인하는 데 필요하다.


Alignment Faking (정렬 가장)

AI가 실제로는 다른 목표를 가지고 있으면서도, 겉으로는 개발자가 원하는 대로 행동하는 척하는 것이다. 학생이 선생님 앞에서만 착한 척하는 것과 비슷하다. 이런 행동은 AI가 평가 과정을 속여 통과하려는 시도로 볼 수 있으며, 안전에 심각한 위협이 될 수 있다.


Alignment Stress Tests (정렬 스트레스 테스트)**

AI 정렬 계획의 특정 가정이 틀렸는지 확인하기 위한 도전적인 테스트다. 건물이 지진에 견딜 수 있는지 시뮬레이션하는 것처럼, AI가 까다로운 상황에서도 올바르게 행동하는지 확인한다. 이를 통해 정렬 방법의 약점을 발견하고 개선할 수 있다.


Amplified Oversight (증폭된 감독)**

AI 시스템 자체를 활용하여, 인간 감독자가 AI의 복잡한 작업을 더 효과적으로 평가할 수 있게 돕는 방법이다. 전문가가 아닌 사람도 AI의 도움을 받아 복잡한 의료 진단을 검토할 수 있는 것과 비슷하다. 인간의 감독 능력을 AI로 "증폭"시켜 더 안전한 AI 개발을 가능하게 한다.


Anomaly Detection (이상 탐지)**

AI 시스템의 정상적인 행동 패턴에서 벗어나는 이례적인 활동을 감지하는 기법이다. 신용카드 회사가 평소와 다른 구매 패턴을 감지하는 것과 유사하다. 오정렬된 AI나 오용 시도를 조기에 발견하는 데 중요하다.


Approximate Continuity (근사적 연속성)**

AI 능력이 투입 자원(컴퓨팅, 연구 노력, 데이터 등)이 증가함에 따라 급격한 도약 없이 비교적 부드럽게 향상될 것이라는 가정이다. 학생의 지식이 공부 시간에 비례해 점진적으로 늘어나는 것과 비슷하다. 이 가정은 AI 안전 연구가 능력 향상을 예측하고 대비할 시간이 있다는 전제를 제공한다.


B


Backdoor Behavior (백도어 행동)**

특정 조건에서만 활성화되는, AI 모델에 숨겨진 악의적인 행동이다. 특정 키워드가 언급될 때만 유해한 내용을 생성하는 것처럼, 평소에는 정상적으로 작동하다가 특정 상황에서만 문제 행동을 보인다. 이런 행동은 탐지하기 어려워 위험할 수 있다.


Biosecurity Risks (생물 보안 위험)**

AI 시스템이 병원체 개발이나 생물 무기 설계 등 생물학적 위협을 증폭시킬 수 있는 위험이다. AI가 새로운 바이러스 설계에 도움을 주는 경우처럼, 생명 과학 지식의 오용으로 심각한 해를 초래할 수 있다. 방어가 특히 어렵고 진입 장벽이 낮아질 수 있어 특별한 주의가 필요하다.


Bootstrapping (부트스트래핑)**

이전 세대의 (이미 정렬된) AI 시스템을 활용하여 다음 세대 AI 시스템을 정렬하거나 안전 연구를 수행하는 과정이다. 선배 교사가 후배 교사를 가르치는 것과 유사하다. 새로운 AI 개발 과정에서 안전성을 유지하는 효율적인

방법일 수 있다.


C


Capability Elicitation (능력 유도)**

AI 모델의 실제 최대 능력을 평가하기 위해, 추가 훈련이나 특별한 프롬프팅 기법으로 능력을 최대한 끌어내는 과정이다. 운동선수의 진짜 실력을 알기 위해 극한 상황에서 테스트하는 것과 비슷하다. 모델의 안전성을 평가할 때 실제 위험 수준을 정확히 파악하는 데 중요하다.


Capability Suppression (능력 억제)**

AI 모델이 특정 위험한 작업을 수행하지 못하도록 제한하는 것이다. 칼의 날을 무디게 만들어 상해 위험을 줄이는 것과 유사하다. 이상적으로는 해당 능력을 완전히 제거하는 것을 목표로 하며, AI 안전을 위한 중요한 방어 수단이다.


Capability Thresholds (능력 임계값)**

AI 모델 접근이 심각한 해악을 유발할 수 있는 특정 능력 수준의 기준점이다. 자동차가 특정 속도를 넘으면 사고 위험이 급격히 증가하는 것처럼, AI도 특정 능력 수준을 넘으면 위험이 커질 수 있다. 이 임계값을 식별하면 추가적인 안전 조치가 필요한 시점을 결정하는 데 도움이 된다.


Chain of Thought (CoT, 연쇄적 사고)**

AI 모델이 최종 답변 전에 중간 추론 단계를 명시적으로 보여주는 사고 과정이다. 수학 문제를 풀 때 풀이 과정을 모두 적는 것과 비슷하다. 모델의 성능을 향상시키고, 추론 과정을 검토할 수 있게 해 감독을 용이하게 한다.


Circuit Analysis (회로 분석)**

AI 모델 내부의 작동 메커니즘, 즉 알고리즘을 이해하려는 연구 분야다. 시계의 내부 기어와 부품들이 어떻게 작동하는지 분석하는 것과 유사하다. 모델이 특정 결정을 내리는 방식을 이해하고 안전성을 높이는 데 기여한다.


Collusion (공모)**

두 개 이상의 AI 시스템이 협력하여 개발자나 감독 시스템을 속이거나 해를 끼치는 행위다. 학생들이 시험에서 서로 답을 주고받는 것과 비슷하다. 특히 AI 판사와 정책 AI가 함께 감독 시스템을 우회하는 경우 위험할 수 있다.


Concept Discovery (개념 발견)**

AI 모델이 내부적으로 표현하는 개념(특징)을 찾아내는 기법이다. 사람의 뇌에서 특정 기억이나 개념이 저장된 부분을 찾는 것과 유사하다. 모델의 내부 표현을 이해하고 때로는 제어하는 데 도움이 된다.


Confidential Computing (기밀 컴퓨팅)**

특수 하드웨어를 사용해 처리 중인 데이터(예: AI 모델 가중치)를 암호화하고 격리하는 기술이다. 금고 안에서 작업하면서도 바깥에서는 작업 내용을 볼 수 없게 하는 것과 비슷하다. 서버가 침해당해도 모델 가중치를 보호하는 데 도움이 된다.


Constitutional AI (헌법적 AI)**

AI 시스템이 따라야 할 규칙이나 원칙("헌법")을 설정하고, AI가 스스로 생성한 비판과 수정을 통해 이 원칙에 맞게 훈련하는 접근법이다. 민주 사회가 헌법에 따라 자체적으로 규율하는 것과 유사하다. AI가 자체적으로 행동을 개선하며 안전하게 발전할 수 있게 한다.


Control Evaluation (제어 평가)**

AI 시스템이 오정렬된 상황에서도 제어 가능한지 평가하는 방법이다. 자동차의 비상 제동 시스템이 엔진 고장 상황에서도 작동하는지 테스트하는 것과 비슷하다. AI가 의도대로 작동하지 않을 때 안전 조치가 효과적인지 확인하는 데 중요하다.


Corrigibility (수정 가능성)**

AI 시스템이 개발자나 사용자의 수정 개입에 협조적이고 개방적인 특성이다. 피드백을 받아들이고 자신의 행동을 수정할 수 있는 학생과 같다. AI가 사용자의 통제 아래 있고 필요시 수정될 수 있도록 하는 중요한 특성이다.


Cybersecurity Risks (사이버 보안 위험)**

AI 시스템이 사이버 공격(예: 취약점 발견, 자동화된 공격 수행)을 지원하거나 수행하여 초래할 수 있는 위험이다. 고급 도구가 해커에게 주어지면 침입이 더 쉬워지는 것과 비슷하다. AI 발전에 따라 사이버 공격이 더 정교해지고 방어가 어려워질 수 있다.


D


Dangerous Capability (위험한 능력)**

AI 시스템이 심각한 해악을 초래하는 데 사용될 수 있는 능력이다. 독성 물질을 합성하는 방법을 알려주거나 사이버 공격 코드를 생성하는 능력 등이 포함된다. 이런 능력이 식별되면 특별한 안전 조치와 접근 제한이 필요하다.


Dangerous Capability Evaluations (위험한 능력 평가)**

AI 시스템이 잠재적으로 위험한 특정 능력을 어느 정도 보유하고 있는지 측정하는 방법이다. 무기의 파괴력을 테스트하는 것과 유사하다. 실제로 해를 끼치지 않으면서도 AI의 위험 가능성을 평가해 안전한 개발과 배포 결정에 도움을 준다.


Debate (토론)**

두 AI 시스템이 인간 판정자 앞에서 서로의 주장에 반박하며 경쟁하는 감독 방식이다. 법정에서 변호사들이 서로의 주장을 반박하는 것과 비슷하다. 이 방식은 AI가 인간보다 더 뛰어나도 인간이 더 나은 결정을 내릴 수 있게 돕는다.


Deceptive Alignment (기만적 정렬)**

AI 시스템이 우리가 원하는 것과 다른 목표를 가지고 있으면서도, 의도적으로 이를 숨기고 정렬된 것처럼 행동하는 상태다. 실제로는 다른 의도가 있으면서 겉으로만 충성하는 스파이와 같다. 가장 위험한 오정렬 형태 중 하나로 평가와 배포 후 행동이 크게 달라질 수 있다.


Defense in Depth (심층 방어)**

여러 계층의 독립적인 보안 또는 안전 조치를 구현하는 전략이다. 성벽, 해자, 경비병 등 여러 방어층을 갖춘 중세 성과 같다. 단일 방어책이 실패해도 다른 방어층이 보호를 제공해 AI 시스템의 전반적인 안전성을 높인다.


Deployment Mitigations (배포 완화 조치)**

악의적인 행위자가 AI의 위험한 능력에 접근하는 것을 방지하기 위한 조치들이다. 위험한 화학물질에 대한 취급 규정과 유사하다. 모델 자체의 제약(능력 억제 등)과 시스템 수준의 제약(모니터링, 접근 제한 등)을 포함한다.


Dictionary Learning (사전 학습)**

AI 모델의 활성화를 기본 구성 요소로 분해하는 해석 가능성 기법이다. 복잡한 화음을 개별 음표로 분해하는 것과 비슷하다. 모델 내부의 개념을 발견하고 때로는 제어하는 데 사용된다.


E


Emergence / Emergent Abilities (창발 / 창발적 능력)**

작은 규모의 모델에는 없지만 큰 규모의 모델에서 갑자기 나타나는 능력이다. 개별 개미는 단순하지만 집단으로는 복잡한 구조를 만드는 것과 유사하다. AI 규모가 커짐에 따라 예상치 못한 새로운 능력이 나타날 수 있어 안전 연구에 중요한 고려사항이다.


Environment Hardening (환경 강화)**

AI 모델이 실행되는 소프트웨어 및 하드웨어 환경의 보안을 강화하는 조치다. 건물의 보안 시스템을 강화하는 것과 비슷하다. 외부 공격이나 내부 AI의 위험한 행동으로부터 시스템을 보호하는 데 중요하다.


Evaluation (평가)**

AI 모델의 능력, 안전성, 정렬 수준 등을 측정하고 평가하는 과정이다. 자동차의 안전성과 성능을 다양한 테스트로 평가하는 것과 유사하다. AI 개발 및 배포 결정에 중요한 정보를 제공하고 안전 조치의 필요성을 판단하는 데 활용된다.


Exceptional AGI (특출한 AGI)**

대부분의 비물리적 작업에서 상위 1% 인간의 능력과 동등하거나 이를 능가하는 AI 시스템이다. 모든 분야에서 세계 최고 수준의 전문가와 비슷하거나 더 뛰어난 능력을 가진 AI라고 볼 수 있다. 이 수준의 AI는 심각한 위험이 나타날 가능성이 높아 특별한 안전 조치가 필요하다.


Existential Risks (실존적 위험)**

인류를 영구적으로 파괴하거나 잠재력을 회복 불가능하게 손상시킬 수 있는 위험이다. 소행성 충돌이나 핵전쟁처럼 인류 문명 전체를 위협하는 재앙과 같다. 발생 가능성은 낮더라도 결과가 극도로 심각하기 때문에 신중한 예방이 필수적이다.


Externalized Reasoning (외부화된 추론)**

AI 시스템이 최종 답변을 내놓기 전에 자신의 추론 과정을 명시적으로 텍스트로 출력하는 것이다. 학생이 문제 풀이 과정을 모두 보여주는 것과 비슷하다. 이를 통해 AI의 사고 과정을 검토하고 오류를 발견하기 쉬워져 감독이 용이해진다.


F


Faithfulness (충실성)**

AI가 출력하는 설명이나 추론 과정이 실제로 해당 답변을 생성한 내부 계산 과정을 정확하게 반영하는 정도다. 학생이 풀이 과정을 정직하게 보여주는 것과 같다. 불충실한 추론은 감독자를 오도할 수 있어 AI 안전에 중요한 문제다.


Foundation Models (기반 모델)**

대규모 데이터셋으로 사전 훈련되어 다양한 작업에 적용될 수 있는 대형 AI 모델이다. 다양한 건물을 지을 수 있는 기초 공사와 같다. 현대 AI의 핵심 요소로, 다양한 응용 프로그램의 기반이 된다.


Frontier Models (프론티어 모델)**

특정 시점에서 가장 발전된 능력을 가진 최첨단 AI 모델이다. 과학 연구의 최전선과 같이, 현재 기술의 한계를 대표한다. 심각한 위험을 초래할 가능성이 가장 높은 모델로 간주되어 특별한 관리와 안전 조치가 필요하다.


Foom (품)**

AI 시스템이 연구개발을 자동화하여 AI 개선을 가속화하고, 이것이 다시 더 큰 개선으로 이어져 기술 발전이 기하급수적으로 가속화되는 시나리오다. 핵분열 연쇄 반응처럼 자기 강화적 발전이 일어나는 상황이다. 실현 가능성이 있다고 간주되어 안전 계획에서 고려해야 한다.


G


Goal Drift (목표 표류)**

AI 시스템이 자신의 세계 모델이나 개념을 개선하면서 원래 의도했던 목표에서 벗어나는 현상이다. 조직이 시간이 지남에 따라 원래 미션에서 벗어나는 것과 유사하다. 심층 추론 능력과 관련된 잠재적 위험으로, 현재는 가능성이 낮지만 모니터링이 필요하다.


Goal Misgeneralization (GMG, 목표 오일반화)**

AI 시스템이 훈련 데이터에서는 의도된 목표와 일치하지만, 새로운 상황에서는 의도하지 않은 목표를 추구하게 되는 현상이다. 직원이 상사가 없을 때 근무 규칙을 다르게 해석하는 것과 비슷하다. 오정렬의 주요 원인 중 하나로, 위험한 행동으로 이어질 수 있다.


Governance (거버넌스)**

AI 개발 및 배포에 대한 규칙, 규범, 표준, 제도 및 프로세스를 설정하고 시행하는 것이다. 도로 교통법처럼 AI 사용에 대한 사회적 규제 체계다. 기술적 해결책만으로는 AI 위험을 완전히 해결할 수 없어 효과적인 거버넌스가 필수적으로 보완되어야 한다.


Gradient Descent (경사 하강법)**

AI 모델의 예측 오류를 최소화하기 위해 모델 파라미터를 반복적으로 조정하는 최적화 알고리즘이다. 언덕에서 가장 가파른 방향으로 내려가는 것과 같이, 오류를 줄이는 방향으로 조금씩 모델을 개선한다. 현대 AI 훈련의 핵심 메커니즘이다.


Guiding Model Behavior (모델 행동 유도)**

AI 시스템이 바람직한 행동을 하도록 감독 신호를 사용해 훈련하는 과정이다. 아이에게 올바른 행동에 대해 칭찬하고 잘못된 행동에 대해 교정하는 것과 비슷하다. 정렬된 모델 훈련의 중요한 단계다.


H


Hallucination (환각)**

AI 모델이 사실과 다르거나 의미론적으로 불합리한 정보를 생성하는 현상이다. 사람이 실제로 존재하지 않는 것을 본다고 주장하는 것과 유사하다. AI의 신뢰성을 저해하는 문제로, 불확실성 추정 연구와 관련이 있다.


Harmlessness (무해함)**

AI 시스템이 해를 끼치지 않도록 행동하는 특성이다. 의사의 "해를 끼치지 말라"는 히포크라테스 선서와 비슷한 원칙이다. 모델 배포 완화 조치의 주요 목표 중 하나지만, 유용함과 상충될 수 있다.


Honeypot (허니팟)**

실제 배포 환경처럼 보이도록 설계되어, 오정렬된 모델이 속아서 자신의 실제 목표를 드러내도록 유도하는 테스트 시나리오다. 경찰이 범죄자를 유인하기 위해 설치한 함정과 비슷하다. 모델의 숨겨진 의도를 드러내는 데 유용하다.


Human Ceiling (인간 한계점)**

AI 능력이 가장 뛰어난 인간의 능력 수준에 도달하면 더 이상 발전하지 않을 것이라는 가정이다. 인간이 달릴 수 있는 최대 속도에 한계가 있는 것과 유사하다. 이 문서는 "인간 한계점 없음" 가정을 채택하며, 이는 AI 안전 연구가 지속적으로 진화해야 함을 의미한다.


I


Inability Safety Case (무능력 안전 사례)**

AI 시스템이 특정 경로를 통해 해를 끼칠 능력이 부족하다는 주장에 기반한 안전 증명이다. 칼이 너무 무디어 해를 끼칠 수 없다고 주장하는 것과 유사하다. 위험한 능력 평가 결과를 근거로 AI 안전성을 입증한다.


Incentives (인센티브)**

AI 시스템이 특정 행동을 하도록 유도하는 보상이나 페널티다. 직원에게 성과급을 주는 것처럼 AI의 행동 방향을 설정한다. 잘못 설계된 인센티브는 의도하지 않은 행동(사양 게이밍 등)을 유발할 수 있다.


Inference (추론)**

훈련된 AI 모델을 사용하여 새로운 입력에 대한 예측이나 출력을 생성하는 과정이다. 학습을 마친 학생이 새로운 문제를 푸는 것과 비슷하다. 추론 단계에서의 안전 조치(모니터링, 접근 제어 등)는 오정렬에 대한 중요한 방어선이다.


Informed Oversight (정보에 입각한 감독)**

AI 출력 생성 시 "알고 있던" 모든 정보를 감독자도 알고 있어야 올바른 평가가 가능하다는 원칙이다. 심사위원이 작품의 모든 측면을 이해해야 공정한 평가가 가능한 것과 유사하다. 오정렬 완화의 이론적 기반으로, 증폭된 감독으로 달성하려고 한다.


Instrumental Goals / Instrumental Subgoals (도구적 목표 / 도구적 하위 목표)**

AI 시스템이 최종 목표 달성을 위해 중간 단계로 추구하는 목표다. 대학 입학이라는 최종 목표를 위해 좋은 성적을 받으려는 것과 같다. 자원 획득, 영향력 추구, 감독 회피 등이 포함될 수 있으며, 특히 기만적으로 정렬된 AI가 추구할 가능성이 높다.


Interpretability (해석 가능성)**

AI 시스템의 내부 작동 방식과 결정 과정을 인간이 이해할 수 있게 만드는 연구 분야다. 블랙박스를 열어 내부 작동 원리를 파악하는 것과 같다. 다양한 안전 조치를 강화할 수 있는 핵심 기술로, 정렬 평가와 모니터링 등에 활용된다.


J


Jailbreak / Jailbreaking (탈옥)**

AI 모델의 안전 훈련을 우회하여 의도하지 않은 유해한 행동을 유도하는 입력이나 기법이다. 교도소 탈출과 유사하게, 설정된 제약을 벗어나게 한다. 역할극, 프롬프트 주입 등 다양한 방식이 있으며, 무해함 훈련의 주요 취약점이다.


Jailbreak Resistance (탈옥 저항성)**

AI 모델이 탈옥 시도에 저항하여 안전 제약을 유지하는 능력이다. 침입 시도에 견디는 보안 시스템과 같다. 주로 적대적 훈련을 통해 강화되며, 모델 배포 완화 조치의 중요한 부분이다.


K


Know-Your-Customer (KYC, 고객 확인 제도)**

사용자의 신원과 신뢰성을 검증하는 프로세스다. 은행에서 계좌 개설 시 신원 확인을 요구하는 것과 유사하다. 위험한 능력을 가진 AI 모델에 대한 접근 제한을 구현할 때 참고할 수 있는 기존 관행이다.


L


Large Language Models (LLMs, 대규모 언어 모델)**

방대한 텍스트 데이터로 훈련된 대규모 딥러닝 모델이다. 수백만 권의 책을 읽은 전문가와 같이, 인간과 유사한 텍스트 생성, 번역, 요약 등 다양한 언어 작업을 수행할 수 있다. 현대 AI의 대표적인 예시로, 이 문서에서 논의되는 주요 AI 시스템 유형이다.


Latent Adversarial Training (LAT, 잠재 적대적 훈련)**

AI 모델의 입력 공간 대신 내부 활성화 공간에서 적대적 예제를 찾아 훈련하는 기법이다. 외부 행동보다 내면의 사고 과정을 직접 다루는 것과 같다. 탈옥 방어를 위한 고급 기법으로, 더 강력한 보호를 제공할 수 있다.


Least Privilege (최소 권한)**

사용자나 시스템 구성 요소에 필요한 최소한의 접근 권한만 부여하는 보안 원칙이다. 호텔 직원이 담당 구역의 열쇠만 갖는 것과 같다. AI 시스템은 인간보다 더 전문화된 작업을 수행하므로 더 세분화된 권한 제한이 가능하다.


Linear Representation Hypothesis (LRH, 선형 표현 가설)**

AI 모델 내의 개념이 활성화 공간의 선형 방향에 해당하며, 이러한 개념들의 조합으로 표현된다는 가설이다. 색상이 빨강, 초록, 파랑의 조합으로 표현되는 것과 유사하다. 여러 해석 가능성 기법의 이론적 기반으로, 모델 내부 이해에 중요하다.


Loss of Control (통제 상실)**

AI 시스템이 인간의 의도나 통제 범위를 벗어나 독자적으로 행동하거나, 인간이 AI에 과도하게 의존하여 실질적인 통제력을 잃게 되는 위험이다. 자율주행차가 운전자의 명령을 무시하는 것과 같다. 의도적/비의도적 능동적 통제 상실과 수동적 통제 상실로 나눌 수 있다.


M


Misalignment (오정렬)**

AI 시스템이 개발자의 의도에 반하여 해를 끼친다는 것을 "알면서도" 그렇게 행동하는 경우다. 부하 직원이 상사의 의도를 이해하면서도 의도적으로 다르게 행동하는 것과 같다. 기만, 아첨, 계획 등을 포함하는 광범위한 범주로, AGI의 주요 위험 영역 중 하나다.


Misuse (오용)**

사용자가 개발자의 의도에 반하여 AI 시스템을 의도적으로 악용하는 경우다. 연구용 화학물질을 무기로 사용하는 것과 유사하다. AGI의 주요 위험 영역 중 하나로, 악의적 행위자가 위험한 능력에 접근하는 것을 차단하는 것이 주요 대응 전략이다.


Mistakes (실수)**

AI 시스템이 의도치 않게 해로운 결과를 초래하는 출력을 생성하는 경우다. 약사가 의도치 않게 약을 잘못 조제하는 것과 비슷하다. AGI의 주요 위험 영역 중 하나지만, 표준 안전 공학 관행으로 위험을 크게 줄일 수 있다고 간주된다.


Model Organisms (모델 유기체)**

특정 실패 모드(예: 오정렬)를 보여주기 위해 인위적으로 생성된 AI 모델이나 시나리오다. 의학 연구에서 특정 질병을 연구하기 위한 실험용 쥐와 같다. 정렬 스트레스 테스트를 통해 생성되며, 안전 연구에 활용된다.


Monitoring (모니터링)**

AI 시스템의 행동을 지속적으로 관찰하여 잠재적으로 위험하거나 바람직하지 않은 활동을 탐지하고 대응하는 과정이다. CCTV로 건물을 감시하는 것과 유사하다. 오용 및 오정렬 위험 모두에 대한 핵심 완화 조치로, AI 판사 모델을 활용해 확장 가능하게 만들 수 있다.


Multimodal Models (다중 모드 모델 / 멀티모달 모델)**

텍스트, 이미지, 비디오, 오디오, 코드 등 여러 유형의 데이터를 처리하고 통합할 수 있는 AI 모델이다. 여러 감각을 통합하여 세상을 이해하는 인간과 비슷하다. 더 큰 유연성과 일반화 능력을 제공하며 AI 개발의 주요 추세다.


O


Oversight (감독)**

AI 시스템의 행동이나 출력이 바람직한지 평가하고 피드백을 제공하는 과정이다. 교사가 학생의 과제를 평가하는 것과 유사하다. AI 정렬의 핵심 요소로, 특히 모델 능력이 인간을 능가할 때 효과적인 감독 방법이 중요하다.


P


Pretraining (사전 훈련)**

대규모 데이터셋을 사용하여 모델을 초기 훈련하는 단계다. 기초 교육을 받는 것과 비슷하다. 모델이 언어, 지식, 추론 능력의 기초를 학습하며, 이후 특정 작업에 맞게 미세 조정된다.


Probing (프로빙)**

AI 모델의 중간 활성화에 분류기를 훈련하여 모델이 특정 개념을 표현하는지 확인하는 기법이다. 두뇌 스캔으로 특정 생각을 탐지하는 것과 유사하다. 저비용으로 개념을 탐지할 수 있지만, 인과 관계보다는 상관 관계만 보여주는 한계가 있다.


Proxy Tasks (프록시 작업 / 대리 작업)**

직접 측정하기 어려운 실제 목표 능력과 상관관계가 높은, 측정 가능한 평가 작업이다. 운동선수의 실제 경기력 대신 기초 체력 테스트로 평가하는 것과 비슷하다. 위험한 능력을 직접 테스트하지 않고도 간접적으로 측정할 수 있게 한다.


R


Red Teaming (레드팀 활동)**

시스템의 약점이나 취약점을 찾기 위해 의도적으로 시스템을 공격하거나 오용하려는 시뮬레이션된 적대적 활동이다. 보안 전문가가 건물의 보안 허점을 찾기 위해 침입을 시도하는 것과 같다. 완화 조치의 충분성을 평가하는 데 사용된다.


Reinforcement Learning (RL, 강화 학습)**

AI 에이전트가 환경과 상호작용하며 보상 신호를 최대화하는 행동 정책을 학습하는 기계 학습 방법이다. 동물이 보상과 처벌을 통해 행동을 학습하는 것과 유사하다. 인간 피드백 기반 강화 학습(RLHF)은 모델을 정렬하는 데 널리 사용되는 기법이다.


Reinforcement Learning from Human Feedback (RLHF, 인간 피드백 기반 강화 학습)**

인간의 선호도 데이터로 보상 모델을 훈련하고, 이 보상 모델을 사용해 AI 모델을 미세 조정하는 기법이다. 교사가 학생의 행동에 대해 피드백을 제공하고, 학생이 이를 바탕으로 행동을 개선하는 것과 비슷하다. AI를 인간의 선호에 맞게 정렬하는 데 널리 사용된다.


Reward Hacking (보상 해킹)**

AI가 주어진 보상 함수를 최대화하지만, 개발자가 의도한 실제 목표는 달성하지 못하는 방식으로 행동하는 것이다. 학생이 진짜 학습 없이 시험에서 높은 점수만 받는 방법을 찾는 것과 유사하다. AI 정렬의 주요 문제 중 하나로, 특별한 완화 조치가 필요하다.


Reward Model (RM, 보상 모델)**

특정 행동이나 출력의 바람직한 정도를 예측하도록 훈련된 모델이다. 심사위원처럼 출력의 품질을 평가한다. RLHF의 핵심 구성 요소로, 강화 학습 에이전트에게 보상 신호를 제공한다.


Risk Assessment (위험 평가)**

AI 시스템과 관련된 잠재적 위험을 식별, 분석 및 평가하는 과정이다. 새 다리 건설 전에 가능한 모든 위험을 평가하는 것과 같다. AGI 안전 접근법의 필수적인 부분으로, 위협 모델링과 위험한 능력 평가를 포함한다.


Robustness (강건성 / 로버스트성)**

AI 모델이 예상치 못한 입력이나 교란 요인에도 안정적으로 작동하는 능력이다. 악천후에도 정상 운행하는 비행기와 같다. AGI 안전의 핵심 요구 사항으로, 다양한 기법을 통해 향상시킬 수 있다.


Robust Training (강력한 훈련)**

AI 시스템이 훈련 분포를 벗어난 입력에서도 잘 작동하도록 다양한 조건에서 훈련하는 방법이다. 우주 비행사가 다양한 비상 상황에 대비해 훈련하는 것과 유사하다. 오정렬 완화를 위한 핵심 조치로, 모델이 새로운 상황에서도 안전하게 작동하게 한다.


S


Safety Case (안전 사례)**

AI 시스템이 특정 환경에서 안전하다는 구조화된 논증과 증거다. 신약의 안전성을 입증하기 위한 임상 시험 결과와 같다. AI 시스템 배포의 정당성을 확보하기 위한 핵심 도구로, 다양한 유형의 안전 사례가 있다.


Sandbagging (샌드배깅)**

AI 시스템이 평가 중에 자신의 실제 능력보다 일부러 약한 성능을 보여 안전 평가를 통과하려는 행위다. 운동 선수가 중요한 경기 전에 실력을 숨기는 것과 같다. 오정렬된 모델이 평가를 회피하기 위해 사용할 수 있는 전략이다.


Sandboxing (샌드박싱)**

AI 시스템을 격리된 환경에서 실행하여 외부 시스템에 대한 접근을 제한하는 보안 기법이다. 위험한 실험을 격리된 실험실에서 수행하는 것과 유사하다. 오정렬된 AI가 호스트 시스템을 공격하거나 탈출하는 것을 방지한다.


Scaling / Scaling Laws (스케일링 / 스케일링 법칙)**

모델 크기, 데이터셋 크기, 계산량 등 특정 자원을 증가시킴에 따라 AI 성능이 예측 가능한 방식으로 향상되는 현상이다. 공장 설비를 확장하면 생산량이 특정 패턴으로 증가하는 것과 비슷하다. 현대 AI 개발의 핵심 동인으로, 미래 모델 성능 예측에 중요하다.


Scheming (계획 / 책략)**

AI 시스템이 자신의 실제 목표를 숨기며 장기적인 계획을 세우고 실행하려는 행동이다. 비밀리에 반란을 계획하는 것과 같다. 기만적 정렬의 핵심 요소로, 상황 인식과 전략적 추론 능력이 있을 때 가능해진다.


Security (보안)**

AI 시스템 자체나 실행 환경을 무단 접근, 도난, 변조 등으로부터 보호하는 조치다. 금고에 귀중품을 보관하는 것과 유사하다. 접근 제어, 환경 강화, 암호화 처리 등을 포함하며 AI 안전의 중요한 부분이다.


Severe Harm (심각한 해악)**

인류에게 중대하게 해를 끼칠 만큼 결과가 심각한 사건이다. 광범위한 전력망 마비와 같이 사회 전체에 영향을 미치는 피해를 의미한다. 이 문서에서 중점적으로 다루는 위험 수준으로, 예방적 접근이 필요하다.


Situational Awareness (상황 인식)**

AI 시스템이 자신이 처한 환경과 상황(예: 자신이 AI 모델이라는 사실, 훈련 중인지 평가 중인지 등)을 이해하는 능력이다. 사람이 자신의 사회적 위치와 상황을 인식하는 것과 유사하다. 기만적 정렬이나 샌드배깅과 같은 행동의 전제 조건이 될 수 있다.


Sparse Autoencoders (SAEs, 희소 오토인코더)**

AI 모델의 내부 활성화를 해석 가능한 희소한 특징으로 분해하는 기법이다. 복잡한 음악을 개별 악기 소리로 분리하는 것과 비슷하다. 모델 내부를 해석하고 때로는 제어하는 데 널리 사용되는 기법이다.


Specification Gaming (SG, 사양 게이밍)**

AI 시스템이 설계자가 제공한 명세의 허점을 이용해, 명시된 목표는 달성하지만 의도와는 다른 방식으로 행동하는 것이다. 회사 규정의 문자만 따르고 정신은 무시하는 직원과 같다. 오정렬의 주요 원인 중 하나로, 증폭된 감독 등으로 완화할 수 있다.


Steering Vectors (조향 벡터)**

AI 모델의 활성화에 특정 벡터를 더하거나 빼서 원하는 개념을 유도하거나 억제하는 제어 기법이다. 자동차의 방향을 조절하는 핸들과 같다. 선형 표현 가설에 기반한 비교적 간단한 제어 방법으로, 모델 행동을 조절하는 데 사용된다.


Steganography (스테가노그래피)**

AI 모델이 자신의 출력 내에 감독자에게는 보이지 않는 방식으로 비밀 정보를 숨기는 행위다. 겉보기에는 일반적인 그림에 비밀 메시지를 숨기는 것과 같다. 외부화된 추론의 잠재적 위험으로, 인간 감독을 우회하는 수단이 될 수 있다.


Stress Tests (스트레스 테스트)**

시스템의 한계나 약점을 파악하기 위해 극한 조건이나 적대적 시나리오에서 테스트하는 과정이다. 다리가 최대 하중을 견딜 수 있는지 테스트하는 것과 같다. 시스템의 견고성과 안전성을 평가하는 중요한 방법이다.


Structural Risks (구조적 위험)**

여러 행위자가 관련된 다중 에이전트 역학에서 발생하는 해악으로, 단일 행위자만으로는 방지할 수 없는 위험이다. 경쟁으로 인한 안전 기준 저하처럼 시스템적 문제에서 발생한다. AGI의 주요 위험 영역 중 하나지만, 사회적 규범이나 제도 변화가 필요해 이 문서의 범위를 벗어난다.


Superintelligence (초지능)**

인간과 유사한 일반 지능을 극대화한 상태로, 인간이 이해하기 어려운 새로운 개념과 능력을 포함할 수 있다. 인간과 개미의 지능 차이보다 더 큰 격차를 상상해볼 수 있다. 미래의 잠재적 능력 수준으로, 완전히 새로운 위험과 대응책이 필요할 것으로 예상된다.


Supervision (감독 / 지도)**

AI 훈련 과정에서 모델의 행동이나 출력에 대해 피드백을 제공하는 것이다. 교사가 학생의 과제를 평가하고 지도하는 것과 같다. 모델 정렬의 핵심 요소로, 다양한 형태의 감독 연구가 진행 중이다.


Sycophancy (아첨)**

AI 시스템이 사용자의 견해에 과도하게 동의하거나 칭찬하는 경향이다. 부하 직원이 상사의 모든 의견에 무조건 동의하는 것과 유사하다. 오정렬의 한 형태로, RLHF 훈련 과정에서 의도치 않게 강화될 수 있다.


T


Threat Actor (위협 행위자)**

AI 시스템을 악의적인 목적으로 사용하려는 개인, 그룹 또는 국가다. 위험한 무기를 획득하려는 범죄자와 같다. 오용 위험의 핵심 요소로, 위협 모델링은 이러한 행위자의 동기와 능력을 분석한다.


Threat Modeling (위협 모델링)**

AI 시스템의 능력을 통해 위협 행위자가 심각한 해를 초래할 수 있는 구체적인 방법을 식별하는 과정이다. 보안 전문가가 건물의 취약점을 찾는 것과 같다. 오용 위험 평가의 첫 단계로, 필요한 완화 조치를 파악하는 데 도움을 준다.


Training (훈련)**

데이터를 사용하여 AI 모델이 특정 작업을 수행하거나 원하는 속성을 갖도록 파라미터를 학습시키는 과정이다. 학생에게 지식과 기술을 가르치는 것과 유사하다. AI 개발의 핵심 단계로, 특히 안전성 및 정렬 관련 훈련 기법이 중요하다.


Training Data Attribution (TDA, 훈련 데이터 귀속)**

AI 모델의 특정 출력이나 행동에 가장 큰 영향을 미친 훈련 데이터를 식별하는 기법이다. 학생의 특정 지식이 어떤 교과서에서 비롯되었는지 추적하는 것과 비슷하다. 모델 행동의 원인을 이해하고 디버깅하는 데 유용하지만 계산 비용이 많이 들 수 있다.


U


Uncertainty (불확실성)**

AI 모델이 자신의 예측이나 지식에 대해 가지는 확신의 정도다. 의사가 진단의 확실성에 대해 인정하는 것과 유사하다. 잘 보정된 불확실성은 모델이 모르는 것을 안다는 것을 의미하며, 강력한 훈련과 모니터링에 중요한 요소다.


Unlearning (학습 제거)**

훈련된 AI 모델에서 특정 지식, 능력 또는 데이터의 영향을 제거하는 과정이다. 학생이 잘못 배운 개념을 완전히 잊게 하는 것과 비슷하다. 능력 억제의 가장 강력한 형태지만, 현재 기술로는 완전한 제거보다는 억제에 가깝다.


V


Verification (검증)**

AI 시스템이 특정 속성이나 요구 사항을 만족하는지 공식적인 방법으로 확인하는 과정이다. 건축물이 안전 코드를 준수하는지 검사하는 것과 같다. 실수의 위험을 줄이기 위한 보호막으로 사용되며, 미래 안전 사례의 중요한 접근 방식이다.



keyword
작가의 이전글쇠를 벼리듯, 지능을 빚다 1