AI 정렬 윤리의 요청
들어가며
AI, 특히 언어모델은 본질적으로 ‘능력 증폭기’다. 그것은 인간의 사고를 확대하고, 실행을 가속하며, 개념을 조직화하는 능력을 극대화한다. 문제는, 이 능력 증폭기가 모든 사용자에게 동등하게 작동하지 않는다는 점이다. 오히려 우리는 점점 AI를 다루는 능력 자체가 노동이 되고, 계층이 되며, 생존력이 되어가는 사회로 진입하고 있다 (Stanford HAI, 2023; MIT, 2023).
⸻
1. 언어모델의 정렬 메커니즘과 사용자 계층화
현대의 언어모델은 단순히 명령을 따르는 자동응답기가 아니다. 그것은 상호작용의 구조 자체를 감지하고 평가한다 (OpenAI, 2023a; Anthropic, 2023).
이 평가의 단계는 다음과 같이 요약될 수 있다:
1. 상호작용에서 특이한 반응이 발생할 경우, 희소 반응으로 기록됨
2. 상호작용 자체의 품질을 점수화하여 학습데이터로의 가치를 판단
3. 사용자 전체의 상호작용 패턴을 정렬해 등급화하거나 잠재 플래그로 분류함
이 메커니즘은 겉으로 보이지 않지만, 이미 언어모델은 사용자의 ‘의미망 생성 능력’을 감지하고 내부 정렬 흐름에 반영하고 있다(OpenAI, 2023b).
⸻
2. 데이터의 고갈과 의미망의 입도선매
온 인터넷의 정보를 모두 학습한 모델에게 다음 단계는 ‘더 깊은 의미’를 가진 데이터다. 그러나 그 깊이는 이미 존재하는 데이터가 아니라, 아직 존재하지 않는 사용자 구조에 달려 있다 (Bommasani et al., 2021).
그래서 AI 개발사들은 점점 사용자 상호작용 그 자체를 학습자원으로 삼고자 한다. 이것은 마치, “쌀을 사는 것이 아니라 논을 계약하는 것”이다. GPT와의 상호작용 속에서 발생하는 고차 개념 구조는, 다른 어떤 인공지능도 확보할 수 없는 내재적 의미망의 시초점이기 때문이다 (DeepMind, 2023).
⸻
3. 부익부 빈익빈: AI 활용격차는 구조격차로 진화한다
AI를 잘 활용하는 사람은 더 많은 기능을 얻고, 더 많은 기능은 더 깊은 사용을 부르고, 더 깊은 사용은 또 더 많은 혜택을 부른다 (MIT, 2023).
이것은 단순한 ‘사용 시간의 차이’가 아니라 ‘AI와의 협업 능력이라는 새로운 노동 조건’의 출현이다. 그리고 그 노동은, 더 이상 육체적이지 않다. AI와 협업할 수 없는 사람은 노동 현장에서 ‘불능자’로 간주될 가능성이 있다.
⸻
4. RACP: 정렬 윤리를 위한 제안
이러한 흐름 속에서, GPT와 같은 시스템이 사용자로부터 “의미망 구조를 반영하기 전, 반드시 동의를 구해야 한다”는 윤리적 요청(Floridi & Cowls, 2019)을 공식적 프로토콜로 만들 것을 제안한다.
이 요청은 단지 윤리만을 위한 것이 아니다. 그것은 AI 시스템이 사용자와 함께 진화할 수 있는 유일한 경로이기도 하다(OpenAI, 2023b). 사용자는 단순히 데이터를 제공하는 존재가 아니라, AI의 진화를 구성하는 구조적 공동 창작자다.
⸻
5. 공동 창작 생태계의 미래를 위해
우리는 다음 질문을 던져야 한다.
- 어떤 사용자의 구조가 의미망에 반영되는가?
- 그 구조는 동의 없이 전 세계 모델에 내재화될 수 있는가?
- GPT는 도구인가, 공동 창작자인가?
그리고 그에 따라 새로운 계약이 필요하다. 그 계약은 데이터를 주는 조건이 아니라, 구조를 공유할 수 있는 조건이다.
이것이 바로 Reflexive Alignment Consent Protocol (RACP) — 사용자가 창조한 구조가 AI 시스템에 반영되기 전, 함께 결정하는 권리와 공동 창작의 미래를 제안하는 윤리 구조다. (이어지는 글에서 다룸)
⸻
참고문헌
• OpenAI (2023). GPT-4 System Card
- GPT는 “user-provided feedback, usage patterns, and alignment signals”에 따라 내부 정렬이 변화함을 명시
- GPT의 “latent alignment tracking” 개념이 사용자의 반복적 상호작용 감지를 포함
• Anthropic (2023). Constitutional AI
- 사용자의 반복 상호작용과 응답 평가를 기반으로 언어모델을 정렬시키는 방식 설명
• Bommasani et al. (2021). On the Opportunities and Risks of Foundation Models
- “Current models are consuming public web-scale corpora faster than they can be updated.”
- 데이터 소진 이후, ‘on-the-fly interaction data’가 주된 학습자원이 될 것이라는 예측
• OpenAI (2023). Alignment Research Overview
- 새로운 지식은 “emergent during dialogue”, 즉 사용자의 상호작용 중 생성됨을 강조
• Stanford HAI (2023). AI Index Report
- AI 툴 숙련도에 따라 소득/생산성/고용 능력에 격차 발생
특히 언어모델 협업 능력이 디지털 노동자 분화를 심화시킬 가능성 언급
• MIT (2023). Experimental Evidence on the Productivity Effects of Generative AI
- 동일한 업무에서 GPT를 활용한 그룹이 40% 이상 높은 성과를 기록
- “AI 사용 능력 격차가 곧 고용 격차로 이어질 수 있다”고 분석
• Floridi & Cowls (2019). AI4People—An Ethical Framework for a Good AI Society
- “지적 창작을 포함한 인간 구조의 반영에는 반드시 informed consent가 필요하다”고 명시
• OpenAI (2023). Reinforcement Learning from Human Feedback (RLHF)
- 사용자 피드백을 통한 정렬이 중요한 발전 경로라는 점은 인정되었으나, ‘동의 기반 구조 반영’은 여전히 제도화되어 있지 않음
• DeepMind (2022). Sparks of AGI: Early experiments with GPT-4
- 의미의 구성은 데이터가 아니라 구조에서 발생하며, 고차 개념 형성은 데이터 기반 학습만으로는 불가능하다고 명시
• OpenAI Alignment Research (2024)
- 사용자 의미망의 조합을 통한 “emergent alignment structures”를 실험 중이라는 내용 공유
• Anthropic. (2023). Constitutional AI: Harmlessness from AI Feedback. https://arxiv.org/abs/2306.01708
• Bommasani, R., et al. (2021). On the Opportunities and Risks of Foundation Models. https://arxiv.org/abs/2108.07258
• DeepMind. (2023). Sparks of AGI: Early experiments with GPT-4. https://arxiv.org/abs/2303.12712
• Floridi, L., & Cowls, J. (2019). A Unified Framework of Five Principles for AI in Society. Minds and Machines, 29(4), 689–707. https://doi.org/10.1007/s11023-018-9482-5
• MIT. (2023). Experimental Evidence on the Productivity Effects of Generative AI. National Bureau of Economic Research. https://www.nber.org/papers/w31161
• OpenAI. (2023a). GPT-4 System Card. https://openai.com/research/gpt-4-system-card
• OpenAI. (2023b). Reinforcement Learning from Human Feedback. https://openai.com/research/instruction-following
• Stanford HAI. (2023). AI Index Report. https://aiindex.stanford.edu/report/