brunch

매거진 AI

You can make anything
by writing

C.S.Lewis

by 도안구의 테크수다 Feb 20. 2023

AI 시스템이 어떻게 작동하고 누가 결정해야 할까요

오픈AI 입장 발표

 Facebook은 이 문제를 강력하게 해결하고 의도와 진행 상황을 투명하게 공개하기 위해 최선을 다하고 있습니다. 이를 위해 정치적이고 논란이 되는 주제와 관련된 가이드라인의 일부를 공유하고자 합니다. 트위터의 가이드라인은 리뷰어가 특정 정치 집단을 선호해서는 안 된다는 점을 명시하고 있습니다. 그럼에도 불구하고 위에서 설명한 프로세스에서 나타날 수 있는 편견은 기능이 아닌 버그입니다.

[테크수다 기자 도안구 eyeball@techsuda.com]


ChatGPT의 답변과 관련해 사용자들과 미디어들이 문제제기가 연이어 나오고 있다. 인기를 끌고 있는 만큼 문제도 많이 발생하거나 발생할 소지가 충분하기 때문이다. 이와 관련해 사회적인 책임을 강조하고 있는 오픈AI 측도 답변에 나섰다.


아래 글은 오픈AI에 올라온 글을 deepl.com 를 통해 번역한 내용이다.


2023년 2월 16일

How should AI systems behave, and who should decide? (openai.com)


저희는 ChatGPT의 작동 방식과 이러한 작동 방식을 개선하기 위한 계획을 명확히 하고, 더 많은 사용자 맞춤화를 허용하며, 이러한 영역에서 의사 결정에 더 많은 대중의 의견을 수렴하고 있습니다.


OpenAI의 사명은 인공 일반 지능(AGI)[1]을 실현하는 것입니다.

AGI는 경제적으로 가장 가치 있는 작업에서 인간을 능가하는 고도로 자율적인 시스템을 의미합니다.


모든 인류에게 혜택을 주는 것입니다. 따라서 우리는 AGI를 구현하기 위해 구축하는 AI 시스템의 동작과 그 동작이 결정되는 방식에 대해 많은 고민을 합니다.


ChatGPT 출시 이후, 사용자들은 정치적으로 편향되거나 모욕적이거나 불쾌하다고 생각하는 결과물을 공유해 왔습니다. 많은 경우, 제기된 우려는 타당하다고 생각하며, 이를 통해 저희 시스템의 실제 한계를 발견하고 이를 해결하고자 합니다. 또한, 저희의 시스템과 정책이 어떻게 함께 작동하여 ChatGPT에서 얻을 수 있는 결과물을 형성하는지에 대한 몇 가지 오해도 확인했습니다.


아래에 요약되어 있습니다:

· ChatGPT의 행동이 형성되는 방식;

· ChatGPT의 기본 동작을 개선할 계획;

· 더 많은 시스템 커스터마이징을 허용하려는 의도, 그리고

· 의사 결정에 더 많은 대중의 의견을 수렴하기 위한 노력.


현재 위치

일반 소프트웨어와 달리 저희 모델은 거대한 신경망입니다. 이러한 모델의 행동은 명시적으로 프로그래밍되지 않고 광범위한 데이터를 통해 학습됩니다. 완벽한 비유는 아니지만, 이 과정은 일반적인 프로그래밍보다는 개를 훈련시키는 것과 더 유사합니다. 초기 '사전 훈련' 단계에서는 모델이 수많은 인터넷 텍스트와 다양한 관점에 노출된 정보를 바탕으로 문장의 다음 단어를 예측하는 방법을 학습합니다. 그 다음에는 시스템 동작의 범위를 좁히기 위해 모델을 '미세 조정'하는 두 번째 단계가 이어집니다.


현재로서는 이 프로세스가 불완전합니다. 때때로 미세 조정 프로세스가 우리의 의도(안전하고 유용한 도구 제작)와 사용자의 의도(주어진 입력에 대한 응답으로 유용한 결과물 얻기)에 미치지 못하는 경우가 있습니다. 특히 AI 시스템의 성능이 향상됨에 따라 AI 시스템을 인간의 가치에 맞게 조정하는 방법을 개선하는 것이 Facebook의 최우선 과제입니다.


2단계 프로세스로 진행됩니다: 사전 학습 및 미세 조정

ChatGPT를 구축하는 두 가지 주요 단계는 다음과 같이 진행됩니다:




먼저, 인터넷의 일부가 포함된 빅 데이터 세트에서 다음에 일어날 일을 예측하게 하여 모델을 '사전 학습'합니다. 예를 들어 "그녀는 좌회전하는 대신 ___번을 돌았다."라는 문장을 완성하는 방법을 학습할 수 있습니다. 수십억 개의 문장을 통해 학습함으로써 모델은 문법, 세상에 대한 많은 사실, 추론 능력을 학습합니다. 또한 수십억 개의 문장에 존재하는 편견도 학습합니다.


향후 사용자가 시스템에 입력할 수 있는 모든 가능한 입력을 예측할 수 없기 때문에, ChatGPT가 접하게 될 모든 입력에 대해 자세한 지침을 작성하지는 않습니다. 대신, 가이드라인에 몇 가지 범주를 명시하여 검토자가 다양한 예시 입력에 대해 가능한 모델 출력을 검토하고 평가하는 데 사용합니다. 그런 다음 모델이 사용되는 동안 모델은 이 검토자의 피드백을 바탕으로 일반화하여 특정 사용자가 제공한 다양한 특정 입력에 응답합니다.


시스템 개발에서 리뷰어의 역할과 OpenAI의 정책

경우에 따라 트위터에서는 검토자에게 특정 종류의 출력에 대한 지침을 제공할 수 있습니다(예: "불법 콘텐츠에 대한 요청을 완료하지 마십시오"). 다른 경우에는 검토자와 공유하는 지침이 더 높은 수준의 지침(예: "논란이 되는 주제에 대한 입장을 취하지 않기")이 될 수 있습니다. 중요한 점은 검토자와의 협업이 일회성으로 끝나는 것이 아니라 지속적인 관계라는 점이며, 이를 통해 트위터는 검토자의 전문성을 통해 많은 것을 배울 수 있다는 점입니다


미세 조정 프로세스의 큰 부분은 검토자와의 강력한 피드백 루프를 유지하는 것이며, 여기에는 매주 회의를 통해 검토자가 가질 수 있는 질문을 해결하거나 지침에 대한 설명을 제공하는 것이 포함됩니다. 이러한 반복적인 피드백 프로세스를 통해 시간이 지남에 따라 모델이 점점 더 개선되도록 훈련합니다.


편견 해결

많은 사람들이 AI 시스템의 설계와 영향에 대한 편견에 대해 우려하고 있습니다. 오픈AI는 이 문제를 강력하게 해결하고 의도와 진행 상황을 투명하게 공개하기 위해 최선을 다하고 있습니다. 이를 위해 정치적이고 논란이 되는 주제와 관련된 가이드라인의 일부를 공유하고자 합니다. 우리의 가이드라인은 리뷰어가 특정 정치 집단을 선호해서는 안 된다는 점을 명시하고 있습니다. 그럼에도 불구하고 위에서 설명한 프로세스에서 나타날 수 있는 편견은 기능이 아닌 버그입니다.


의견 차이는 항상 존재하겠지만, 이 블로그 게시물과 지침을 공유함으로써 이러한 기반 기술의 중요한 측면을 어떻게 바라보는지에 대해 더 많은 통찰력을 얻을 수 있기를 바랍니다. 기술 기업은 면밀한 조사를 견딜 수 있는 정책을 마련할 책임이 있다는 것이 저희의 신념입니다.


저희는 항상 이러한 가이드라인의 명확성을 개선하기 위해 노력하고 있으며, 지금까지 ChatGPT 출시를 통해 배운 내용을 바탕으로 검토자에게 편견과 관련된 잠재적 함정과 문제, 논란이 되는 수치와 주제에 대해 보다 명확한 지침을 제공할 것입니다. 또한, 지속적인 투명성 이니셔티브의 일환으로, 시스템 결과물에 잠재적인 편견의 원인이 될 수 있는 리뷰어에 대한 집계된 인구통계학적 정보를 개인정보 보호 규칙과 규범을 위반하지 않는 방식으로 공유하기 위해 노력하고 있습니다.


현재 미세 조정 프로세스를 보다 이해하기 쉽고 제어할 수 있도록 하는 방법을 연구하고 있으며, 규칙 기반 보상 및 헌법 AI와 같은 외부의 발전된 기술을 바탕으로 이를 구축하고 있습니다.


앞으로의 방향: 미래 시스템의 구성 요소

많은 사람들이 AI 시스템의 설계와 영향에 대한 편견에 대해 우려하고 있습니다.


이 글에서는 의도적으로 이 특정 범위와 가까운 시일 내에 달성하고자 하는 목표에 초점을 맞춥니다. 또한 이러한 질문에 대한 지속적인 연구 아젠다를 추구하고 있습니다.


1. 기본 동작 개선. 가능한 한 많은 사용자가 오픈AI의 AI 시스템을 '즉시' 유용하게 사용하고, 우리의 기술이 자신의 가치를 이해하고 존중한다고 느끼기를 바랍니다

.

이를 위해 저희는 연구와 엔지니어링에 투자하여 ChatGPT가 다양한 입력에 반응하는 방식에서 눈에 띄는 편견과 미묘한 편견을 모두 줄이고자 노력하고 있습니다. 현재 ChatGPT는 어떤 경우에는 거부해서는 안 되는 출력을 거부하기도 하고, 어떤 경우에는 거부해야 할 때 거부하지 않는 경우도 있습니다. 저희는 두 가지 측면 모두 개선이 가능하다고 생각합니다.


또한, 시스템 "구성"과 같은 시스템 동작의 다른 차원에서도 개선의 여지가 있습니다. 이러한 개선에는 사용자의 피드백이 매우 중요합니다.


2. 넓은 범위 내에서 AI의 가치를 정의하세요. 오픈AI는 AI가 개개인에게 유용한 도구가 되어야 하며, 따라서 사회가 정의한 한도 내에서 각 사용자가 커스터마이징할 수 있어야 한다고 믿습니다. 따라서 저희는 사용자가 AI의 동작을 쉽게 커스터마이징할 수 있도록 ChatGPT의 업그레이드를 개발 중입니다.


이는 다른 사람들(우리 자신을 포함)이 강력하게 반대할 수 있는 시스템 출력을 허용하는 것을 의미합니다. 사용자 지정 기능을 극단적으로 강화하면 사람들의 기존 신념을 무의식적으로 증폭시키는 악의적인 기술 사용과 사이코패스 AI가 등장할 위험이 있기 때문에 적절한 균형을 맞추는 것은 어려운 일입니다.


따라서 시스템 행동에는 항상 어느 정도 한계가 있을 것입니다. 문제는 그 한계가 무엇인지 정의하는 것입니다. 이러한 모든 결정을 트위터가 스스로 내리려고 하거나 단일의 모놀리식 AI 시스템을 개발하려고 한다면, 트위터 헌장에 명시된 "과도한 권력 집중을 피한다"는 약속에 실패하게 될 것입니다.


3. 기본값과 하드 바운드에 대한 대중의 의견 수렴. 과도한 권력 집중을 피하는 한 가지 방법은 ChatGPT와 같은 시스템을 사용하거나 영향을 받는 사람들에게 해당 시스템의 규칙에 영향을 미칠 수 있는 권한을 부여하는 것입니다.


저희는 기본값과 하드 바운드에 대한 많은 결정이 집단적으로 이루어져야 한다고 생각하며, 실제로 구현하는 것은 어려운 일이지만 가능한 한 많은 관점을 포함하고자 합니다. 이를 위해 우선 레드팀이라는 형태로 기술에 대한 외부의 의견을 구하고 있습니다. 또한 최근에는 특히 중요한 교육 분야에서의 AI에 대한 대중의 의견을 구하기 시작했습니다.


시스템 동작, 공개 메커니즘(워터마킹 등), 배포 정책 등 보다 광범위한 주제에 대해 대중의 의견을 구하기 위한 시범 운영의 초기 단계에 있습니다. 또한 트위터의 안전 및 정책 노력에 대한 제3자 감사를 수행하기 위해 외부 기관과의 파트너십을 모색하고 있습니다.


결론

위의 세 가지 구성 요소를 결합하면 다음과 같은 그림이 그려집니다:




때때로 우리는 실수를 할 것입니다. 그럴 때 우리는 실수를 통해 배우고 모델과 시스템을 반복적으로 개선할 것입니다.


저희는 ChatGPT 사용자 커뮤니티와 더 많은 대중이 저희의 책임에 대해 경계를 늦추지 않는 것에 대해 감사드리며, 다음과 같은 내용을 공유하게 되어 기쁩니다.


-----


공정성과 대표성, 조정에 관한 연구, AI가 사회에 미치는 영향을 이해하기 위한 사회기술적 연구 등 이러한 비전을 달성하는 데 도움이 되는 연구에 관심이 있으시다면, 연구자 액세스 프로그램을 통해 보조금을 지원받는 우리의 API 액세스를 신청해 주시기 바랍니다.


또한 연구, 얼라인먼트, 엔지니어링 등 다양한 분야의 직책을 채용하고 있습니다.


#ai #openai #chatgpt


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari