GPT-3 인공지능으로 접근해 보는 사회적 문제해결
요즘 인공지능 GPT-3에 대한 이야기가 많습니다.
Open AI 사이트를 들어가 보려고 했지만 마지막 인증 문자 입력에서 해외발송 문자가 오지 않아 진행이 안되어 가입하는 것이 어려웠습니다. 따라서 다른 방법을 찾았고 유료앱을 설치해서 사용해 보면서 느낀 부분을 정리해 보고자 합니다. 사용후기이다 보니 인공지능의 활용 관련 가능성에 대해 살펴보고자 작성해 보고자 합니다. 내용 중 오류가 있다면 댓글로 알려주면 감사하겠습니다.
GPT-3는 초기 일론머스크에 의해 비영리로 시작했지만 현재는 마이크로소프트 투자를 받은 오픈(Open) AI가 개발한 AI 언어 모델이다. GPT-3(Generative Pre-trained Transformer 3)는 GPT의 3세대 모델로 2020년에 공개되었다.
기존 인공지능 스피커는 단어 중심으로 인식하고 명령구조를 인식하여 결과를 내는 단순한 구조이다 보니 예외적인 문장에 대해 인식을 못하고 단지 정해진 명령만 수행하는 형태이다.
그러나, GPT-3는 단어중심이 아닌 문장, 문맥을 중심으로 딥러닝을 통해 만든 언어 예측 모델이다.
GPT-3에 어떤 질문을 하면 무척 자연스럽게 대화하는 느낌이 나는 이유는 인간이 사용하는 가장 자연스러운 문장을 반복해서 출력하는 딥러닝 예측 모델이기 때문이다. 그렇기 때문 GPT-3는 웬만한 질문에 대해 의미가 있는 답변을 한다.
이것은 단어단위가 아닌 문장 단위 학습으로 인한 인지 단위가 다르다는 것을 보여주고 있다. 즉 문장자체에 대한 맥락을 알고 있고 문장을 구성할 때도 그런 맥락을 가지고 구성한다는 것을 보여준다,
GPT3에 사용된 정보는 방대하다. 이와 관련 학습과정에 대한 중요한 내용이 아래 블로그에 있어 학습데이터에 대해서만 참조하여 넣었다.
https://supkoon.tistory.com/27
그리고 데이터가 수집된 시점의 이야기를 한다. 데이터셋이 아마 최신 데이터가 아닌 것 같고 이에 따라 2019년 기준 자료로 이야기를 한다는 것을 눈치챘다.
이것을 테스트해 본 것은 한국의 대통령이 누구인지 물어보거나 아니면 발생한 사건 정보를 물어보면 현재 기준이 아닌 과거 어느 시점이라는 것을 알 수 있다.
또한, 정보가 부족한 경우 답을 만들어낸다는 생각도 들었다. 즉 거짓말을 해서라도 답을 만들어 낸다.
예를 들어 역사적 인물에 대한 질문을 했는데 어떤 때는 정확하게 답을 주기도 했지만 어떤 때는 말도 안 되는 인물을 등장시키며 마치 사람이 거짓말을 하는 것처럼 이야기한다.
이건 분명 한국어 데이터가 부족한 경우 이를 기반으로 하는 정보가 부족해서 나타난 현상이다.
만일 상대로부터 잘 모르는 질문을 듣는다면 우리는 모르는 경우 모른다고 이야기하는 것이 일반적이고 상식적일 것이다. 그러나 GPT-3에게 우리는 알지만 데이터베이스에 없어 GPT-3가 답을 할 수 없는 확인 안 된 인물에 대해 이야기하면 마치 알고있는 것처럼 가공의 인물로 답을 한다.
아마도 정보가 부족할 경우 GPT-3는 답에 대해 적합한 내용이 아니더라도 말이 될만한 내용의 문구를 연결하여 전체적으로는 말이 되게 만든다는 생각을 하게 했다.
이를 통해 확인한 것은, GPT-3는 데이터셋은 여러 언어가 가능하지만 결정적으로 영어로 된 자료가 월등하다는 것을 느꼈다. 앞에서 시험을 하면서 한글로 한국인들만 아는 인물에 대해 질문했을 때 나타난 현상이라면 세계인 모두가 아는 상식적인 질문을 한글과 영어로 하면 한글로 질문 시 간단하게 답하지만 영어로 질문하면 아주 구체적으로 답을 준다. 이것은 데이터의 양에 의존하는 것이라는 생각이 든다.
또한, 이러한 특성을 통해 정보의 질과 형태에 따라 질문에 대한 답변이 달라질 것이라는 추측이 가능하다. 예를 들어 한국에는 잘 제도화되지 않은 부분에 대해 한글로 질문하는 경우와 영어로 질문하는 경우 차이가 나타날 수 있다는 점이다.
바로 이러한 점 때문 GPT-3를 현시점에서 활용 시에는 영어권 정보를 찾는데 유용할 수 있을 것이라는 생각을 하게 되었다. 예를 들어 국내에는 생소하거나 도입안 된 제도를 영어로 물어본다면 좋을 것이다. 실제로 이러한 시도를 해보니 매우 훌륭한 답을 주는 것을 확인했다. 어떤 면에서는 영미권 국가의 좋은 제도에 대해 탐색하는 용도로서 사용해도 좋을 것 같아 관련으로 좀 더 시험해 보기로 했다.
GPT-3는 다양한 분야 지식을 학습하였기에 기술적인 문의를 할 수 있다. 예를 들어 인공지능, IoT 등 분야 및 적정기술에 대한 질문에 대하여도 적절한 답을 내놓고 있다.
이러한 답변을 통해 대학교에서는 보고서를 작성할 수 있고 이를 검색하여 검증한 후 논문으로 쓰는 경우도 나타날 것으로 보인다. 그런 상황이 된다면 과연 대학교에서 논문에 대한 평가가 가능할지 의문이다.
또한, 진로에 대한 부분 및 상담도 가능했다. 예를 들어 애니메이터가 되기 위한 방법을 물어보면 관련 포트폴리오를 만들고, 학원 다니고 어떤 자격을 갖추라는 등 가이드하는 것을 확인했다.
< 적정기술에 대한 소개>
이처럼 대중들은 좀 더 손쉽고 친절하게 전문 지식에 접근이 가능하다. 바로 이러한 점 때문 최근 GPT-3을 통한 검색기능이 구글검색보다 편리하다는 이야기를 하게 된다. 이에 따라 현재 Open AI에 투자한 마이크로소프트사의 검색엔진 빙(Bing)이 인공지능을 포함하게 될 예정이라고 한다.
우리는 생각보다 자연스러운 인공지능을 접하는 시대가 되었다. 이러한 인공지능이 현재로서는 검색 엔진에 대한 지원, 전문가 지원 시스템 등에 활용될 수 있다.
기능상 GPT는 디지털 메타데이터를 가져오는 것이 아닐까?
어떤 질문에 대해 원리와 맥락에 맞게 가져온다. 그것은 아마도 기존 정보중 관련 논의가 있던 자료들이 학습을 통해 GPT-3에서는 그런 논의과정 자료들의 메타데이터를 가져온 것 아닌가 싶다.
그리고 이를 기반으로 맥락적으로 문제없도록 정보를 나열하고 있다.
GPT-3가 가진 영미권 데이터가 많다는 가정하에 우리보다 앞서있는 제도에 대한 질문을 해보기로 했다.
예를 들어 한국어로 한국 언론에 대한 문제와 검찰의 권력 남용을 질문할 때보다 영어로 동일한 질문을 할 때를 비교하여 보면 영어로 질문을 할 때 더욱 체계적인 답변과 함께 자세한 답변을 준다.
이것은 정보의 량이 다르다는 것과 함께 영어권에는 관련 제도적 완성도가 높고 관련 대중들의 논의가 이미 많이 있었을 가능성이 높다. 따라서 우리보다는 먼저 가지고 있던 해법이 있던 것일 수 있다.
따라서 우리는 GPT-3와 같은 인공지능을 통해 해외의 제도를 참고하여 국내의 제도적 문제를 찾거나 개선할 때 도움이 될 수 있다. 예를 들어 상당수 많은 사람들이 문제의식을 가지는 언론 이슈를 다뤄본다고 생각해 보자. 명백하게 한국 언론의 경우 외국보다 언론 편향성이 높고, 언론 신뢰도가 낮다.
그도 그럴 것이 역사적으로나 구조적으로 편향될 수밖에 없는 구조이기 때문이다. 대부분 언론은 대자본 또는 건설사 소유 언론이다. 그러다 보니 그들의 이해관계에 따라 언론은 목소리가 왜곡될 수밖에 없다.
이로 인한 결과로써 대중이 느끼는 우리 언론의 품질이 낮다는 것은 공식적 통계로도 증명된다. 2022년 기준으로 우리는 46개국 중 30위로서 선택적 뉴스회피등으로 2021 대비 두 계단 낮아진 순위로 계속적으로 언론 신뢰도가 하락 중에 있다. 이것은 이미 객관적인 자료들이 있는 상황으로 통계에도 나와 있다. 그렇게 신뢰성이 없는 언론이라도 30프로의 대중들에게는 큰 영향을 미치고 있다.
여기서 우리는 언론 편향성에 대한 해법을 다음과 같이 문의했고, 그 가장 큰 원인인 가짜뉴스만이라도 막을 수 있는 방법이 무엇인지 Chat GPT3에 물어봤더니 매우 타당성 있는 답을 준다.
1. 팩트체킹에 투자하십시오: 팩트체킹에 투자하면 미디어 조직이 잘못된 이야기가 입소문이 나기 전에 식별하고 반박하는 데 도움이 될 수 있습니다.
2. 미디어 리터러시 향상: 미디어 소비자에게 이야기의 신뢰성을 인식하고 평가하는 방법을 교육하면 허위 정보의 확산을 방지하는 데 도움이 될 수 있습니다.
3. 대안적 목소리 증폭: 언론 매체와 발행인은 독립 출처 및 소규모 출판물의 이야기와 기사를 강조하여 가짜 뉴스의 영향을 줄이는 데 도움을 줄 수 있습니다.
4. 기술을 사용하여 허위 주장 표시: 인공 지능과 기계 학습을 사용하여 허위 주장을 걸러내고 가짜 뉴스의 확산을 방지할 수 있습니다.
5. 진정성 있는 대화 만들기: 가짜 뉴스 및 잘못된 정보 주제에 대한 열린 토론을 만들기 위해 미디어 조직은 사람들이 시사 문제에 대해 토론하고 토론할 수 있는 더 많은 기회를 만들 수 있습니다.
1. Invest in fact-checking: Investing in fact-checking can help media organizations identify and refute false stories before they become viral.
2. Increase media literacy: Educating media consumers on how to recognize and assess the credibility of a story can also help prevent the spread of false information.
3. Amplify alternative voices: Media outlets and publishers can help reduce the impact of fake news by highlighting stories and articles from independent sources and smaller publications.
4. Use technology to flag false claims: Artificial intelligence and machine learning can be used to filter out false claims and help prevent the spread of fake news.
5. Create authentic dialogue: To help create open discussions on the topics of fake news and misinformation, media organizations can create more opportunities for people to discuss and debate current events.
위와 같이 GPT-3 답변을 보면 상당히 구체적이고 어디선가 실제 사례가 있을법한 답변을 준다.
아마도 영미권에서도 이러한 우리가 고민했던 문제에 대한 여러 가지 논의 및 해법들이 있었을 것이라고 보인다. 결국 우리가 요구하는 주제에 대해 다양한 논의 및 시도가 된 여러 방대하개 축적된 학습데이터를 기반으로 학습했다는 것을 알 수 있다.
이러한 자료가 유용한 이유는 한국사회보다 선진적인 견제구조를 가진 국가제도와 관련 데이터를 인공지능 GPT-3을 통해 쉽게 알 수 있다는 것이다. GPT-3가 답변 내용을 보면 한국사회에서는 일반화되지 않은 권력 견제 장치 강화에 대한 방법을 구체적으로 기술한다.
GPT-3의 데이터셋에 따라 나라별로 제도등을 확인하면서 제도에 대한 개선을 하는 연구용으로 활용이 가능하다고 할 수 있다. 즉 우리는 한국사회에 도움이 되는 정책 연구 시에 영미권 국가별 학습된 많은 데이터를 통해 영미권국가의 선진 제도에 대해 힌트를 얻는데 도움이 될 수 있다.
따라서 GPT-3와 같은 인공지능 사용이 주는 큰 의미는 한국사회 정보 엘리트 권력에 위협이 될 수 있다.
과거에는 특정 학자, 교수 및 전문가들의 경우 정보를 모호하게 포장하고 대중들에게는 권위를 내세우며 본질을 속여오며 특정 이해집단에 기생하며 먹고살던 정보엘리트 권력에게는 큰 위협이 될 수 있다.
이제 전문적 지식에 대한 대중들의 접근방식이 좋아졌고 더 이상 한국사회 왜곡된 전문가들에게 의존하지 않아도 되며, 대중들이 스스로 질문하고 찾아내는 것이 용이해졌기에 한국사회 기득권을 지켜주던 교수등 전문가들 권위는 무너질 수밖에 없다. 왜냐하면 한국사회 교수집단은 이해관계에 얽혀 논문 검증도 못하는 교수들이 많다. 이런 교수들은 절대로 인공지능이 만든 논문을 검증할 실력 수준이 될수 없다.
비록 기존에도 인터넷에 있거나 논문을 찾아보면 알 수 있는 정보일지 모르지만, 그동안 대중들에게는 접근성이 쉽지 않았던 것이 사실이다. 그러나 GPT-3는 대중의 시점에서 정보 접근성을 높여준다.
또한, 앞으로는 학위논문에 대해서도 어떤 상황이 벌어질지 궁금해진다. 인공지능이 만든 논문을 검증한다고 하지만, 어느 정도까지 가능할지 미지수다. 결국 미래사회는 점점 더 학위가 아닌 궁극적으로 결과물을 내는 본질에 충실해야 하는 시대가 되어가는지 모른다. 어떤 면에서 인공지능과 협력하는 방법을 찾는 것이 중요할지 모른다.
뉴욕타임즈 기사에도 최근 학교에서 숙제를
학교에서 ChatGPT를 금지하지 마세요. 그것으로 가르치십시오.
케빈 루즈 | The New York Times
“AI 생성 글의 윤리에 대한 적법한 질문과 ChatGPT가 제공하는 답변이 정확한지에 대한 우려가 있습니다. (종종 그렇지 않습니다.) 그리고 저는 AI가 생성한 숙제를 혼합에 추가하지 않고도 걱정할 만큼 충분히 있다고 느끼는 교사들에게 공감합니다. 하지만 지난 몇 주 동안 수십 명의 교육자들과 이야기를 나눈 후 저는 교실에서 ChatGPT를 금지하는 것이 잘못된 조치라는 견해를 갖게 되었습니다.”
GPT-3가 공개가 된 후 점점 더 많은 사람들이 GPT를 이용하면서 문제점도 많이 발견되었다. OpenAI는 이를 해결하기 위해 피드백을 기반으로 후속 연구를 진행하였고, 최근에 API의 기본 모델을 새 모델인 InstructGPT로 업데이트했다는 발표를 하고 논문도 공개했다. 다음은 Open AI 누리집에 나타난 문제점에 대한 번역자료로서 편향성을 줄이기 위해 인간이 개입하는 모델에 대한 내용이다.
OpenAI에서는 기존 GPT의 3가지 큰 문제점에 대한 정의 < 번역자료 >
1. Untruthful (거짓)
2. Toxic (해로움)
3. Not helpful (도움이 안 됨)
*GPT가 생성하는 모든 텍스트가 이렇다는 것이 아니라 잘못된 경우에 국한된 특징이다.
논문에서는 “models aren’t aligned with their users”, 즉 유저가 원하는 방식으로 행동하지 않는 것이 가장 큰 문제라고 보았다. 다음은 관련 논문의 일부 내용으로 정보의 편향성에 대해 피드백 같은 개입을 통해 해악성을 감소시킨다고 한다. 이것을 InstructGPT라는 모델에 대한 이야기이다.
사람의 피드백으로 지침을 따르도록 언어 모델 훈련 논문 참여자
Long Ouyang , Jeff Wu , Xu Jiang , Diogo Almeida , Carroll L. Wainwright , Pamela Mishkin , Chong Zhang , Sandhini Agarwal , Katarina Slama , Alex Ray , John Schulman , Jacob Hilton , Fraser Kelton , Luke Miller , Maddie siemens , Amanda Askell , 피터 웰린더 , 폴 크리스티아노 , 얀 레이케 , 라이언 로우
GPT-3 언어 모델을 더 크게 만든다고 해서 본질적으로 사용자 의도를 더 잘 따르는 것은 아닙니다. 예를 들어 대규모 언어 모델은 진실하지 않고 편향성 있고 해악이 있어 대부분 사용자에게 도움이 되지 않는 출력을 생성할 수 있습니다.
즉, 이러한 모델은 사용자와 일치하지 않습니다.
이 백서에서는 사람의 피드백을 통해 미세 조정하여 다양한 작업에 대한 사용자 의도에 맞게 언어 모델을 정렬하는 방법을 보여줍니다. OpenAI API를 통해 제출된 일련의 라벨러 작성 프롬프트 및 프롬프트로 시작하여 지도 학습을 사용하여 GPT-3을 미세 조정하는 데 사용하는 원하는 모델 동작의 라벨러 데모 데이터 세트를 수집합니다.
그런 다음 모델 출력의 순위 데이터 세트를 수집하여 사람의 피드백에서 강화 학습을 사용하여 이 지도 모델을 추가로 미세 조정하는 데 사용합니다. 결과 모델을 InstructGPT라고 합니다. 프롬프트 분포에 대한 사람의 평가에서 1.3B 매개변수 InstructGPT 모델의 출력은 매개변수가 100배 적음에도 불구하고 175B GPT-3의 출력보다 선호됩니다.
또한 InstructGPT 모델은 공개 NLP 데이터 세트에서 성능 회귀를 최소화하면서 신뢰성이 향상되고 유해한 출력 생성이 감소함을 보여줍니다. InstructGPT는 여전히 간단한 실수를 범하지만, 우리의 결과는 사람의 피드백을 통한 미세 조정이 언어 모델을 사람의 의도에 맞추는 유망한 방향임을 보여줍니다.
InstructGPT 모델은 공개 NLP 데이터 세트에서 성능 저하를 최소화하면서 신뢰성이 향상되고 해악성 있는 정보 출력 생성이 감소함을 보여줍니다. InstructGPT는 여전히 간단한 실수를 범하지만, 우리의 결과는 사람의 피드백을 통한 미세 조정이 언어 모델을 사람의 의도에 맞추는 유망한 방향임을 보여줍니다.
InstructGPT 모델은 공개 NLP 데이터 세트에서 성능 저하를 최소화하면서 신뢰성이 향상되고 해악성 정보 출력 생성이 감소함을 보여줍니다. InstructGPT는 여전히 간단한 실수를 범하지만, 우리의 결과는 사람의 피드백을 통한 미세 조정이 언어 모델을 사람의 의도에 맞추는 유망한 방향임을 보여줍니다.
인공지능을 통한 의사 결정지원에서 가장 큰 위협은 우리는 이렇게 만들어지는 지식에 대해 점점 더 검증하기 어려워질 수 있다는 부분이다. 논리적 체계로서 지식을 쌓아놓은 바탕에서 정책이 나와야 검증가능 하지만 인공지능은 우리가 이해할 수 없는 판단을 할 수 있는 위험성이 있고 인간은 판단하지 않고 습관적으로 따르게 될 위협이 있다. 이런 이유로 검증가능하고 설명가능한 인공지능에 대한 연구가 중요하다.
그러나 한편으로는 이러한 검증가능성과 설명가능성이란 인간은 철학이라는 이름으로 정의한 부분이라고 할 수 있다. 우리가 어떤 판단을 할 때 철학적 기반을 가지고 증명을 하거나 논리를 전개해 나가듯 인공지능 역시 이러한 철학적 구조를 인간에게 공유하는 구조가 설명가능한 인공지능 혹은 검증가능한 인공지능이라는 개념이 될 것이다.
그리고, 또는 반대로 우리의 검증가능한 철학적 구조를 통한 논리기반 주장으로 나온 여러 학술논문과 기사, 판결문 등 여러매체에서 만든 정보의 품질에 따라 인공지능의 편향성이 좌우될 수 있다.
따라서, 인공지능의 편향성을 감시하기 위해서는 인공지능 학습에 대한 검증을 위한 구조와 검증을 하는 사람들, 인공지능 개입에 관여하는 사람들에 대한 정의가 필요하다. 왜냐하면 여기에 누군가의 의도가 들어가면 안 되기 때문이다. 따라서 검증과정에서도 합의의 과정이 필요한것이다.
컴퓨터 용어로 쓰레기가 들어가면 쓰레기가 나온다(garbage in garbage out)는 말이 있다.
인공지능의 판단을 위해서 학습할 기초적 데이터는 결국 인간이 우리 스스로 얼마나 깊은 토론과 논쟁을 거치면서 이루어진 자료들로 학습했는지가 중요하다.
무엇보다 중요한 것은 인간은 정보를 쉽게 접근하는 목적으로 인공지능을 사용하는 것은 바람직하지만 인공지능에게 모든 판단을 맡기는 것은 바람직하지 않다. 그리고 우리가 만들어가는 인공지능이 우리를 도와주는 좋은 인공지능이 되기 위해서는 무엇보다 인간은 스스로 판단하고 토론하며 좋은 지식자산을 만들어야 한다.
우리가 토론하며 다듬어 만들어진 좋은 지식자산으로 학습한 인공지능이 편향성 없이 우리를 도와 주는 인공지능이 될것이기 때문이다.