brunch

매거진 잡학다식

라이킷 3 댓글 1

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 박 스테파노 Feb 06. 2023

ChatGPT는 우문현답을 주지 않는다

문과지만 기술합니다.

"빅데이터"가 점 하나 찍고 "AI"가 되다

IBM에서의 마지막 커리어는 소프트웨어 비즈니스 그룹에서 데이터 거버넌스(Data Governance)의 사업개발담당(BDE)으로서의 임무였다. 그 후에 모바일 혁신이 시작되면서 모바일 퍼스트(MobileFirst) 신규 론칭을 담당하긴 하였지만, 아직도 ICT관련해서는 기술적으로나 비즈니스적으로 "데이터"와 관련해서 인사이트가 나름 확립되었고, 관심이 떠나지 않게 되었다.

나름 빅데이터(Big Data)의 1세대로서 기업, 공공, 학교에서 많은 제안과 검토를 함께 하던 그 시작의 시절이 이따금 그립기도 하다. 그때 적어놓은 노트를 들추다 보니, 기술의 유용성은 진일보하였지만, 역시 핵심으로의 접근은 아직 요원함이 있어 보인다. 특히 오픈 AI의 바람으로 "ChatGPT"같은 데이터 분석의 마지막 프레젠테이션 영역에만 쏠리는 관심도 걱정의 일부가 된다.

AI가 그럴듯한 아웃풋을 내는 것이 마치 마술상자라도 되는 듯, 다들 호들갑이다. 그런데, 이것이 한참 전, 한 세대 이전의 핵심 기술에 기반한 것이라고 하면 다들 믿지를 않는다. ChatGPT는 무슨 뜻인지 알고 싶지도 않을 것이다. Chat은 "대화"이고 GPT는 Generative Pre-trained Transformer이다. 해석이 거시기하다. 나름 해본다면 "사전 학습된 생성 변환기"이다. 전체를 붙여 보면 "사전 학습된 대화 생성 변환 장치"를 이야기한다. 이 단어에서 "대화"에만 꽂힌 것이 현실이다. "사전 학습된 변환 장치"라는 것이 핵시인데 말이다.

출처=디지털투데이

빅데이터의 특성을 흔히 "3+1 V's"라고 표현한다. 바로 Volume(양적 크기), Velocity(생성과 처리의 속도), Variety(수집 데이터의 다양성) 그리고 Veracity(시의 적절성)이다.

크기와 속도 그리고 다양성에 대한 이해는 쉽고 설명가능한데, Veracity를 무어라 설명을 해야 할까? 진정성? 정확성? 신뢰성? 아마도 '적확한'이 가장 비슷한 이야기인데, 그 설명 또한 쉽지 않다. 아마도 "시의 적절성"이 가장 가까운 풀이가 아닌가 싶다. 그래서 아침부터 이런저런 생각을 하다가, 수학에서 가장 기본적인 변용의 장치, 그리고 해석의 장치 "함수(函數)"에 대해 생각해 보았다. 아마도 기본 함수의 기본적인 원칙인 '일대일대응의 원칙'이 빅데이터의 veracity를 설명할 수 있는 좋은 개념이 되지 않을까 싶다.

"함수", 즉 Function의 이해가 필요해

함수(函數)란?
"변수 x와 y 사이에 x의 값이 정해지면 따라서 y값이 정해진다는 관계가 있을 때, y는 x의 함수라고 한다."
[출처] 함수 | 두산백과

함수는 아래 1,2번 그림과 같이 어떠한 값이 무언가 작용(function)을 하는 함(函) 안을 통과하면 새로운 값으로 나온다는 개념이다. 초등학교적부터 일본의 관수개념으로 많이 접해 보았다. 보다 고차원적인 함수나 초월적 함수의 개념에서는 그 의미가 복잡해지겠지만, 기본적으로 함수는 1:1 대응을 원칙으로 한다. 쉽게 설명하자면, '사다리 타기' 게임과 같다고 할 수 있다. 결국 사다리의 출발점에 따라 그 결과의 값은 고유하다는 것이다.. 물론 같은 값을 가진 시작점이 있을 수 있으나,, 그 값은 결국 상수로서는 같지만 '고유하다는 것'이다.

함수의 개념 (그림 1,2=Jultak.net)

결국 수많은 정보와 데이터가 흘러 다니는 빅데이터 환경에서 최초 요청자가 요구하는 고유한 값은 '정확하고 적요하게' 1:1로 매칭되어 고유한 값을 보여 주어야 한다는 것이다. 그래서 함수를 때로는 사상(寫像), 즉 맵핑(Mapping)이라고도 하는 것을 보면,, 빅데이터 환경에서의 맵핑(Mapping)과 매우 맞닿아 있음을 알 수 있다. 요즘 유행하는 "데이터 라벨링"도 맵핑을 위한 사전 작업이라는 것을 생각하면 그 중요 개념에 대한 이해가 쉬워진다.

결국 빅데이터 환경과 인프라에서 주요한 것은 'Function'의 기능을 하는 함수의 통이고, 변용의 장치이며, 값을 도출하는 매핑의 엔진일 것이다. 3번 그림의 가운데 영역의 중요성을 간과하면 안 된다는 것이다. 지금 세상이 열광하는 "ChatGPT"의 경우 이 "함수통"이 잘 보이지 않는다. 예측컨대 데이터 인지 시스템이라는 Data Cognition System을 중심에 두고 다양한 형태의 데이터를 대량 수집, 포집한 후 반복적 인지학습을 통해 아웃풋을 내는 프로세스를 거치는 듯하다. 딱 20년 전의 데이터 분석 시스템(Data Analytic System)의 고도화 버전인 것이다.

Information supply chain (그림 3 =IBM)

그러나, 요즘 소위 '빅데이터', '인공지능'이라고 말하는 전문가 집단이나 연구세력, 혹은 일부 빅마우스들을 보면,, 그 f(x)에 대한 function에 대한 기본적 풀이 능력은 개뿔도 없으면서 그저 앞단의 X값과 최후의 Y값의 매핑이라는 개념적이고 '혹'하기 쉬운 마술 같은 이야기만 늘어놓기 일쑤이다. 그러나 한때 ChatGPT는 단순 연산도 틀리고, 수학적 정답에 대하여 사용자가 아니라고 집요하게 우기면 오답으로 처리하는 오류가 빈번하였다. 결국 AI 같은 새로운 데이터 운용 시스템을 올바르고 "적확하게" 사용하려면 사용자가 어느 수준 이상의 인사이트와 막락을 인지하고 학습되어 있어야 하는 것이다. 우문엔 우답이, 현문엔 현답이 나오는 것이 인지상정이자 기계학습의 냉정한 현실이기 때문이다.

ChatGPT의 한계 (출처=클리앙)

지금 필요한 것은 제대로 질문하는 능력

생각보다 IT환경은 인문학적이고 사회과학적인 면을 많이 담고 있다. 하지만, 그 결과를 귀납하고 연역하는 증명의 방법은 기초과학에 기인한다. 특히 수학의 알고리즘과 기초적인 함수적 고찰이 우선적이라는 것이다. 빅데이터 환경에서 사회과학자들과 행정가들, 혹은 사용자 사용환경(User Presentation) 단의 표면적인 기술을 제공하는 업체들이 난립하고 제대로 된 인프라를 제공하지 않음은 매우 우려되는 현실이라고 할 수 있다.

ChatGPT가 애플과 구글의 혁신을 능가하는 기술이 될 것이라고들 한다. 그러나, 그 자체로 혁신을 이끌 기술 상품이 되기에는 한계가 있다. 그저 구글링을 대신 할 포지셔닝이라면 의미가 축소될 것이고, 모든 데이터 서비스를 총괄하는 주체가 된다면 규제와 관리에 대한 무수한 도전들이 남아 있을 것이다. 그런데, 생각보다 이 기술은 모양새의 세련됨의 차이가 있을지 몰라도 이미 "기성화"된 것이다. 각종 대고객 비대면 대응 시스템의 온갖 "채팅봇"이 그 윈형이 된다. 기능의 고도화를 위해 이식될 가능성이 없지 않지만, 딱 거기까지일지도 모른다.

최근 국내외에서는 AI의 일상화로 제기하는 여러 인문학적, 사회과학적 쟁점을 연구하는 활동이 제법 된다. 전통적으로 인간만이 할 수 있었던 일자리 영역에서 AI 활용으로 대량 실업이 야기된다는 종말론적 두려움이 존재한다. 반대로 인간이 비루한 노동으로부터 해방된다는 유토피아적 희망도 공존한다. 꼭 일자리뿐만 아니다. 예술이나 스포츠 등 창작과 유희의 영역에서도 마찬가지의 고민이 엉겨 있다.

사진=GovernmentCIO magazine

이런 고민의 끝에 '윤리(ethics)'라는 것에 다다른다. AI에 대한 이런 다양한 쟁점을 통합적으로 다루는 분야를 최근 국제 논의 체계에서는 윤리라고 규정한다. OECD에서도 AI 윤리 원칙(AI ethical principles)이라는 용어를 정립했다. 유네스코도 AI 윤리라는 용어를 사용한다.

전기전자공학자 단체인 IEEE는 AI라는 단어를 배제하자고 주장하기도 한다. '인공 지능'처럼 의인화된 로봇이 연상되는 것을 방지하자는 것이다. 그래서 '자동 지능 시스템 (A/IS- Autonomous Intelligent System)이라는 단어를 선호한다. 그저 용어에만 그치는 것이 아니다. IEEE는 A/IS의 설계 단계에서부터 ‘윤리원칙에 일치하는 설계 (Ethically Aligned Design)' 개념을 강조한다. 그와 관련된 국제 표준 마련을 시도하고 있다.

국내에서는 'AI 윤리'라는 용어 자체가 낯설다. 어색한 것은 물론 불편해하기 까지 한다. 동양 윤리의 의미가 서양의 에식(Ethics)과 차이가 있다. 특히 과학은 윤리 가치와 무관하다는 생각이 짙다. 자료를 조작하거나 다른 사람 연구를 표절하는 등 연구부정행위를 저지르는 것은 과학의 영역이 아니라 사회규범과 법제도의 문제로 보기 마련이다. 과학이나 기술 자체는 윤리적 측면에서 가치중립적이라는 생각이 강하게 작용한다.

일단 사람들은 윤리의 대상이 AI라는 기술이 아니라, 기술을 적용하거나 사용하는 사람들 개인의 행동이라 여긴다. 이런 것을 이유로 AI 윤리에 대한 논의 자체가 기술 반전의 발목을 잡는 비생산적 논의라고 규정한다. 특히 만나본 정부 관료들이 대부분 이러했다. 과학 기술 진흥과 발전의 효율성을 저해한다는 이유에서 그러하다고 했다. 일부는 이미 궤도에 올라 시장을 선점한 선진국들의 몽니, 즉 사다리 걷어 차기라고 이야기하기도 한다.

AI는 "인지"할 뿐이지 "각성"하지 않는다.

AI의 실효성 판단을 위해서는 한 가지 편향된 통념에서 벗어나야 한다. '인공지능'이라는 단어 때문에 AI가 지각을 한다는 통념. AI는 기계이다. 자신의 활동과 연산 행위가 윤리작인지 아닌지 스스로 알 수가 없다. 차별적 언어를 쓴다고 해서 AI가 차별적 생각을 하는 것이 아니다. 산출하는 문장, 결과물을 '이해'한다고 할 수 없다. 그저 AI는 학습된 프로세스를 통해 '산출물'을 낼 뿐이다. 다시 말해 실효의 문제는 AI 자체가 아니라 '산출물의 실효성'이 된다. 그러나 그 "실효"에 매몰되다 보면 인간 사회의 중요 가치를 놓치게 된다. 바로 "공정"과 "정의"같은 것들이다.

현재까지 등장한 AI는 공정이란 단어의 의미도 이해하지 못한다. 그저 "사전적 풀이"를 할 뿐이지 "가치판단"을 하지는 않는다. 그러기에 공정과 관련된 복잡한 의미론적, 사회적, 윤리적 관계를 따지는 ‘의식'과 '마음’도 가질 수 없다. 그러므로 AI가 사람보다 더 혹은 덜 공정한가라는 질문은 산출하는 결과물이 사람이 보기에 동일한 일을 수행하는 사람이 산출한 결과물보다 공정한지의 문제가 되는 것이다. 그전에 개입되는 불공정의 행위는 모두 인간의 '의도'가 되니까.

AI는 지난 인간의 활동 패턴을 인식한다. 그렇다면 산출하는 결과물은 지금 세상의 모습이 반영된다. 그렇다면 지금 우리의 세상이 불공정 투성이라면 애초에 AI에게 공정의 결과물을 기대하는 것은 논리 모순이 된다. 또한 '도덕'에 집중해서 챗봇을 만든다고 치자. 웃자고 하는 농담에 계속 도덕 선생님 말씀을 시전 하면, 이 챗봇의 활용되는 어찌 되는 것일까? 결국 돌고 돌아 인간의 몫이 된다. 이와 같이 AI의 공정성의 담보는 제작 목적에 따라 다르다. 그 산출의 공정성을 배재할 AI가 분명 존재할 수 있다.

질문을 다시 해 본다. AI로 하는 창작, 산출물과 과제물은 '최적'일까? 판단의 지점이 잘못되었다. 우선 그 창작자의 의도가 중요하다. 창작 역량의 부족이나 결핍을 꼼수로 하는 것은 AI의 문제가 아니다. 시도 자체가 비윤리적이고 불법적인 것이다. 표절, 도용, 무단 복제가 그러하다. 손으로 하든 기계로 하든 똑같다. 그렇다면 그 범주를 떠나 '산출물'이 최적한가에 대한 판단은 필요하다. 이 역시 인간의 평가 영역이다.

애초에 AI의 사용을 허용, 공개하거나, 아니면 적극적으로 기여도가 제한된 AI를 설계하거나 기준에 부합하는 제품, 서비스 사용을 제한 강제할 수도 있다. 그것에 부합하는 기준이라면 산출물은 최선이고 최적이라고 인지하는 문화적 공감대의 노력이 더해지면 된다. 결국 인간의 몫이다.

사진=Datatron

한국의 IT시장은 경쟁적 측면에서 매우 고도화되고 심화되어 있다. 하지만, 냉정하게 평가해 본다면, 그 근본적 기술과 인프라적 향상도에서는 아직 선진국이라 하기 힘들다. 이는 민간기업만이 아니라 지자체와 중앙정부의 심각한 고찰과 대안이 필요한 대목이다.

정부가 다시 "기업"을 강조하며 Open AI를 입에 올렸다. 무언가 돈을 쓸 모양인데, "장소"나 "센터" 같은 것을 만드는데 힘쓰지 말고 제발 "사람"에게 힘쓰기를 바란다. Function의 가장 중요한 부분을 책임지는 "수학자"와 "사회과학자"들을 육성하고 지원하는 것이 그 시작이 될 것이다.