사회적 동물인 우리 인간은 가족, 친구, 동료 등 다른 사람과의 연결을 항상 추구해 왔습니다. 이런 연결의 핵심은 생각과 감정을 공유하는 것이며, 이는 주로 언어를 통해 이루어집니다. 그리고 연결을 위한 언어도 상황에 따라 다양해집니다. 예를 들어 외국인과의 소통에서는 해당 국가의 언어를 사용해야 하고, 프로젝트의 프로그래밍에서는 해당 프로그래밍 언어를 사용하며, 해당 전문 분야에 따라 그에 맞는 전문 언어를 사용합니다.
저 또한 언어를 사용하면서 살아왔지만, 언어에 대하여 막연히 생각해 온 부분이 없지 않습니다. 그런데 최근 인공지능의 자연어처리에 대한 논의가 활발해지면서 언어에 대하여 다시금 생각하게 되었습니다.
대학 시절, 한 교수님이 “수학도 언어다”라고 말씀하신 것을 기억하고 있습니다. 우리는 수학을 이용하여 해당 개념에 대하여 더욱 간결하고 명확하게 분야를 넘어 전 세계 사람과 의사소통을 하고 있기에 타당한 말씀이었습니다.
그러나, 회계나 금융, 계리 등 제 분야의 경험을 통해 생각해 보니 언어의 중요성을 상아탑이 아닌 실제 업무를 통한 삶 속에서 더욱 실감한 것 같습니다. 어떤 조직에서든 내외부의 각종 이해관계자와 교류를 함에 있어 우리는 다양한 언어를 구사하면 살고 있습니다. 그런데 이 과정에서 오해와 왜곡으로 인하여 문제를 일으키기도 하며 이를 해결하기 위하여 매일 노력하게 됩니다.
올해 ChatGPT와 같은 생성형 인공지능(generative artificial intelligence)의 본격 등장은 IT산업 산업뿐만 아니라 모든 기업 그리고 일반인들에게 커다란 변화의 바람을 불어넣었습니다. 이로 인해 인간 사이의 연결뿐만 아니라 인간과 기계 그리고 기계와 기계 사이의 연결에 대하여 여러 가지 생각을 하게 되었습니다. 이에 이 글을 통해 언어학자는 아니지만 ‘언어’와 프로젝트 등 업무에 있어 ‘실질’에 대한 제 생각을 공유해 보고자 합니다.
ChatGPT의 출현과 언어장벽 제거
ChatGPT도 하나의 생성형 인공지능 모델일 뿐이고 미래에 다른 더 우수한 모델이 나올 수도 있습니다. 그러나 현재는 일반 대중이 인공지능에 대하여 폭발적인 관심을 갖게 된 것에는 이 ChatGPT의 역할이 컸다고 생각합니다. (이 글에서는 현재의 생성형 인공지능을 ChatGPT라고 편의상 대표하여 표현하겠습니다.)
지난해까지만 해도 인공지능은 주로 연구자나 관련 전문가들만의 영역이었지만 이제는 ChatGPT와 같은 생성형 인공지능을 통해 남녀노소 누구나 쉽게 접근하고 사용할 수 있게 되었습니다. 마치 TV를 즐기는 데 있어 TV가 어떻게 만들어지고 어떻게 작동되는지 몰라도 리모컨만 가지면 쉽게 원하는 프로그램을 즐길 수 있는 것처럼, ChatGPT도 프로그램언어나 머신러닝, 인공지능이라는 지식을 몰라도 남녀노소 일반인이 일상에서 사용하는 언어(즉, 자연어)를 통하여 쉽게 사용할 수 있게 된 것입니다. ChatGPT를 통해 인공지능과 일반 대중 사이의 거리가 줄어들었고, 언어의 장벽이 사라지는 경험을 일반 대중이 하게 되었습니다.
이것이 인공지능이 일반 대중에게 다가가는 데 있어 중대한 전환점이며 중요한 함의를 가진다고 생각합니다. 과거 인터넷의 등장이 여러 변화를 가져왔고 그중에서 정보에 대한 접근에 있어 더욱 값싼 비용 또는 무료로 더욱 빨리 더욱 많은 정보를 일반 대중이 접근하게 해 주었고 이를 통해 정보 접근의 민주화를 가져왔습니다. 이와 유사하게 인공지능의 발전과 ChatGPT의 등장은 인터넷 혁명과 동등하거나 그 이상의 변화를 가져올 수 있다고 생각합니다.
최근 유발 하라리 교수가 한 세미나에서 말했듯 지구 40억 년 역사상 우리 인류는 인간이 아닌 다른 존재인 inorganic life를 만나게 되었고 그것이 인공지능입니다. ChatGPT와 같은 인공지능의 출현으로 일반인이 알기 어려운 프로그래밍 언어나 관련 전문 도메인 지식이 없어도 자신들이 사용하는 언어(자연어)를 통해 과거에 상상으로만 생각하던 인간이 아닌 다른 존재인 컴퓨터와의 대화가 수월해지게 되었습니다. 이것이 우리 앞에 펼쳐지기 시작한 엄청난 변화의 물결입니다.
자연언어(natural language)와 형식언어(formal language)
ChatGPT와의 대화를 일상의 자연어를 이용해 할 수 있게 된 현재, 언어에 대하여 생각해 보았습니다. 저를 포함하여 일반인들은 최근에 ‘자연어’ 또는 ‘언어모델’이라는 말을 ChatGPT와 같은 생성형 인공지능의 인기로 많이 듣게 되었습니다. 그리고 이러한 자연언어(natural language)라는 개념에 대응하여 생각해 볼 수 있는 또 다른 언어 유형은 형식언어(formal language)입니다.
자연언어란, 인간이 의식적인 계획이나 의도 없이 사용과 반복을 통해 자연스럽게 진화한 모든 언어를 말합니다. 이에는 우리말인 한글뿐만 아니라 영어, 스페인어, 중국어 등 우리가 일상에서 사용하는 언어 대부분이 포함됩니다. 자연언어는 말하기, 쓰기 등 다양한 형태로 표현되며, 단순히 글자 그대로의 의미를 전달하는 것이 아니라 문화적 맥락, 의도, 감정, 그리고 기타 미묘한 단서들까지 포함하고 있습니다. 이러한 자연언어는 같은 문장이라도 문맥에 따라 여러 가지 다른 의미를 가질 수 있고(모호성), 같은 생각이나 아이디어를 다양한 방식으로 표현할 수 있으며(유연성, 예를 들어, "그는 행복하다"라는 생각을 "그는 마치 구름 위를 걷는 듯한 기분이다"라는 문장으로 표현), 문장의 의미는 종종 그 문장이 사용되는 문맥에 따라 달라질 수 있는(문맥 의존성) 특징이 있습니다.
반면에 형식언어는 수학이나 컴퓨터 프로그래밍, 논리 등 특정 목적을 위해 인간이 직접 설계한 언어입니다. 이런 언어의 구조와 규칙은 명확하게 정의되어 있으며, Python, C++, Java 등의 프로그래밍 언어와 수학적 표기법 등이 이에 해당합니다. 그리고 형식언어는 자연언어에 비하여 각 문장은 하나의 명확한 의미로 쓰이게 되고(정확성), 언어의 규칙은 변하지 않으며(일관성), 언어에는 잘 정의된 규칙과 기호 집합이 있고 의도된 영역 내에서 모든 개념을 표현할 수 있는(완전성) 특징과 함께 형식언어의 의미는 문맥에 의존하지 않습니다(문맥 비의존성).
이처럼 자연언어와 형식언어에는 여러 차이점이 있지만 두 언어 모두 의사소통을 위해 사용되고, 두 언어 모두 구문(단어와 기호를 배열하는 방법)과 의미(단어와 기호가 가진 의미)에 대한 규칙을 가지고 있다는 등의 공통점을 가지고 있습니다.
인공지능의 발전으로 일반인들도 과거에 비하여 자연어 또는 언어에 대한 관심이 높아졌지만, 실제 IT산업뿐만 아니라 모든 기업 활동에 있어서 우리는 자연어와 형식언어를 모두 사용하고 있으며 상황에 따라 그리고 해당 프로젝트나 업무에 따라 형식언어도 여러 가지가 중첩되어 사용되고 있습니다. 예를 들어 금융 분야에서 2023년 적용이 시작된 국제회계기준인 IFRS17(보험계약) 및 신지급여력제도 (K-ICS)의 적용을 위하여 많은 관련된 IT 기업과 회계법인 등 컨설팅업체들이 수년간에 걸쳐 프로젝트를 진행했고 이 과정에서 각종 프로그래밍 언어뿐만 아니라 일상적인 경영 용어 외에도 복잡한 국제회계기준이나 신지급여력기준 관련 다양한 언어가 중첩적으로 사용되었습니다.
기존의 환경에서도 자연언어와 형식언어의 적절한 사용이 중요했지만 새로운 존재인 인공지능과의 대화라는 새로운 패러다임이 추가되는 변화하는 환경에서 자연언어와 형식언어를 보다 더 잘 이해하고 활용해야 하는 중요성이 계속 커지고 있습니다. 또한, 새로운 패러다임 속에서는 인간과 인간, 인간과 기계, 기계와 기계 사이의 연결로 연결의 범위가 더 확대되고 더 복잡하게 될 것입니다. 따라서, IT산업 등 모든 분야에서 혁신과 발전을 주도하기 위해 두 언어의 특징과 사용 방법을 잘 이해하고 활용해야 합니다.
ChatGPT 시대에 재고해 본 ‘실질(substance)’
IT산업이든 법률, 회계, 경영컨설팅이든 다루는 서비스 상품의 종류는 다소 차이가 있으나 무형의 지식을 해당 분야의 도메인 특성에 맞게 서비스하는 측면에서는 동일합니다. 그리고 각자 사용하는 언어는 다른 부분이 있을 수 있으나 자연어가 기본이 되고 각자의 언어(일종의 형식언어)를 통하여 업무를 관리하고 수행합니다.
그런데 이러한 언어를 사용하는 경우 자연언어와 해당 도메인에 특화된 형식언어를 모두 잘 쓰는 것도 중요하지만 그 이전에 더 중요한 것은 ‘실질’에 대한 깊은 이해입니다. 실질을 제대로 분석하고 이해하고 있다고 생각하는 경우가 많을지 모르나, 실제 업무에서는 그렇지 않은 경우가 빈번하게 발생합니다.
프로젝트를 진행하거나 문제를 해결하는 과정에서 해당 문제의 ‘실질’을 제대로 파악하는 것은 필수적입니다. 예를 들어, IT 부문에서는 분석 및 설계라는 과정을 통하여, 법률, 회계, 경영컨설팅에서는 해당 문제나 규정 등에 대한 현황 파악 또는 분석(As-Is 분석)이라는 과정을 통하여 ‘실질’을 파악하게 됩니다. 해당 목적이나 문제에 대한 ‘실질’을 정확히 파악하지 못하면 이후의 진단 및 처리 과정에서 오류를 범할 가능성이 커집니다. 따라서, 회계나 경영에서는 ‘실질’(substance)이 ‘형식(form)’보다 중요하다고 합니다.
기업의 경영활동에서는 각종 정보를 통해 의사결정이 이루어지는데 이 과정에서 법률이나 회계 등 경영의사결정을 위한 정보 생성은 직간접적으로 각종의 IT시스템과 연계되어 있습니다. 그런데 ‘실질’에 기반한 분석이 되지 않고 어떤 이유에 의하여 ‘실질’과 다른 ‘형식’에 따른 분석이 이루어지는 경우 예를 들어 A라는 거래가 B라는 거래로 잘못 해석되거나 정보가 왜곡되어 생성될 수 있습니다. 이에 따라 회사의 시스템이나 프로세스가 만들어지는 경우 시스템은 구축되었다고는 하지만 문제가 발생할 수 있습니다. 즉, ‘garbage in, garbage out’이라는 현상이 발생합니다. 최근 보험산업에서 IFRS17이라는 새로운 기준서를 적용하였고 수년간 많은 자원을 들여 시스템을 구축했지만, 최근 매스컴에서 나오는 회계처리에 대한 우려도 결국은 실질이 제대로 반영되지 않은 경우라고도 볼 수 있습니다.
IT산업도 그 대상이 다를 수 있지만 아무리 프로그래밍과 같은 형식언어를 정확히 사용한다고 해도 일단은 해당 대상에 대한 ‘실질’ 파악이 중요합니다. 기존에 여러 번 수행하고 충분히 검증된 경험이 있는 프로젝트가 아닌 경우에는 충분한 시간을 가지고 ‘실질’에 대하여 분석하고 설계해야 합니다. 그런데 실제에 있어서는 예산 제약, 기존의 관행에 따른 프로젝트 진행, IT 통합 발주에 따른 상세 과제에 대한 이해 부족 등 각종 문제로 인하여 이러한 ‘실질’에 대한 파악과 분석이 제대로 이루어지지 못하고 진행되어 결국은 중간에 잦은 과업 변경, 일정 지연, 수익성 악화, 추가 유지보수 등의 문제로 연결되고 결국은 본의 아니게 열심히 했음에도 불구하고 평판에 악영향까지 받는 경우가 많이 있습니다. 더욱이 국내에서 해외 제도 등을 도입하여 시스템을 새로이 구축하는 경우 그러한 현상이 발생할 가능성이 더욱 높습니다. 앞서 언급한 보험산업에서 IFRS17이라는 새로운 기준서를 도입하기 위하여 IT 기업과 컨설팅 기업이 해당 프로젝트를 수행하는 과정에서 많은 경우 기존의 IT산업의 고질적인 문제가 유사하게 나타났고 그 원인 중 중요한 한 원인은 ‘실질’을 경시했기 때문이라고 생각합니다.
따라서, IT산업이든 관련 컨설팅이든 프로젝트를 발주한 기업의 입장에서든 올바른 언어의 형식적 사용 이전에 ‘실질’에 대한 충분하고 올바른 전문가적인 분석이 선행되어야 합니다. 그리고 그 ‘실질’은 각 전문가들의 용기와 언어를 통해 제대로 분석되고 표현되어야 하며 해당 고객들도 그 ‘실질’을 직면할 의지와 태도가 있어야 합니다.
또한, ‘실질’에 의한 분석은 인공지능 시대에 있어 더욱 충실해야 한다고 생각합니다. 인공지능이나 머신러닝에서 중요한 것 중의 하나는 기계인 컴퓨터가 대상을 정확히 인식하기 위해 ‘특성(feature)’을 제대로 파악하여 이를 제대로 ‘표현(representation)’해 주는 것입니다. 이를 위해 대화의 상대인 컴퓨터가 ‘실질’을 제대로 이해하게 하도록 우리 인간은 ‘특성공학’이라는 연구까지 하면서 고민하고 있습니다. 그런데 만일 인간과의 ‘실질’에 기반한 의사소통도 잘 안되면서 기계와는 소통을 잘한다고 한다면 왠지 부자연스럽다고 생각되는 것은 저만의 생각일까요.
이상으로 ChatGPT와 같은 언어모델의 등장을 계기로 ‘언어’에 대하여 그리고 자연언어와 형식언어에 다시 한번 생각해 보았습니다. 이를 통해 과거 인간 사이에 의사소통을 전제로 한 언어 사용을 넘어 이제는 인간과 기계 그리고 기계와 기계 사이의 언어적 상호작용에 대하여 더 깊이 생각해야 하는 시대가 도래했음을 생각하게 되었습니다.
이러한 시대적 전환에 있어 자연언어와 형식언어의 사용 범위와 양상은 더욱 다양해질 것이고 해당 언어의 올바른 사용 또한 더욱 중요해질 것입니다. 그리고 무엇보다 ‘실질’에 대한 올바른 이해가 IT산업을 포함하여 모든 산업에 있어 중요하고 기본적인 경쟁력에 영향을 미친다는 점을 강조하고자 합니다.
‘실질’을 강조한 이유는 이 부분이 제대로 지켜지지 않기 때문에 강조하였습니다. ‘형식’은 중요하지 않다는 말은 아닙니다. ‘실질’이 잘 파악되어도 ‘형식’에 의하여 그것이 제대로 표현되어야 하므로 둘 다 중요합니다. ChatGPT와 같은 생성형 인공지능도 제대로 이용하려면, ‘프롬프트’에 요청사항을 잘 입력해야 하며 이를 위해 관련 단어와 문장을 잘 선별하여 입력해야 합니다. 따라서, 사용자가 질문하고자 하는 문제에 대한 ‘실질’을 정확히 파악했다고 해도 언어를 통한 표현이 부족하면 원하는 결과를 얻지 못합니다.
이는 인간 사이의 소통에서도 마찬가지입니다. 예를 들어 IT와 금융 통합 프로젝트를 하는 경우 한 직원이 무엇인가를 열심히 설명합니다. 때에 따라서 그 분야에 대한 이해가 부족하여 이해되지 않는 면도 있으나 고객이나 제가 이해 안 되는 경우의 대부분은 두 가지인 것 같습니다. 첫째는 그 직원이 제대로 언어를 구사하여 상대방에게 이해되도록 설명하지 못하는 경우이고 다른 하나는 설명은 하지만 그 문제를 제대로 이해하지 못하고 설명하는 경우입니다. 첫 번째는 언어를 형식적으로 제대로 구사하지 못하는 경우로 위에서 인공지능에게 프롬프트를 제대로 주지 못하는 경우이며 두 번째 경우는 ‘실질’에 대한 분석이 제대로 안 되어 언어 형식이 맞아도 이해가 되지 않는 경우입니다.
인공지능과의 대화에 신경 쓰며 더 정확한 표현과 더 나은 프롬프트를 제공하기 위하여 노력하는 것과 같이, 우리는 인간 사이에서 특히 프로젝트와 같은 업무 속에서 ‘실질’과 ‘언어’ 사용에 있어서 발주기업이나 IT산업이나 양측 모두 소홀히 생각한 것이 없는지 다시 생각해 볼 필요가 있습니다.
다소 비약적인 생각일 수도 있겠지만 미래에 인공일반지능(artificial general intelligence, AGI) 등이 지금과 같은 방법 등에 기초하여 개발된다면 이 AGI는 학습을 통하여 대상의 ‘특성’을 제대로 파악하고 더 정확한 ‘표현’에 의한 학습을 받게 될 것입니다. 이러한 학습을 통해 일반 인간보다 더욱 ‘실질’에 접근하고, 모델에 따라서는 더 나은 프롬프트나 강화학습 또는 더 새로운 방법론 등을 통한 추가 학습을 통하여 일반 인간보다 더 방대하고 양질의 지식과 대화 경험을 하게 된다면 지금보다 훨씬 나은 그리고 두려운(?) 존재로 우리에게 다가올 수도 있습니다. 이러한 상황이 현실화한다면 인공지능이 일반 인간에 비해 우월한 존재로 자리매김하게 되고 이는 인공지능과 인류 사이의 근본적인 차이를 만들 수도 있다는 생각을 해 보면서 이 글을 마칩니다.
* 이 글의 그림은 Hugging Face의 Space에 있는 image 생성 앱을 통하여 이 글의 제목을 넣고 생성한 이미지입니다.
** 이 글은 몇 달 전 쓴 글로 인터넷이 아닌 지면을 통해 일부 제한적으로 공유했던 원고입니다.