풍문은 사실이 되고, 사실은 습속이 된다.
한 수업에서 몇몇 학생은 인공지능 챗봇의 제1 용처로 '요약'을 들었다. 주로 긴 문서의 핵심을 파악하기 위해 챗GPT나 Claude 등을 쓴다는 것이다. 닥치는대로 요약해서 보는 것의 문제에 대해서는 여러 번 이야기했으니 '인공지능은 요약을 잘한다'라는 발언에 담긴 문제에 국한해서 논의하도록 하자.
먼저 인공지능이 요약을 잘한다는 판단이 드러내는 것은 무엇인가?
첫째, 사용자가 인공지능의 요약에 만족한다는 점을 드러낸다. 그 만족의 이유는 여러가지일 수 있지만, 아래 제시할 이유들로 인해 가장 큰 이유는 전체를 다 읽는 수고를 하지 않고도, 긴 시간을 들이지 않아도 해당 문서 혹은 논문의 내용을 비교적 정확하게 파악할 수 있기 때문이라고 추론할 수 있다. 다시 말해 시간과 노동을 줄여주면서 그럭저럭 볼만한 내용을 산출한다는 점이 만족의 제1이유인 것이다.
둘째, 사용자는 인공지능이 정말 요약을 잘하는지 모르고 있다는 점을 드러낸다. 인공지능이 요약을 잘한다고 할 때 판단의 벤치마크가 되는 것은 자신이 수행한 요약의 품질일텐데, 인공지능으로 요약한 문서와 자신이 요약한 문서를 비교대조하는 수고를 하는 경우는 없다. 즉, '인공지능요약'은 '나의 요약'과 동시에 일어나지 않는 사건이다. 이는 아래 세 번째 논의와 연결되어 있다.
셋째, 거의 모든 사용자는 전문가의 요약과 자신의 요약, 인공지능의 요약을 비교해본 경험이 없다. 즉, '인공지능이 요약을 잘한다'는 전문가보다 잘한다는 것인지, 자기보다 낫다는 것인지, 인공지능의 요약이 모든 면에서 완벽하다는 것인지, 이 정도 시간에 이 정도 산출물이면 나쁘지 않다는 것인지를 명확히 구분하지 않고 쓰는 말이다.
넷째, 둘째와 셋째를 관통하는 문제를 일으키는 원인으로 생각할 수 있는 것은 한국사회가 '좋은 요약이란 무엇일까?'를 진지하게 논의한 적이 없다는 것이다. 사회적으로 요약을 요하는 일은 많지만, "그래서 좋은 요약의 기준이 뭔가요?"라고 물어보면 체계적으로 답할 수 있는 사람은 거의 없다. 전문가라고 하더라도 좋은 요약에 대한 경험적 암묵지만 있을 뿐, 그에 대한 명시적 기준을 제시하라고 하면 어려움을 겪는 경우가 대부분이다.
다섯째는 이상의 논의에서 끌어낼 수 있는 교육적 함의다. 공교육에서 요약을 강조하긴 해도 요약이라는 장르를 학습자가 깊이 이해하도록 훈련하는 경우는 많지 않고, 수업을 한다고 하더라도 학생들이 자신과 전문가, 인공지능의 요약을 비판적으로 검토할 기회를 가지는 경우는 거의 없는 실정이다. 이러한 상황에서 '인공지능이 요약을 잘한다'라는 사용자들의 판단은 급속히 퍼진다. 위에서 이야기했듯이 이것은 명확한 기준에 의한 판단이라기보다는, '감'에 의한 판단이다. 그렇기에 생성형 인공지능에 의한 요약이 급속도로 늘어나는 시기에 '좋은 요약은 무엇이고 어떻게 작성할 수 있는가?'에 대한 장르지식을 강화하는 교육이 필요하다.
이같은 관점은 다른 장르에도 그대로 적용된다. 최근에 화제가 된 '논문쓰기 전 과정을 자동화한 AI'의 경우가 대표적이다. 논문이라는 장르에 대한 깊은 이해 없이 'AI도 인간이 하는 일을 모두 해낼 수 있다'는 소문만 멀리멀리 퍼져 나가는 형국이다.
이상은 필자의 경험에 기반한 생각이었다. 그렇다면 실제 요약의 품질은 어떨까? 아직까지 이에 대한 연구가 축적된 것 같지는 않다. 하지만 아래의 기사는 인공지능 요약의 문제점을 간명하게 드러낸다. 인공지능으로 요약을 할 경우 그 유효성을 판단하기 위해 노동이 더욱 늘어날 수 있다는 요지다. 물론 이를 일반화할 수는 없다. 문서의 난이도, 길이, 요약의 맥락과 목적, 독자의 특성 등을 고려하지 않고 좋은 요약인지 아닌지를 판단하는 일은 힘들기 때문이다. 그럼에도 이같은 연구가 널리 공유되는 일은 반드시 필요하다.
안타깝게도 풍문이 사실이 되고, 이것이 수많은 이들의 글쓰기 습속이 되는 일은 생각보다 쉽다.
<인공지능, 정보 요약에서 모든 면에서 인간보다 열등하다는 정부 시험 결과 발표> (전문 기계번역)
호주 기업 규제 기관의 AI 테스트 결과, 이 기술이 실제로 사람들의 업무를 줄이기보다는 늘릴 수 있다는 점을 발견했습니다.
인공지능이 문서를 요약하는 데 있어 모든 면에서 인간보다 열등하며, 실제로 사람들에게 추가 작업을 만들어낼 수 있다는 정부의 기술 시험 결과가 나왔습니다.
아마존은 올해 초 호주 기업 규제 기관인 증권투자위원회(ASIC)를 위해 조사 제출물을 사용하여 이 테스트를 실시했습니다. 이 시험의 결과는 인공지능 도입에 관한 상원 특별위원회의 질의응답에서 공개되었습니다.
이 테스트는 감사 및 컨설팅 회사에 대한 의회 조사에 제출된 5개의 제출물을 섭취하기 위해 생성형 AI 모델을 테스트한 후 하나를 선택하는 것을 포함했습니다. 가장 유망한 모델인 메타의 오픈소스 모델 Llama2-70B는 ASIC 언급, 권장 사항, 더 많은 규제에 대한 참조에 초점을 맞추고 페이지 참조와 맥락을 포함하여 제출물을 요약하도록 지시받았습니다.
다양한 직급의 ASIC 직원 10명도 유사한 지시로 같은 작업을 받았습니다. 그 후, 검토자 그룹이 인간과 AI가 생성한 요약문을 일관성, 길이, ASIC 참조, 규제 참조 및 권장 사항 식별에 대해 맹검 평가했습니다. 그들은 이 연습에 AI가 포함되었다는 사실을 전혀 알지 못했습니다.
이 검토자들은 인간의 요약이 모든 기준과 모든 제출물에서 AI 경쟁자를 압도적으로 이겼다고 판단했으며, 내부 평가 기준에서 81%의 점수를 받은 반면 기계는 47%를 받았습니다.
인간의 요약은 긴 문서에서 ASIC 문서에 대한 참조를 식별하는 데 있어 크게 우수한 성과를 보였는데, 이는 보고서에 따르면 이런 유형의 AI에게는 "악명 높은 난이도를 지닌 작업"입니다. 그러나 인간은 여전히 전반적으로 기술을 앞섰습니다.
검토자들은 보고서 저자들에게 AI 요약이 종종 강조점, 뉘앙스, 맥락을 놓치고, 부정확한 정보를 포함하거나 관련 정보를 놓치며, 때로는 부차적인 점에 집중하거나 관련 없는 정보를 도입한다고 말했습니다. 5명의 검토자 중 3명은 AI 콘텐츠를 검토하고 있다고 추측했다고 말했습니다.
검토자들의 전반적인 피드백은 AI 요약이 오히려 역효과를 낼 수 있고 추가 작업을 만들어낼 수 있다는 것이었습니다. 이는 사실 확인의 필요성과 메시지를 더 잘, 더 간결하게 전달하는 원본 제출물을 참조해야 하기 때문입니다.
보고서는 이 연구의 몇 가지 한계와 맥락을 언급합니다: 사용된 모델은 이미 더 나은 기능을 가진 새로운 모델로 대체되었으며, 이는 정보 요약 능력을 향상시킬 수 있습니다. 또한 아마존이 프롬프트와 입력을 개선함으로써 모델의 성능을 향상시켰다고 하여, 더 많은 개선이 가능하다는 것을 시사합니다. 보고서는 언젠가 이 작업이 기계에 의해 능숙하게 수행될 수 있을 것이라는 낙관론을 포함하고 있습니다.
하지만 그때까지, 이 시험은 정보를 분석하고 비판적으로 분석하는 인간의 능력이 AI에 의해 따라잡히지 않았다는 것을 보여주었다고 보고서는 말합니다.
"이 발견은 또한 생성형 AI가 인간의 작업을 대체하는 것이 아니라 보완하는 도구로 위치해야 한다는 견해를 지지합니다," 라고 보고서는 결론지었습니다.
ASIC에 대한 질문으로 이 보고서의 발표를 촉발한 녹색당의 데이비드 슈메이커 상원의원은 인간이 이 작업에서 AI보다 우수하다는 것이 "전혀 놀랍지 않다"고 말했습니다. 그는 또한 이것이 공공이 자신들의 조사 제출물을 읽는 데 AI를 사용하는 것에 대해 어떻게 느낄지에 대한 의문을 제기한다고 말했습니다.
"물론 이것이 제출물을 평가하는 데 AI가 절대 역할을 할 수 없다는 의미는 아닙니다. 하지만 만약 역할이 있다면 그것은 투명해야 하고 인간의 평가를 지원해야 하며 독립적으로 서 있어서는 안 됩니다," 라고 그는 말했습니다.
"정부 부서가 AI 사용에 대해 이런 신중한 연습을 수행하는 것을 보는 것은 좋습니다. 하지만 상원 위원회 청문회에서 요청할 필요 없이 사전에 정기적으로 공개된다면 더 좋을 것입니다."
https://www.crikey.com.au/2024/09/03/ai-worse-summarising-information-humans-government-trial/
#인공지능은나의읽기쓰기를어떻게바꿀까 #생성형ai와삶을위한리터러시