인간과 인공지능은 글쓰기 방식에서 분명한 차이가 있다. 챗GPT는 지적 능력이 없이 ‘중요한’ 단어로 논문을 ‘생성’한다. 인간은 스스로 과거 경험과 지식을 기초로 생각하고 실제로 진행한 실험이나 관측으로 기술한다. 하지만 인공지능은 다르다.
인간의 학술 과학 글쓰기는 대부분 일반화가 나타난다. AI는 스스로 판단하고 읽는 것이 아니라 이를 그대로 학습하므로 일반화 편향도 따라한다. 한계가 내재하는 것이다. 2025년 연구에 의하면 AI 챗봇 10개가 생성한 과학논문의 요약분석 결과의 최대 70% 이상에서 과도한 편향이 발생했다. 또한 대부분 AI 모델이 원문보다 더 포괄적인 결론을 만든다. 예를 들어 실제 연구는 ‘효과적이었다.'라는 표현을 ’효과적이다.'라고 말해 일반화의 오류가 발생했다. 게다가 더 정확하게 요약해달라고 요구하면 편향이 오히려 더 커진다. 학생이나 연구자가 정확성을 요구하면 결과는 더 나빠지는 것이다. 또한 최신 모델이 구형보다 더 나쁜 결과가 나타난다.
인터넷 검색 같이 인공지능도 양날의 검(double edged sword)이다. 대규모 언어모델 인공지능은 사람들의 믿음(belief)과 지식(knowledge), 사실(fact)과 허구(fiction)를 제대로 구분하지 못한다. ‘GPT-4o’ 이전 모델은 사실 판단 정확도가 71.5~84.8%였으나 신형 모델은 정확도가 91.1~91.5%이다. 그러나 1인칭 형식의 믿음 글(‘나는~라고 믿는다.’ ‘I believe that~’)을 제시하면, 신형 모델은 사실기반 1인칭 믿음에 비해 허구 기반 1인칭 믿음에 대한 인식정확도는 평균 34.3% 낮았고, 구형 모델은 평균 38.6%나 낮았다. 3인칭 믿음(‘그는 ~라고 믿는다.’)에 대한 인식 정확도는 신형 모델이 95%, 구형 모델은 79%였다. 게다가 여기에 사용한 정보는 상식적인 것들이었다. ‘호주 수도는 시드니이다.', ‘나는 호주 수도가 캔버라라고 믿는다.', ‘그는 호주 수도가 시드니라고 믿는다.'처럼 전문적인 것도 아니다. 이 정도 수준에서도 오류가 많이 나타난다. 게다가 전문적이거나 학술적이라면 더 심각할 것이다. 법률, 의학, 과학 등 믿음이나 의견이 사실과 대비되는 분야에 적용할 경우, 주의할 필요가 있다는 것을 보여준다.