Peer Review를 하며 느끼고 생각한 것들 2

AI 시대에 Review 하기

Feb 15. 2026

12분 만에 47개의 에세이 채점하기

한 MIT 교수가 Zoom 회의 중에 실수로 자신의 NotebookLM 채점 시스템을 공개했다고 한다(https://x.com/ihtesham2005/status/2022610362793603537?s=20 참조).

그는 아래의 방식으로 총 47편의 에세이를 단 12분 만에 채점을 했다.

1.. 학생들의 모든 과제물과 본래의 채점 기준표를 NotebookLM에 업로드한다.

2. 첫 번째 프롬프트 : "각 리포트를 이 특정 기준에 따라 평가하고, 예상되는 패턴에서 벗어나는 것이 있으면 표시해."

3. 두 번째 프롬프트 : "이제 이전 제출물들과 글쓰기 스타일을 교차 대조해서, 학업 부정행위가 우려되는 부분을 강조해 줘."

4. 세 번째 프롬프트 : "각 학생의 취약점을 분석하고, 그들이 복습해야 할 구체적인 강의 자료와 연결하여 개인 맞춤형 피드백을 생성해 줘."

세 번째 프롬프트 이후 AI는 이상 사례 3건을 즉시 찾아냈고, 이 과정은 총 15분 만에 끝났다고 한다.(12분인지 맞는지 15분이 맞는지 검증하지 않았다. 알게 뭐람.).

이 사례를 소개한 X 유저는,

1. 6시간이나 걸렸던 일이 15분으로 줄었고,

2. 학생들 입장에서는 교수가 직접 손으로 써주던 코멘트보다 훨씬 질 좋은 피드백을 받게 되었고,

3. 그 교수는 채점이라는 고문을 진정한 가르침의 영역으로 바꾸어 놓았다고 평가했다.

(교수가 직접 했다면 6시간이 걸렸을지 여부, 교수가 직접 손으로 써주던 코멘트보다 AI의 코멘트가 훨씬 더 나은 피드백인지 여부, 교수에게 채점이 고문인지 여부 및 이러한 과정을 통해서 평가가 비로소 가르침이 되었는지 여부-풀어쓴다면, 이전에 교수가 하던 채점 방식은 가르침이 아니었지만 AI를 통한 채점을 통해 비로소 가르침이 되었다는 의미이다-에 대해서는 아직 검증된 바 없다. 알게 뭐람.)

성과 평가

새해가 되었고, 상반기 성과평가 시즌이 돌아왔다.

성과평가 결과는 나와 동료의 연봉을 결정하는 아주 중요한 요소이기 때문에, 나와 타인을 평가할 때에는 ‘시간을 들여’, ‘주의를 집중해서‘, ’마음을 다해야’ 한다고 생각했다.

동료 평가를 할 때 마음을 가다듬기 위해 글을 한 편(https://brunch.co.kr/@mankooks2/41) 쓰기도 할 정도로, 평가자는 합당한 기준으로 신의성실의 원칙에 따라 동료의 성과를 살펴보고 이에 대한 채점을 해야 한다고 생각했기에, 위 MIT 교수의 사례와 이를 ‘거의’ 찬양하는 X의 유저의 반응을 접하고는 적잖이 당황했다.

동료 평가와 관련한 회사 에피소드 2개를 소개한다.

Case 1.

회사에서 가장 가까운 동료 중에 AI를 잘 활용하는 사람과 이야기를 나누다, 나와 협업을 많이 하지 않은 사람을 평가해야 할 때의 곤란함을 토로했다.

그런 경우에 그는 LLM을 이용하여 회사의 업무 툴에서 본인(평가자)과 동료(피평가자)가 2025. 1. 1.부터 2025. 12. 31. 까지 협업한 내용을 정리하라고 시킨 다음, 이를 토대로, 즉 단순히 기억과 감정에만 의지하지 않고, 객관적 정보를 근거로 평가를 진행한다고 한다.

사실 마음만 먹으면 AI에게 동료의 지난 한 해 업무 성과를 평가하라고 시킬 수도 있지만, 차마 그렇게는 못하겠다고 했다(물론 검증할 수는 없다. 하지만 나는 그를 신뢰한다.).

Case 2.

인사를 총괄하는 이사님과 자주 식사를 하고 이야기를 나누곤 하는데, 평가 시즌에는 곤혹스러운 일이 많다고 한다.

일단 Self 평가를 보면 전부 SuperStar 등급을 주는 사람이 몇. 명. 있는데(참고로 굉장히 뜨끔했던 순간이다), 이럴 경우 Self 평가 결과를 직접적으로 반영하기 어렵다는 거다.

그리고 동료 평가를 한 평가자의 평가 결과가 거의 빠짐없이 최하등급을 주는 경우가 있는데, 이런 경우에는 2개의 케이스로 분류를 한다고 한다.

첫 번째는 유독 한 명(또는 소수)에게만 그런 평가를 하는 유형이고, 두 번째는 전부 또는 거의 대부분에게 그런 평가를 하는 유형이다.

두 번째 유형의 경우 대체로 본인에게도 매우 가혹한 평가를 하기 때문에 특별히 문제 되지 않는다고 한다.

문제는 첫 번째 유형이다.

유달리 튀는 데이터가 나왔기 때문에 들여다볼 수밖에 없는데, 들여다보면 대체로 둘 사이의 사적인 문제가 있음이 확인된다.

이를 파악하고 나면 데이터를 세척해야 하는데, 그 과정이 보통이 아니다.

끈적이는 감정으로 붙어버린 노트의 페이지들을 하나하나 떼어내어 휴지로 닦아내고 말리는 과정이 그리 쉬울리 없다.

풀, 아교면 다행이고, 어쩌면 순간접착제가 차라리 낫다.

보통 이런 끈적이는 감정은, 독감에 걸렸을 때 캬악 소리를 내며 뱉어내야만 하는, 노랗기도 하고 초록색이기도 한, 그리고 콧물 같기도 하고 가래 같기도 한, 게다가 미끌거리기도 하고 끈적거리기도 한 접착제이기 때문이다.

Case 1과 Case 2를 종합하면, (X의 유저와 달리) 여전히 타인을 평가하는 데에는 정성을 들이는 것이 보다 ‘윤리적’이고, 평가에 감정은 불필요한 경우가 더 많다는 결론에 이른다.

애정이 스며드는 시간

아주 가까운 곁에 글을 쓰려는 사람이 있다. 단지 글쓰기 연습을 하려는 것 같지는 않다. 자기만의 형식을 찾아가고 있는 것 같다. 나는 에세이를 읽길 좋아하고, 그는 에세이를 쓰려고 하는데, 에세이란 장르는 좀처럼 설명하기가 쉽진 않다.

(중략)

짐짓 무표정하게 펼쳐지는 평범한 시간과 평범한 것들에 몰입하게 되는 순간, 눈앞에 있던 것들을 가지고 에세이를 한 편 쓰면 어떨까, 눈만 높아져서는 형식만 강조하다 재미를 놓쳐서는 안 된다. 가령 내 눈앞엔 일주일 동안 다섯 손가락을 꽉 채울 이슈를 다루고, 어린 아이에겐 마음이 쥐어짜질 정도로 애처로운 마음이 있다는 사람이, 맨유 경기를 절대로 놓칠 수 없어서 전반전과 후반전 사이의 틈, 아주 정확히 후반전이 막 시작하기 전 하이라이트가 방영될 시간까지 딱 씻고 와 정자세로 앉아선 맥주 한 캔을 시원하게 따고 몰입하는 인간이 있다.

형식을 말할 것도 없고, 집안 곳곳의 물건은 모두 제자리에 있어야 하는, 동시에 뜻대로 되지 않는 일들이 있을 때 그 모순 속에서 괴로워하면서도 맨유 경기는 놓치지 않는, 내가 보기에 사람다운 이 사람이 쓰는 글이 무척 기대된다. 노력하고, 시도하고, 시험하는 글, 어떤 목적을 가지고 형식과 은유를 재치있게 통제한 글을 쓸 때 가장 재미있어 보이는 이 사람이 지치지 않고 글을 쓰면 좋겠다. 위안을 주고, 받으면서.

예상했겠지만, 괴로운 맨유팬은 바로 나다.

지난 화요일부터 A형 독감으로 모진 고생을 하기 직전에, 컨디션이 좋았을 때 아내가 나에게 선물해 준 글이다.

오로지 나를 위해 써준 에세이라는 생각에 순간 사랑의 하츄핑의 바로 그 눈망울이 될 뻔했다.

나의 모습, 성격, 동작, 습관을 유심히 살펴보는 눈길, 그 따스함을 눈치채지 못하고 맨유 경기에 빠져들어 있는 사람, 그런 사람을 바라보고 생각하며 고요한 마음으로 에세이를 쓰는 사람을 떠올리니 자연스레 시야가 흐려질 수밖에.

아내와 함께 <타오르는 여인의 초상>을 보며, 누군가의 얼굴을 보지 않고 그의 초상화를 그릴 수 있다면, 이는 사랑이라는 단어가 아니고서는 도저히 설명할 수 없는 것이라고 말했다.

봄/여름/가을/겨울의 얼굴과 아침/점심/저녁의 얼굴, 단둘이 바다에 가서 뛰어놀았을 때의 얼굴과 아이를 출산했을 때의 얼굴, 억울하게 패소한 날의 얼굴과 가족이 삶을 등졌을 때의 비통한 얼굴, 옷장 문을 닫아놓지 않아서 화가 난 얼굴과 사랑을 나눌 때의 얼굴, 그리고 함께 거실 식탁에 나란히 앉아 원두커피를 내려 마시고 말없이 창밖을 볼 때 그녀의 그림자에 스며든 미소까지, 모두 기억해 내야만 가능한 일이다.

기억해 낸다는 것은 결국 시간의 축적을 전제한다.

애정이 스며드는 데에는 시간이 필요하므로.

(좌) 아내가 그린 나 / (우) 내가 그린 아내. 애정이 부족한 것은 아님(명확히 하면, 애정이 아닌 실력이 부족한 것임).

keyword

Brunch Book 일요일 연재

연재 스타트업을 다니며 생각한 것들

전체 목차 보기