AI 에이전트를 활용한 주간 보고 검토 및 피드백주기
지난 시간에 각각 리눅스와 맥에 설치한 AI 에이전트 두 대가 내 책상 위에서 돌아가고 있다. 각각 이름도 붙여줬다. 텔레그램으로 이름을 불러가며 일을 시키다 보면 진짜 비서 두 명을 데리고 있는 기분인데, 맥은 연구실 업무 전담, 리눅스는 개인 업무 전담이다. 24시간 전원이 켜진 채로 명령을 기다리는 비서가 둘이나 있는데, 어떤 일을 시켜야 할지 고민이다.
처음엔 논문 데이터를 찾아오라고 했다. 특정 합금 조성의 피로 수명 데이터를 수집하고 표로 정리해달라고 시켰더니 결과물은 생각보다 금방 나왔다. 문제는 그다음이었다. 한 번 보고 끝이었다. 데이터 수집이란 게 원래 그렇다. 필요할 때 중점적으로 찾는 거지, 매일 매일 찾는 데이터에도 한계가 있다. 그렇게 에이전트를 켜둔 채 미국 출장을 떠났고, 일주일간 시차와 미팅에 치이다 보니 에이전트를 제대로 돌릴 여유가 없었다.
전환점은 동료 교수님의 한마디였다. 그 교수님 연구실 학생들 주간 보고를 AI가 검토하고 월요일에 바로 이메일로 피드백을 준다는 것이다. 듣는 순간 머릿속에서 오! 좋은 아이디어라는 생각이 들었다. 교수가 매주 반복하는 일 중 가장 시간을 많이 잡아먹는 게 뭘까. 아홉 명 학생의 주간 보고를 하나하나 검토하고 각각에 맞는 코멘트를 주는 것이다. 물론 깊이 있는 검토 내용은 당연히 교수가 해야겠지만 교수도 여러가지 업무나 미팅으로 바쁘다 보니 적확한 시간에 코멘트를 하지 못 하고 병목이 생기는 경우도 있다. 이걸 에이전트가 대신할 수 있다면, 병목이 사라진다. 교수가 직접하는 것 처럼 깊이 있는 코멘트까지는 안 된다고 하더라도 즉각적으로 학생들이 올린 파일에 대한 피드백을 줄 수 있다면 학생에게는 좋은 일이다. 에이전트에게 줄 수 있는 일이 드디어 생겼다.
구조는 기존 워크플로우에 한 겹만 얹는 방식으로 잡았다. 학생들은 원래 구글 시트에 이번 주 연구 계획을 정리하고 있었으니, 거기에 구글 드라이브 학생별 폴더를 추가해서 금요일에 주간 보고를 올리도록 했다. AI 에이전트는 금요일 이전에 파일 업로드가 감지되면 구글 시트의 계획과 폴더의 보고서를 함께 읽는다. 월요일에 세운 계획과 금요일의 결과가 얼마나 일치하는지, 계획에는 있었는데 보고에서 빠진 항목은 무엇인지, 계획에 없던 작업이 왜 추가되었는지를 비교 분석해서 리포트로 만든다. 단순히 보고서 하나를 평가하는 게 아니라 계획 대비 실행의 정합성을 보는 구조다.
처음 설계할 때는 이 리포트를 이메일로 보내려 했다. 학생 각자에게 발송하고 나를 참조에 넣으면 깔끔할 거라고 생각했는데, 막상 만들다 보니 관리자 입장이 빠져 있었다. 나중에 아홉 통의 메일을 각각 열어서 확인하는 건 결국 아홉 개의 보고서를 따로 읽는 것과 다르지 않으니까. 한 화면에서 전체를 조망하고 싶어서 웹페이지로 방향을 틀었다.
Firebase를 기반으로 잡은 건 클로드에게 물어봤더니 추천해줘서다. 백엔드 서버를 따로 관리할 여력이 없는 상황에서 인증과 데이터베이스를 한 플랫폼에서 해결할 수 있다는 게 결정적이었다. 코드를 직접 한 줄씩 짠 건 아니고, 클로드에게 채팅으로 물어가며 만들었다. "로그인 페이지에 구글 인증 붙여줘", "학생별 피드백을 카드 형태로 보여주는 대시보드 만들어줘", 이런 식으로 질문 하나에 코드 한 덩어리씩 받아서 조립하는 방식이다.
완성된 페이지에서 학생은 로그인하면 자기 피드백만 보고, 나는 관리자 화면에서 전원의 리포트를 한눈에 훑는다. 누가 이번 주에 진전이 있었고 누가 막혀 있는지가 스크롤 한 번에 잡힌다. 덤으로 미팅 스케줄 기능도 넣었는데, 학생들이 면담 가능 시간을 보고 직접 예약할 수 있게 했더니 카카오톡으로 "교수님 언제 시간 되세요?"라는 메시지가 오던 게 거의 사라졌다.
맥 쪽 에이전트가 자리를 잡으니 리눅스 쪽에도 시킬 일이 보이기 시작했다. 지금 이 글을 올리고 있는 브런치가 그 대상이었는데, 브런치는 팔로워 수의 변화 추이를 따로 보여주지 않는다. 오늘 몇 명인지는 알 수 있어도 지난달 대비 얼마나 늘었는지, 어떤 글을 올린 날 구독자가 뛰었는지는 직접 기록하지 않으면 알 방법이 없다. 그래서 지금까지는 매일 구독자 수를 대략 수기로 적어보고 있었는데, 이건 딱 에이전트한테 넘길 만한 일이었다. 그래서 리눅스 에이전트에게 매일 밤 12시마다 브런치 페이지에 접속해 팔로워 수를 읽어오게 했다.
엑셀 파일에 날짜와 숫자를 한 줄씩 추가하고, 증감 추이를 seaborn 스타일 그래프로 그려달라고 했더니 꽤 깔끔하게 뽑아준다. 만드는 데 20~30분이면 충분했고, 그 뒤로는 알아서 돌아간다. 아직은 숫자만 쌓이는 단계지만, 나중에는 각 글별 조회수까지 긁어서 어떤 주제가 빵빵 터지는지 분석해볼 생각이다. 조회수와 구독자 증감을 겹쳐 보면, 많이 읽히는 글과 실제로 구독까지 이어지는 글이 같은 글인지 다른 글인지도 보일 테니까.
여기서 많은 분들이 궁금해하실 수 있는 게, 그냥 클로드 채팅이랑 뭐가 다르냐는 것이다. 가장 큰 차이는 지속성에 있다. 클로드 채팅은 대화 창 안에서 나에게 방법을 알려주고, 실행은 내가 한다. 대화를 이어가지 않으면 작업도 거기서 멈춘다. 반면 클로드 코드 에이전트는 내가 일을 시키면 시간이 걸리더라도 묵묵히 수행한다. 물론 가끔 멈추기도 하지만, 기본적으로 내가 자리를 비워도 작업이 이어진다는 점이 결정적으로 다르다. 클로드는 조언자에 가깝고, 에이전트는 실행자에 가깝다고 보면 된다. 참고로 개발 환경 없이 비슷한 경험을 하고 싶다면 클로드 코워크(Cowork)도 방법이다. 데스크톱 앱에서 파일과 폴더에 직접 접근해 멀티스텝 작업을 처리해주는 기능인데, 터미널 없이도 에이전트에게 일을 맡기는 감각을 느낄 수 있다.
AI 에이전트에게 시킬 수 있는 '좋은 일'의 조건은 세 가지다. 반복적일 것, 주기적일 것, 그리고 사람이 해도 되지만 기계가 해도 품질이 크게 떨어지지 않을 것. 데이터 검색은 첫 번째 조건에서 탈락했다. 매일 반복할 필요가 없으니까. 주간 보고 피드백은 세 조건을 모두 충족했다. 매주 금요일 반복되고, 주기가 정확하고, AI의 1차 검토가 사람의 그것과 비교해 크게 떨어지지 않는다. 오히려 빠뜨리는 게 없다는 점에서는 기계가 더 나을 수도 있다.
솔직히 말하면 지금 AI가 주는 코멘트는 아직 얕다. "실험 변수를 추가로 고려하세요", "데이터 해석의 근거를 보강하세요" 같은 수준이다. 10년째 학생의 연구를 지켜본 지도교수라면 "지난달 TEM 결과랑 지금 XRD가 안 맞는데, 혹시 시편 준비할 때 에이징 시간 다르게 한 거 아니야?"라고 짚어줄 수 있지만, AI에게는 아직 그런 두께가 없다. 지도교수의 코멘트란 수십 번의 미팅과 수백 페이지의 보고서가 축적된 결과물이니까.
당연히 핵심적인 코멘트는 교수가 직접 해야 하고, 그건 바뀌지 않는다. 다만 현실의 문제는 깊이가 아니라 속도에 있었다. 학생이 금요일 오후에 보고서를 올려도 나는 다른 미팅 중이거나 과제 서류를 쓰고 있거나 출장 중인 경우가 가끔 있다.
이러면 학생들은 다음 피드백을 받기 전까지 하릴 없이 기다려야 하는데 얕더라도 업로드 직후에 1차 피드백이 돌아온다면 학생은 바로 방향을 잡을 수 있다. 완벽한 코멘트가 하루 뒤에 오는 것보다 70점짜리 코멘트가 1분 뒤에 오는 게 나을 때가 있다.
그리고 이 시스템이 한 학기, 두 학기 돌아가면 얕은 코멘트도 달라질 거라고 본다. 학생 한 명의 보고서가 50개 쌓이면, 에이전트는 3월의 그 학생과 11월의 그 학생을 비교할 수 있다. 반복적으로 같은 실수를 하는 패턴이라든지, 특정 실험에서 유독 진전이 빠른 경향이라든지, 계획과 실행 사이의 괴리가 커지는 시점 같은 것들. 한 장의 보고서에서는 보이지 않던 것들이 50장이 겹치면 윤곽을 드러낸다.
앞으로 추가할 기능도 같은 기준에 맞춘다. 과제 진행 마일스톤, 논문 투고 일정 관리 같은 것들인데, 모두 반복적이고 주기적이고 기계가 맡아도 되는 일이다.
AI 에이전트는 만능이 아니다. 하지만 매주, 매일, 같은 시간에 같은 일을 빠뜨리지 않고 해내는 데는 사람보다 낫다. 결국 답은 단순했다. 좋은 도구를 갖는 것보다, 그 도구에 맞는 일을 찾는 게 먼저다.
본문에서 클로드 코워크를 잠깐 언급했는데, 에이전트와 어떻게 다른지 궁금해하실 분들을 위해 좀 더 정리해본다.
내가 맥미니와 리눅스에서 돌리고 있는 건 클로드 코드 기반의 에이전트다. 클로드 코드는 터미널에서 돌아가는 Anthropic의 공식 도구인데, 텔레그램 봇과 연결해두면 메시지로 일을 시키고 결과를 받아볼 수 있다. 핵심은 컴퓨터가 켜져 있는 한 내가 자고 있어도, 출장 중이어도 작동하는 상주형 에이전트라는 것이다. 새벽에 브런치 팔로워 수를 긁어오고, 금요일 밤에 학생 보고서를 읽고, 텔레그램으로 결과를 보내주는 게 가능한 이유다.
코워크는 다른 방식으로 접근한다. 클로드 데스크톱 앱 안에서 파일과 폴더에 직접 접근해 멀티스텝 작업을 처리해주는 기능인데, 내가 앱을 열고 "이 폴더에 있는 PDF 열 개 요약해서 엑셀로 정리해줘"라고 시키면 알아서 단계를 나누고 실행한다. 터미널을 쓸 줄 몰라도 되고, 설정할 것도 거의 없다. 대신 앱을 닫으면 세션도 끝난다.
정리하면 이렇다.
클로드 코드 에이전트는 24시간 상주하면서 이벤트에 반응하는 구조다. 메시징 앱 연동, 스케줄 기반 자동화, 장기 모니터링에 강하다. 그 대신 터미널 사용이 필요하고, 설정과 유지 관리를 직접 해야 한다.
코워크는 한 세션 안에서 복잡한 작업을 맡기는 구조다. 파일 정리, 리서치, 문서 작성 같은 지식 노동에 강하고, 샌드박스 환경이라 보안 걱정이 적다. 클로드 유료 플랜(Pro $20~/Max $200~)에 포함되어 있어서 별도 설정 없이 바로 쓸 수 있다.
둘 다 "AI에게 일을 시킨다"는 점은 같지만, 에이전트는 항상 깨어 있는 비서고 코워크는 필요할 때 불러서 일 맡기는 프리랜서에 가깝다. 내가 연구실 시스템을 에이전트로 만든 건 매일 밤, 매주 금요일 자동으로 돌아가야 하는 일이었기 때문이다. 만약 "한 번에 큰 작업 하나를 맡기고 싶다" 정도라면 코워크로도 충분하다. 실제로 우리 연구실 학생들은 코워크를 더 선호한다. 터미널을 열고 설정 파일을 만지는 것보다, 데스크톱 앱에서 바로 폴더를 지정하고 일을 시키는 쪽이 훨씬 진입 장벽이 낮으니까. 논문 초고 정리, 데이터 시각화, 참고문헌 포맷팅 같은 작업은 상주형 에이전트까지 필요 없고, 코워크 한 세션이면 끝난다.