brunch

매거진 퓨쳐드릴 뉴스레터

라이킷 8 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 박송이 Sep 15. 2024

인공지능 분야에서 10만 회 이상 인용된 논문

인공지능 분야의 새로운 패러다임을 제시한 논문 자세히 알려 drill게요

2024.04.15 | vol. 24 | 구독하기 | 지난호 보기

미래에 할 수 있는 경험을 사전 예약하신 퓨처드릴 구독자, 드릴러 여러분 안녕하세요! AI와 UX의 알쏭달쏭한 점을 시원하게 알려 drill 퓨처드릴 에디터 쏭입니다.

오늘은 지금의 인공지능 혁명의 시발점이라고 해도 과언이 아닌 트랜스포머 구조를 제안한 "Attention Is All You Need" 논문(링크)을 함께 살펴보겠습니다.

시작하기 - Turning On the Drill

현재 발행되는 인공지능 논문의 70%는 트랜스포머 모델을 언급하고 있다.

FourWeekMBA에 따르면 현재 코넬대학교의 arXiv 리포지토리에 게시된 AI 논문 중 약 70%가 트랜스포머 모델을 언급하고 있습니다. 작성된 글이 2024년 3월 14일이고 논문이 나온 연도가 2017년도임을 감안할 때 이 논문의 영향력은 현재까지도 계속된다고 볼 수 있습니다. Attention is All you Need의 제목처럼 어텐션이 무엇이기에 어텐션만 있으면 된다고 했는지 이번 뉴스레터에서 자세히 설명해 drill게요~!

모두 follow me ~

트랜스포머 구조가 제안된 배경

출처 : https://medium.com/@kirudang/language-model-history-before-and-after-transformer-the-ai-revolut

위의 이미지에서 분홍색과 파란색으로 구분된 언어 모델의 역사를 보실 수 있습니다. 즉 언어모델의 역사는 트랜스포머 구조 이전과 이후로 나뉠 만큼 트랜스포머는 하나의 모델이라기보다는 패러다임에 가깝습니다.

트랜스포머 아키텍처 이전의 언어 모델은 일반적으로 순환 신경망(RNN)을 기반으로 했습니다. 순환신경망이란 말처럼 순차적으로 입력되는 단어 하나가 처리된 후 다음 단어를 처리하는 레이어에 다시 입력됩니다. RNN은 이런 순환신경망을 통해 순차적 데이터를 누적하여 처리할 수 있는 능력이 있지만 단어를 하나하나 처리해야 하는 만큼 속도가 느리고 많은 단어가 주어진 긴 텍스트에서 단어의 문맥을 인식할 수 없다는 단점이 있습니다. 이런 단점을 보완하기 위해 LSTM과 같은 모델이 제안되기도 했지만, 여전히 긴 텍스트에서 단어의 문맥 정보를 보존하는 능력은 좋지 않았습니다.

즉 트랜스포머 이전의 순환신경망은 긴 텍스트 시퀀스 처리에 적합하지 않았고 이러한 구조적 한계점은 긴 문장에서 서로 멀리 떨어져 있는 단어 사이의 문맥 정보를 추출할 수 없다는 큰 단점을 낳았습니다. 이러한 순환신경망의 한계를 보완하기 위해 트랜스포머 구조가 제안되었습니다. 트랜스포머 구조는 '어텐션 메커니즘'을 통해 매우 긴 텍스트 시퀀스에서 정방향 및 역방향으로 단어 관계를 추적하여 효율적으로 문맥 정보를 추출합니다.