멀티 헤드 어텐션 AI 알고리즘과 입체적 사고

AI 알고리즘에서 배우는 세상살이

by Hayden

* 멀티 헤드 어텐션: Multi-head Attention


AI 알고리즘은 인간의 인식 및 추론 과정을 모방하며 발전해 왔습니다. 인간의 오감과 종합적인 사고 과정을 관찰하고 이를 구현하며, 실험을 통해 검증하는 방식으로 진화해 온 것입니다. 필자는 AI 알고리즘을 공부하면서 오히려 인간의 본성과 사고방식을 되돌아보게 되는 경우가 많았습니다. AI 알고리즘의 원리가 우리의 삶과 문제 해결 방식에 어떤 교훈을 줄 수 있는지 살펴보겠습니다.




스티브 잡스와 입체적 사고


애플의 혁신을 이끌었던 스티브 잡스는 스탠퍼드 졸업식 연설에서 유명한 “Connecting the dots” 개념을 언급했습니다. 이는 삶에서 겪는 다양한 경험들이 당장은 의미 없게 보일지라도, 시간이 지나 뒤를 돌아보면 서로 연결되어 의미 있는 결과를 만들어낸다는 뜻입니다. 그는 대학 시절 들었던 캘리그래피 수업이 이후 애플의 뛰어난 타이포그래피와 사용자 경험 혁신으로 이어졌다고 회상했습니다.


입체적 사고란 문제를 다양한 관점에서 바라보고, 이를 종합적으로 분석하는 사고방식입니다. 서로 다른 경험들을 다각적으로 바라보고 종합함으로써 단순한 결합이 아닌 창의적인 융합을 만들어냅니다. 이러한 사고방식은 아이팟, 인터넷, 핸드폰이 융합된 아이폰의 탄생으로도 나타납니다.

스티브 잡스의 스탠포드 졸업식 연설 (https://youtu.be/1i9kcBHX2Nw?si=RQ8MJFB-pgdY3Veg)

트랜스포머의 멀티헤드 어텐션 (Multi-head Attention) 알고리즘


생성형 AI의 핵심 알고리즘인 트랜스포머의 논문 제목은 “Attention is all you need”로, 어텐션(Attention)이 중요한 요소임을 강조합니다. 어텐션은 기존에도 AI 분야에서 중요한 개념으로 사용되었으며, 주어진 모든 요소 중 연관성이 높은 특정 요소를 집중적으로 (가중치 부여) 처리하는 방식을 의미합니다.


예를 들어, 영어 문장 “I go to school”을 한국어로 번역할 때, “나는”을 생성할 때는 “I”에 집중하고, “학교에”를 생성할 때는 “school”에 집중합니다. 문장 전체를 문맥으로 고려하되, 모든 요소를 동일하게 처리하지 않고 연관성이 높은 부분에 더 큰 가중치를 부여하는 것입니다.


멀티헤드 어텐션은 여러 개의 어텐션 헤드를 사용하여 다양한 측면을 동시에 고려합니다. 이 방식은 정보의 손실 없이 여러 관점을 학습하고 통합할 수 있게 해 줍니다. 실제로 트랜스포머 논문에서 어텐션 헤드를 8개 사용했을 때, 하나의 어텐션 헤드만 사용했을 때보다 성능이 뛰어남을 실험으로 입증했습니다.


인물, 하늘, 땅 요소에 집중하는 복수의 어텐션 (https://youtu.be/mMa2PmYJlCo?si=GHsjIJuzTyVn1cpe)


입체적 사고는 쉽게 얻어지지 않습니다


스티브 잡스의 창의력은 어느 날 갑자기 떠오른 것이 아닙니다. 다양한 경험을 적극적으로 받아들이려는 노력과, 트랜스포머의 멀티헤드 어텐션처럼 경험을 종합적으로 해석하는 연습이 축적될 때 비로소 실현된 것입니다.


우리도 일상에서 다양한 분야의 책을 읽거나, 새로운 사람들을 만나고, 다양한 문화와 예술을 접하면서 경험의 폭을 넓힐 수 있습니다. 중요한 것은 이러한 경험들을 단순히 나열하는 것이 아니라, 서로 연결하고 종합하여 새로운 관점을 발견하려는 노력을 기울이는 것입니다. 그렇게 할 때, 우리도 스티브 잡스처럼 자신만의 ‘Connecting the dots’를 만들어갈 수 있습니다.

keyword