brunch

You can make anything
by writing

C.S.Lewis

by Bumjini Sep 25. 2024

측정의 위험성에 대하여 (AI)

인공지능에서 측정은 모든 것을 결정한다. 함부로 하지 마라.

요즘 가장 이슈가 되는 인공지능 이슈는 다름 아닌 "측정"입니다. 측정은 대상을 수치화하여 명확한 해석과 목표 설정을 가능하게 해 줍니다. 예를 들어, 글의 가독성을 평가한다고 했을 때, “이 글의 가독성은 90점입니다”라는 수치가 도움이 될 수 있습니다. 만약 옆 글의 가독성이 95점이라면, 우리는 두 글을 비교하고, 100점을 목표로 글을 개선할 방향을 설정할 수 있습니다. 이처럼 측정은 현재 상태를 수치로 해석하고, 이를 바탕으로 미래의 목표를 설정하는 강력한 도구로 작용합니다.


현재 상태에 대한 해석과 미래 목표를 동시에 제공하는 측정의 강력함에 힘 업어 인공지능은 발전하였습니다. 그들은 인간 수준의 임무들을 만들고, 그 점수를 달성하도록 무수히 많은 데이터와 컴퓨팅 자원을 활용하였습니다.


여기서 사고의 전환이 필요합니다. 인류의 미래에 중요한 것은 사실 측정에 의한 점수가 아닙니다. 왜냐고요? 어차피 측정된 것들은 100점을 향해서 오를 것이기 때문입니다. 측정의 점수를 모조건 올릴 수 있다는 꿈만 같은 이야기를 믿기 어려울 수 있지만, 이는 실제로 AI분야에서 나타나는 현상입니다. 갑자기 박사 수준의 AI가 나왔다는 이야기 (OpenAI-o1)는 단순히 인간의 노력이 아니라 "측정되는 것은 달성될 수 있다는" 규칙에 의한 결과였습니다.


이 글에서 가장 중요한 이야기를 적겠습니다.  


우리는 측정된 값이 아니라,
우리는 측정의 대상과 방법을 찾아야 한다.

인공지능 연구자인 저도 사실 AI에 대해서 무엇을 측정하고 있는지 정확하게 알지 못합니다. 왜냐하면, 측정 대상이 아니라 점수에 관심이 있었으니까요. 이제 측정의 대상을 바라보겠습니다. 


총 4 개의 세부 주장이 있습니다.


1. 측정의 대상은 몇 년 이내로 정복된다.

2. 측정의 대상은 미래의 방향을 결정한다.

3. 목표와 측정은 다르다.

4. 함부로 측정하지 마라.



1. 측정의 대상은 몇 년 이내로 정복된다.  


마치 소원을 들어주는 펜처럼, 측정이 시작되면 인공지능은 빠르게 높은 수준을 달성됩니다. 대표적으로 대학 수준의 질문, 언어 이해력, 논리 추론과 같은 데이터들은 AI모델에 의해서 사람 수준으로 정복되었습니다. 물론 처음에는 성능이 낮았지만, 이를 높이기 위해서 AI들은 지속적으로 업그레이드되었습니다. 그 결과는 성능은 우상향으로 계속 발전되었습니다. 목표한 점수가 달성되면 측정의 대상에 대한 흥미는 식어가고 새로운 측정의 대상이 필요해지게 됩니다. 


AI가 이 세상의 모든 지식을 배우는 마법 같은 일이 일어나고 있는 건 아닙니다. 사실 이는 문제가 쉬워서 나타나는 현상입니다. 학교에서 천재 수준을 가진 학생이 있더라도, 그 학생의 수준에 맞는 퀴즈를 선생님이 만들어내지 못하는 상황입니다. 학교에서 선생님과 학생은 모두 똑똑합니다. 다만, 학생을 평가할 문제를 만드는 게 쉬운 일이 아닙니다. 즉 AI가 대단한 것보다 인간이 엄청나게 어려운 문제에 대한 측정을 만들어내지 못하고 있는 것입니다.


바꿔 말하면, 질문의 수준 혹은 측정의 수준보다 AI의 가능성이 뛰어난 상태입니다.




2. 측정의 대상은 미래의 방향을 결정한다.


천재적인 아이가 퀴즈의 유형에 따라서 다른 지식을 형성되는 것처럼, 인공지능의 성향과 수준은 우리가 제공하는 측정의 대상에 따라 결정됩니다. 인공지능 모델의 미래 모습은 설계한 측정을 개선 방향으로 바뀝니다. 따라서 무엇을 측정하고 있는지 관찰함으로써 인공지능의 직업을 예측될 수 있습니다.


예를 들어서, AI 모델이 작성한 프로그램에 대해서 두 가지를 측정할 수 있습니다. 1) 코드가 작동하는지 혹은 2) 더욱 창의적인 코드들을 제공할 수 있는지. 그 점수로부터 우리는 인공지능이 개발자를 대체할 수준인지 판단할 수 있습니다. 그런데, 단지 2개를 측정했다고 개발자를 대체한다는 말하면, 이는 큰 오산입니다. 실제로 개발자는 더 많은 능력이 필요합니다. 즉, 측정할 시험을 더 많이 만들어야 합니다.



3. 목표와 측정은 다르다.


측정에 대해서 굉장히 흥미로운 사실은 결국 목표와 측정이 서로 일치하지 않는다는 점입니다. 예를 들어서, "목표: 작가를 대체하는 인공지능을 만들고 싶다". 이것에 대한 측정 지표를 생각해 봅시다.  다음 측정 지표를 생각할 수 있습니다.

측정 1: AI가 암기한 책의 권 수

측정 2: AI가 작성한 글과 사람의 글이 유사한 정도  

측정 3: AI가 창의적으로 새롭게 구성한 이야기의 독창성 평가

측정 4: 독자들이 AI가 쓴 글을 읽고 느끼는 감성 반응 평가

측정 5: AI가 작성한 글에서 드러나는 문법적 정확성과 글의 일관성

측정 6: AI가 다양한 주제와 장르에서 글을 작성할 수 있는 범용성

측정 7: AI가 글을 쓰는 데 걸리는 시간과 사람의 평균 글쓰기 시간 비교

 

혹은 역방향도 생각할 수 있습니다. 측정 5번 "문법적 정확성"을 달성하면 어떤 목표가 자동으로 이루어질까요? 예를 들어서, 글을 교정하는 사람들의 역할이 축소될 수 있습니다. 즉, 측정과 목표는 서로 관계가 있지만, 의도대로 움직이지 않습니다!


현대사회의 AI는 목표측정으로 발전하지만 그 결과는 예상치 못하게 발생합니다. 이러한 불확실성으로부터 AI의 미래는 누구도 예측할 수 없는 상태가 됩니다.



함부로 측정하지 마라


이 이야기의 끝은 이렇습니다.

AI에 대한 목표를 세우고,
측정을 설정합니다.  
성능을 올립니다.

그러나
실제 목표가 달성되지 않을 수 있습니다.
또한 목표 이외에 악의적인 목표가
달성되었을 가능성도 있습니다.


측정에 의한 발전은 새로운 AI의 출현을 가능하게 하며, 인간의 통제 수준을 벗어날 수 있습니다. 지금 나온 AI모델에 대해서 능력 이상의 검증은 이루어지지 않았습니다. 우리는 측정하여 개선한 모델을 만들었고, 모델은 이를 위해서 다양한 능력을 지니게 되었습니다: 그러나, 그 모델이 다른 측정 지표에 대해서 어느 정도의 능력치인지 모릅니다.


그러니까, 모델을 개선하기 위해서 함부로 측정하지 말아야 하고, 측정에 대한 영향과 계획을 세부적으로 논의해야 합니다.


음… AI를 고찰할수록 점점 많은 게 보입니다. 그러나 그 끝은 여전히 모르겠습니다. 단지 중요한 것들을 찾아가는 게 기쁘고 유익합니다. 앞으로도 파이팅.


이전 14화 의료 인공지능 (Medical AI)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari