선한 권력은 이상일 뿐인가?
권력은 알고리즘으로 대체할 수 없는가?
인공지능 기계 학습 분야의 여러 가지 학습 모델 중 강화 학습 이란 알고리즘의 개발과 학습 방법이 있다.
보상과 penalty를 통해 학습해 나가며, 최적의 행동양식과 정책(Policy)을 알고리즘 스스로가 학습해 나가는 것이다.
잘못된 행위 (Action)에는 Penalty 가 부여되고 잘한 행동에는 보상을 주는 방식으로 진행된다.
결과적으로 알고리즘은 잘못된 행위를 지양하고 보상을 추종하며 발전해 나간다.
이는 마치 목표(출구) 지점에 적절한 보상(먹이)이 주어졌을 때 쥐는 보다 빠르게 미로를 학습하고 행동하며 빠져나올 수 있다는 것과 같다.
강화 학습 또한 이러한 보상에 따른 행동 통제의 이론인 행동주의 심리학에서 영감을 받았다고 한다.
아무튼, 이렇게 만들어진 알고리즘은 인공지능의 대표 격으로 알려진 알파고나 휴면형 로봇인 아틀라스(보스턴 다이내믹스 사의 인간형 로봇), 구글이나 테슬라의 자율 주행을 위한 알고리즘으로도 사용되는 인공지능 학습 방법이다.
이러한 인공지능 개발 방법의 가장 중요한 목표와 목적은 앞에서 언급했듯이 학습을 통해 최적의 행동 양식을 찾는 것이다.
알고리즘이 인간과 같은 여러 자연 상황 또는 특수한 상황에 놓였을 때 인간과 최대한 유사한 행동 양식과 판단뿐 만이 아니라 때로는 우리를 넘어선 인간보다 빠르고 정확하고 어려운 문제를 풀 수 있도록 하는 일에 활용되고 있는것이다.
암울한 미래를 다루는 SF 소설에는 가끔씩 인간보다 진보된 기계 문명에 의한 인류 문명의 파괴와 지배에 대해 다루곤 한다. 많은 사람들이 걱정하듯 기계는 인간보다 빠르게 학습하고 감정에 휘둘리지 않으며 무엇보다 무한에 가까운 시간과 자원 활용을 통해 기하급수적으로 발전해 나갈 테니까.
이러한 디스토피아적 세계를 상상해 보면 언젠 가는 우리 문명의 권력 또한 의도한 바이던 의도치 않았던 인간이 아닌 존재에 넘어갈 수 도 있을 거란 생각도 든다.
하지만, 권력이 알고리즘에 넘어간 시대는 모두 디스토피아적 시대인가?
작금의 시대에서의 권력 또한 최고의 선과 최적의 행동양식을 통해 구현되고 있는가?
우리는 권력에 대해 적절한 보상과 Penalty를 통해 올바른 방향으로 나아가도록, 보다 진보해 나갈 수 있도록 하는 사회적인 장치나 합의를 가지고 있는가?
때론 인간의 결점을 지우고 보다 합리적이고 최적의 행동 양식을 소유한 알고리즘으로 우리의 권력을 대체하는 것이 보다 현명하고 모두를 위한 선택이 되지는 않을까?
한계를 보완하며 완벽한 이상 세계를 구현하는 모습으로 알고리즘이 활용될 날이 머지않은지도 모르겠다.
기게스의 반지를 갖게 된 후 왕이 된 목동처럼 절대 권력은 악화하거나 비 이성적이다.
따라서 권력에 대한 우리의 통제와 보상체계는 끊임없이 계속되어야 한다.
알고리즘의 주인이 우리 이듯 권력의 주인도 우리들 이기에...