코딩하는 건축가 : 16일

강화학습, 코세라, 케이무크

by 코드아키택트

바쁘다 바빠 현대사회. 나는 기술로 하고 싶은 것이 있다. 비전이라는 건 약간 막연하면서도 하고 싶은걸 이야기해야 한다고 한다. 그런 면에서 내가 하는 작업은 앞으로 다가올 인구절벽과 고숙련 노동자 은퇴를 대비하는 것이다. 요즘 많은 AI와 관련된 이야기가 나오지만 나는 그중에서 강화학습을 우선 선택했다.


강아지가 무언가를 배우는 것과 비슷한 강화학습

내가 이해한 강화학습이란 이렇다. 강아지가 정확한 정답 없이도 먹이와 혼냄(?)이라는 보상을 통해 다양한 행동을 배우는 것과 같은 게 강화학습이라고 생각한다. 다른 예로는 로봇 깡통 수거 로봇을 들 수 있다. 깡통 수거 로봇이 깡통을 수거할 때마다 +1의 보상을 준다. 한스탭 이동하는 데는 0의 보상을 준다. 유휴시간마다 -1 보상을 설정한다. 만약 작동 중 배터리가 방전된다면 -무한대 보상을 준다. 이게 대략적인 강화학습의 이해다. 더 정확히는 State, Action, Reward라는 세 가지 키워드로 자주 이야기하는데 이건 내가 좀 더 공부해 봐야겠다.


코세라(Coursera)와 케이무크(Kmooc)

나는 코세라에서 배우는 것을 좋아한다. 아무래도 사대주의를 버리지 못한 모양이다. 코세라는 AI 석학 중 하나인 Andrew Ng이 공동창업한 Mooc 플랫폼이다. 그래서 그런지 초기에는 Andrew Ng의 수업을 여기서 볼 수 있었다. 객관적으로 AI를 제대로 들으려면 스탠퍼드에서 유튜브에 무료로 푼 CS 시리즈를 들어야 하지만 나는 수료증의 유혹을 떨칠 수 없었다.

코세라를 들으려면 소정의 금액을 내야 한다. 작년 초에는 학생 신분에 돈도 없었기 때문에 코세라를 쉽게 들을 수 없었다. 그러던 와중 케이무크에서 수강권 행사를 해서 수강권을 받아 공부를 할 수 있었다.

케이무크는 한국형 무크라고 한국의 다양한 강의들을 모아놓은 사이트다. 몇몇 강의들은 학점은행제 등과 연계되는 것으로 알고 있다. 조금 아쉬운 점이라면, 내가 한창 구직 및 학업 준비를 할 때 케이무크의 수강증이 큰 효력은 없었다는 점이다. 아무래도 케이무크에 대해 사람들이 잘 모르기도 하고 아무것도 모르는 사람들은 오히려 국가공인 자격증을 더 원하기 때문에 그런 아쉬움이 있었다.

아무튼 수강권을 얻어 수업을 들을 수 있는 일은 좋은 일이었다.


사람을 대체하기 위해선는 강화학습

나는 이렇게 믿는다. 최근 생성형 AI가 유행하지만 나는 이들이 특정 행동을 배운다고는 보지 않는다. 가령 ChatGPT의 경우 통계에 기반해 가장 그럴싸한 단어를 계속 나열하는 방식에, 사람의 피드백을 반영한 RLHF라는 방식을 쓰고 있다.

Diffusion 모델들은 내가 잘 모르지만, 수천만장 이상을 백터론적 공간, Latent space에 앰배딩 한 후, 앰배딩 공간에 쿼리를 통해 새로운 이미지를 만드는 것이라고 알 고 있다.

두 생성형 모델은 일종의 답지가 미리 정해져 있는 경우에만 그리고 그 답지가 변하지 않는 경우에만 사용하는 것으로 알고 있다.

반면 강화학습은 리워드에 따라 움직이기 때문에 원하는 방향이 변하는 상황에서도 비교적 유연하게 대처할 수 있는 것으로 알고 있다. 물론 나의 이런 방구석 이론과는 별개로 최근에는 강화학습이 크게 주목받지 못하고 있다. 그래 알파고가 강화학습이었다.

아무튼 이런 리워드에 따라 움직이는 속성은 사수한테 혼나며 어떤 일을 배우는 우리 모습처럼 특정 행동을 배울 수 있다고 나는 믿고 있다. 그리고 그것이 건축 버전의 알파고처럼 몇 년 안에 나오리라 상상하고 있다. 이를 대비하기 위해서 나는 배운다. 끝이 이상해졌다. 아무튼

keyword
작가의 이전글코딩하는 건축가 : 15일