brunch

매거진 Reviewsdot

You can make anything
by writing

C.S.Lewis

by 은이은의 리뷰닷 Feb 03. 2024

시각으로 세상을 인식하고
LLM과 연계된다

마침내, 로봇이 온다 #03



독자 여러분의 뜨거운 성원에 힘입어 '마침내, 로봇이 온다'의 조회수가 2월3일(토요일) 아침 기준 조회수 4,000을 돌파했습니다. 하리리 소장님도 매우 기뻐하시더군요. 내친김에 더 힘차게 달려보겠습니다.


 연재의 반응이 뜨겁네요.


 그런데 그 표정은 뭐죠?


 뭐 그냥 질투심? 당연한 거 아닌가요? (웃음) 독자님들이 기다리시니까 얼른 하던 이야기 진행하시죠. 한 주 전에 시작한거라 약간 정리를 하고 가면, 새로운 형태의 로봇이 나왔고, 새 로봇의 등장을 지금까지의 로봇과 달리 볼 필요가 있다.' 이런 이야기를 나누고 있었습니다.

소장님은 이 새 로봇의 특징을 세 가지로 정리했습니다. 지난 번 대화때는 첫 번째 특징, '개념적으로 인간이 있는 자리에 함께하거나 그 자리를 대체하도록 설계되었다'는 점을 설명하고 계셨죠. 이와 관련해서 제가, '산업현장에 로봇이 도입된지가 한참 되었는데 BMW가 새 로봇을 생산라인에 투입하기로 한 게 뭐 유난을 떨 일이냐?'고 질문했었습니다.


현대자동차 생산라인의 로봇


 정리를 참 잘 하셨습니다. 제 마지막 대답은 이랬죠. '그것과는 다르다. 그래서 더 문제다'라고요. 저랑 인터뷰 하기 전에 나눴던 얘기로 풀어볼까요? 은 작가님, 동네에서 락밴드 하고 있다고 했죠. 밴드 멤버들이랑 소주 마신 얘기 하면서, 베이스치는 여자 멤버가 화장품 공장에서 알바 일을 했었는데 콘베어벨트 옆에서 하루 종일 화장품 뚜껑 닫는 일을 했고, 너무 힘이 들어서 일을 마치고 나서 엉엉 울었다는 슬픈 사연을 들었다고 했잖아요.


 헉, 왜 갑자기 거기서 그 얘기가...


 생각해보세요. 왜 그 화장품 공장에는 뚜껑 닫는 로봇이 배치되지 않았을까요?


 그거야 회사 규모가 적으니까 그런 거 아닙니까?


 그럴까요? 그럼 또 다른 예를 들어볼께요. 달걀이나 과일이나 마트 매대에 올라간 상품들을 보면 크기가 고르죠? 그거 사람이 할 것 같아요? ( 아니요. 자동 분류하는 공정을 화면에서 본 일이 있습니다.)  그런데, 과일을 따는 걸 로봇에게 시키는 화면은 본 일이 있나요? ( 아니요, 없습니다) 아무리 영세한 업체라도 로봇 한 대 없는 업체는 없습니다. 그걸 로봇이라고 안 부르고 '장비', 혹은 '자동화 설비'라고 부를 뿐이죠. 따라서 지금 사람이 하는 일은 역설적으로 사람이 할 수 밖에 없는 (그게 더 경제적인) 일이기 때문입니다.


 무슨 얘기를 하려는지 잘 감이 안 잡히는데요?


 지금까지 로봇(혹은 자동화 설비)에 일을 시키려면, 첫째 시키려는 일이 '규격화된 일(어떤 패턴을 반복하는 일)'이어야 하고 두 번째, 그 규격화된 일에 맞게 생산라인(콘베이어 벨트와 맞춤형 장비)을 설계하고 제작해서 본전을 뽑을 만큼 대량 제조할 수 있는 물량이 있어야 했습니다.

  아까 얘기한 화장품 공장 사례로 보자면 뚜껑을 돌리는 일 자체야 매우 단순하지만 화장품을 담는 용기가 유행에 따라 수시로 바뀌잖아요. 그러니까 거기에 맞는 장비를 매번 설계해서 배치하는 게 수지타산에 맞지가 않겠죠. 비슷한 예를 또 들어보면 봉준호 감독의 영화 <기생충>에 보면 송강호씨네 가족들이 피자 상자를 접는 장면이 나오잖아요. 왜 이걸 기계로 접지 않고 사람에게 맡기겠어요? 마찬가지입니다. 피자 상자는 새로운 제품이 출시되거나 마케팅적인 이유로 계속 디자인이 바뀌지 않습니까? 그러니까 그걸 접는 로봇을 설계하고 배치하는 게 경제적이지 않습니다. 그래서 사람을 시키는 거죠. 

  두 번째 사례로 보자면요, 토마토나 딸기가 먹음직스럽게 익었다고 칩시다. 그런데 열매가 달린 높이나 위치가 다 제각각이잖아요. 그러니까 그걸 따는 설비를 만들 수가 없는 겁니다. 동작을 분석해서 그걸 반복하도록 하는 게 거의 불가능한 겁니다. 어떤 것이 잘 익은 과일이냐 눈으로 보고 판별하는 문제는 별개로 치더라도요.

그런데 사람은 할 수가 있습니다. 왜냐, 두 다리로 움직이고 자유롭게 움직이는 두 손이 있고 눈으로 사물을 인식해서 행동할 수가 있으니까요. 화장품 용기가 아무리 제각각이어도 눈으로 보고 상황을 파악해서 뚜껑을 닫는 동작을 할 수가 있는 겁니다. 마찬가지로 은 작가님이 말씀하신 자동차 생산 라인에도 용접이나 도색 이런 건 이미 로봇(산업용 로봇)이 하고 있습니다. 그런데 내장재를 조립하는 등의 복잡한 과정은 사람이 합니다. 그게 더 경제적이고 효율적이니까요.


 무슨 말인지 알겠는데요, 먼저 보았던 그 로봇들을 어느 세월에 훈련 시켜서 사람처럼 열매를 따고 뚜껑을 닫게 만들 수가 있을까요? 게다가 자동차 공장에서 일을 시키려면 볼트, 너트는 물론이고 플라스틱 대시보드 관련 등 그 많은 부품을 구분하고 판단하는 게 필요할 텐데요? 그게 가능하겠어요?


 작가님 그런 생각을 하는 것도 무리가 아닙니다. 가만 보니까, 작가님이 독자 입장에서 질문을 하려고 노력하시는 것 같네요. 아주 좋습니다.

그럼 자연스럽게 '마침내, 로봇이 온다 (1)'에서 잠깐 언급했던 새 로봇의 두 번째 특징으로 넘어갈 수 있을 것 같습니다. 새 로봇은 차원이 다른 인공지능과 연계되어 개발되고 있습니다. 그 특징을 좀 더 자세히 말하자면, △ 시각정보로 주변 사물을 인식하고, △ 대규모 언어모델(GPT 시리즈 같은 LLM)과 연계되어 개발되고 있다는 점입니다.


② 새 로봇은 시각정보로 세상을 인식하고 LLM과 연계되어 개발된다



 조금씩 어려워지는 것 같은데 하리리 소장님, 가능하면 쉽게, 짧게 설명해주시면 감사하겠습니다.


 조언 감사합니다. 그러기 위해서 노력중인데, 그래도 쫌 어려워지는 것 같으면 바로 제동을 걸어주세요. ( 네, 그러겠습니다.)

앞에서 라이다 얘기를 잠깐 한 적이 있죠. 초기 자율주행차들이 달고 있고, 보스턴다이내믹스의 로봇 아틀라스도 달고 있는 장비요. 라이다는 주변에 펼쳐진 환경을 3차원 지도로 만들어주는 장비입니다. 그런데 새 로봇은 공통적으로 이 라이다가 아니라, 인간처럼 눈을 달고 있습니다. 달리 말하면, 시각정보에 의지합니다.

그런데 말이죠, 원래는 그게 단점이 많은 방식입니다. 생각해 보세요, 우리 속담에 '똥인지 된장인지 꼭 찍어먹어 봐야 아느냐?'라는 말이 있는데 그건 뒤집어 생각해보면 그냥 보는 것 - 형태나 색깔 만으로는 똥인지 된장인지 구분하기 어려울 수 있다는 뜻이기도 합니다. 둘 다 똥색이고 물컹이는 질감을 갖고 있으니까요.

그래서 20여년 전 만 해도 인공지능 분야에서 로봇이 시각으로 사물을 구분한다는 건 거의 '실현 불가능'에 가까운 기술이라고 여겨졌었습니다. 그런데 말입니다, 컴퓨터 하드웨어(연산속도와 메모리)가 어마어마한 속도로 발전하면서 안 된다고, 불가능하다고 생각했던 게 가능한 일이 되어버렸습니다.

나중에 별도의 자리를 만들어서 인공지능 역사에 대해서도 이야기를 나눴으면 하지만, 지금은 이쯤에서 줄이겠습니다. 참, 은 작가님이 예전에 정리해놓으셨던 글 '간단히 요약해보는 인공지능의 역사 (brunch.co.kr)'이 있죠? 지금 당장 궁금하신 분들은 이 글을 읽고 오셔도 좋을 것 같습니다. 제가 보기에 나름 잘 정리해 놓으셨더라고요.


 감사합니다. 칭찬을 다 해주시고...


 은 작가님 고양이 좋아하세요?


 그렇긴 한데 갑자기 고양이는 왜요?


 작가님 글에는 고양이 얘기는 안 나오던데, 우리가 얘기하고 있는 '시각 정보로 주변 사물을 인식'하는 인공신경망 연구는 고양이를 빼고는 얘기할 할수 없습니다.

아래 그림 잠깐 보실래요? 한 블로거가 정리해놓은 "합성곱 신경망(CNN) / 고양이의 눈에서 답을 얻다. (tistory.com)"라는 글에서 가져온 그림입니다.

복잡한 설명을 다 빼고 결론만 얘기하면 1950년대의 연구자들은 고양이가 선을 시각적으로 어떻게 파악하는지 연구하다가 고양이의 뇌 뉴런이 작동하는 아주 특이한 방식을 발견하게 됩니다. (물론 고양이를 연구하다 발견한 것이지만 고양이의 뉴런만 이런 식으로 작동하는 건 아닙니다.) 이걸 통해서 합성곱 신경망(Convolutional Neural network, CNN)이 탄생하게 되었습니다. 그리고 이 CNN에서 출발해 알파고의 딥러닝이나 대규모 언어모델(LLM)까지 발전하게 된 겁니다. 너무 생략하면 궁금하실까봐, 무식하게 설명을 하면 이렇습니다. (1) 고양이가 모니터에 등장하는 직선을 볼때 특정 각도에서 활성화 되는 뉴런이 다 다르더라. 꼭 회사의 말단 영업사원들처럼. (2) 그리고 이렇게 각각 활성화되는 뉴런들의 정보를 종합해서 받아들이는 뉴런들이 있더라. 회사로치면 팀장급쯤 되겠죠? (3) 그리고 회사의 CEO처럼 이런 정보들을 종합해서 반응하는 뉴런도 있더라. 뭐 이런 얘기입니다. 아마 관심이 있는 분은 본 적이 있을 것 같은 그림인데요, 아래 그림 한 번 봐주세요.


출처 : https://medium.com/coinmonks/the-artificial-neural-networks-handbook-part-1-f9ceb0e376b4


 이 그림은 제 예전 글에 첨부했던 건데 가져오셨네요. 그런데 로봇 얘기를 하다가 너무 멀리까지 오신 거 아닌가요? 독자들이 머리 아파 할 것 같습니다.


 네 이쯤에서 신경망에 대한 얘기는 그만 하겠습니다. 그런데 이 얘기를 안 하고 넘어가면 지금부터 할 얘기가 너무 황당할 것 같아서 안 하고 넘어갈 수가 없었습니다. 역시 진짜 박사님들이 들으시기엔 아주 무식하고 우악스러운 표현일 것 같은데, 이렇게 한 줄로 요약할 수가 있습니다. "신경망을 충분히 촘촘하게 엮어놓고, 이 신경망에 잘 정제된 정보를 어마어마하게 부어주면 인공지능이 만들어진다."


 언뜻 들으면 무슨 '비가 올 때까지 제사를 지낸다.' 뭐 이런 느낌인데요? 인디언식 기우제라고 하나요?


 그래서 제가 황당할 거라고 말씀드렸잖아요. 더 황당한 건 뭔지 아십니까?


 그냥 말씀하시죠. 놀랄 준비 되어있습니다.


 그렇게 형성된 인공지능이 정확히 어떻게 작용하는지 상자를 열고 그 안을 들여다볼 수가 없다는 겁니다. 이걸 소위 블랙박스 문제라고 합니다. 인간은 '검은 상자에 무엇을 넣으면 무엇이 나온다.'만 알 수 있을 뿐 정확히 왜 그렇게 되는 지 알 수가 없다는 얘기입니다.



잘 이해가 안 가실테니까 예를 들어서 설명해보겠습니다. 얼마전 세계를 떠들썩하게 했던 알파고 기억하시죠? 개발자들은 아까 위에서 봤던 복잡한 그물망 모양으로 신경망을 구성하고 여기에 엄청나게 많은 기보 데이터를 입력시켰습니다. 그리고, 좀 과장해서 얘기하자면 그게 다입니다. 그 다음 알파고는 알아서 바둑을 잘 두게 됩니다. 결국 알파고는 매 번 '신의 한 수'를 두게 되는데, 개발자들은 알파고가 왜, 과정을 거쳐서 그런 수를 두게 되는지 알 수 없습니다. 그건 블랙박스 안에서 벌어지는 내용이기 때문입니다.


 이렇게 되면 이야기가 너무 덜 과학적이게 느껴지는데요?


 물론 이것이 무슨 신비로운 현상이거나 그렇다고 말씀드리는 건 전혀 아닙니다. 역시 아주 무식하게 설명을 하자면 '신경망을 구성한 뒤에 정제된 데이터를 부어주면 그 안에서 아주 복잡한 수식이 만들어지는데, 그 수식은 인간이 보고 이해할 수 있는, 그래서 필요에 따라서 즉각 수정할 수가 있는 형태가 아니다.'라고 얘기하는 게 좀 덜 무식한 설명이라고 할까요? 그런데 이거나 저거나 결과는 같습니다. 알 수 없다는 결과 말이죠. 그래서 전세계 최고 구글도 거대언어모델 인공지능을 내놓았다가 창피를 당했죠. AI의 환각현상, 할루시에이션 때문에요.


 그래도 잘 모르겠습니다.


 네. 너무 복잡하니까 그냥 넘어가기로 하죠. 나중에 인공지능에 대해 다시 얘기할 기회가 있을 겁니다. 고양이와 개 구분 얘기는 좀 재미있긴 한데 그것도 나중을 기약하죠. 특히 글같은 빅테크 기업들은 공짜로 소프트웨어를 쓰게 하면서 인공지능을 훈련시키도록 하고 있거든요. 그 얘긴 나중에 하겠습니다.

어쨌든, 결론적으로 제가 강조하고 싶은 것은 "최근 인공지능의 발달 덕분에 시각만으로 주변 지형은 물론, 인간이 인식하는 것과 다르지 않게 사물을 인식할 수 있게 되었다."는 겁니다.

로봇 얘기로 다시 돌아가서 이 문제를 서로 연결시켜보겠습니다. 새 로봇은 인간처럼 눈을 갖고 있는데 발전된 사물인식 덕분에 도로와 차선, 신호등, 이정표, 다른 차량, 사람의 움직임을 인식할 수 있을 뿐만 아니라(테슬라의 자율주행 기술), 그것을 새 로봇에 적용했을 때 빨래도 개고 커피 머신도 작동시키고 식물에 물도 주는 등의 행동까지도 할 수 있게 된 겁니다.

아까 그런 얘기 하셨죠? 자동차의 수많은 부품을 다 구분할 수 있겠냐? 당연히 가능한 일입니다. 그뿐만 아니라 '컨베어벨트로 움직이는 화장품 뚜껑을 닫아라' 이렇게 명령을 내리면 화장품 용기가 크기나 모양이 달라도 그걸 구분해서 작동할 수 있다는 거죠. 또 과수원에 투입을 하면 '빨갛게 잘 익은 딸기를 따라' 이런 일도 시킬 수가 있습니다. 왜냐면 어떤 게 '잘 익은 딸기인지'까지 학습시키면 되는 거니까요.  


 아니 그런데 로봇에게 그런 행동들을 어떻게 일일이 가르친다는 거죠? 생각해 보자구요, 제가 만약 로봇을 집에 사왔다고 가정해보겠습니다. 제가 시키고 싶은 일은 거실 청소와 설거지, 빨래 돌리고 널기, 고양이 똥 치우기 이런 일들입니다. 저는 그렇지만 다른 집에선 또 용도가 많이 다를 것 같은데요. 각 공장도 마찬가지이고요. 그런데 그 많은 일들을 제가 로봇에게 일일이 가르쳐야 한다면 저는 안 살 것 같은데요?  차라리 지금도 잘 팔리는 동그란 로봇 청소기, 식기세척기, 자동식 고양이 변소 (저는 사고 싶은데 비싸서 못 사고 있습니다.) 이런 걸 쓰는 게 훨씬 편할 것 같은데요?


 집안 형편이 썩 좋으신 것 같지 않던데. 머스크가 “옵티머스 가격은 대당 2만달러(약 2880만원) 이하가 될 것으로 예상한다”고 했지만 은 작가님이 집에 들여놓기엔 좀 비싸겠죠. (은 아니, 사람 무시하는 겁니까? ) 이렇게 버럭하실 것 까진 없지 않은가요? 그냥 농담한 건데요. 은 작가님 말씀 맞습니다. 충분히 일리가 있는 얘기에요. 전혀 다른 맥락이긴 한데, 한때는 인간이 코딩을 해서 인공지능을 만들 수 있다고 생각했던 적이 있습니다. 그러니까 이럴 땐 이렇게 해라 일일이 한 줄 한 줄 입력하면 될 거라고 생각한 거죠. 그런데 시간이 지날 수록 어마어마하게 복잡한 수식을 계산하도록 하는 건 쉽지만 인간이, 동물들이 평상시에 아무 자연스럽게 하는 행동들을 분석하고 재현하게 하는 건 그런 코딩으로는 불가능하다는 결론에 도달했죠.

그런데 이미 돌파구가 열려 있습니다. 매트릭스를 보면 주인공 네오가 헬기 조종술을 다운로드 받는 장면이 나오지 않습니까? 바로 그런 방식입니다.


(다음 회에 계속)



 

합성곱 신경망(CNN) / 고양이의 눈에서 답을 얻다. (tistory.com)

https://medium.com/coinmonks/the-artificial-neural-networks-handbook-part-1-f9ceb0e376b4

"알파고를 만든" 강화 학습 이해하기 - ITWorld Korea

인공지능이란 무엇일까? - (선형회귀란?) (velog.io)

https://ko.wikipedia.org/wiki/환각_(인공지능)

[머신러닝]컴퓨터는 어떻게 개와 고양이를 구별하는가??:: 우주를놀라게하자 (tistory.com)

Google은 업데이트된 개인정보처리방침에 따라 AI를 학습시키기 위해 귀하의 데이터를 사용합니다 | 테크파워업 (techpowerup.com)

“구글, AI 훈련위해 사용자 수억 명 데이터 무단 사용” 집단 소송 | KBS 뉴스

















keyword
매거진의 이전글 인간과 함께하거나, 인간을 대체하거나
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari