사실 AI의 성능과는 다른 본질적 문제
워낙 AI가 뜨거운 감자인 주제인만큼 참 어떻게 말을 시작해야할 지 모르겠다. 고차원미디어 데이터분석과 컴퓨팅 신경망 분석 대학원 수업을 이번 학기로 갈무리하며 (어휴 시발, 존나게 어렵네. 안 되는 머리로 수업 따라가느라 피똥 싸는 줄. 두번이나 드롭했지 뭐야) 머신러닝과 생성형 모델을 구별해 특징 추출 파라미터를 이제 겨우 스스로 튜닝할 정도의 식견은 가지게 되었다, 아직 갈길이 참 멀구나 생각하는 나에 비해 흘러 넘쳐나오는 컨텐츠들을 보면 어쩜 다들 그렇게 자신감 있게들 말하는지 말이다. 와중에 현업에서 현재 실무자로 직접 모델을 뜯어고치며 골머리를 썩는 분들은 자기 전문 도메인에 대해 알리는 컨텐츠는 만들지언정 현재 트렌드에서 말하는 산업과 변화 전망, 이것은 기회인가 위기인가 어쩌고 부류의 흐름에는 탑승을 되려 기피하는 분위기다. 나는 소프트웨어 쪽 분들이 배포하는 컨텐츠보다는 좀 더 모델 개발 쪽 현업 종사자분들의 이야기를 더 듣고 싶은데. 나는 클라이언트 facing의 UX/CRO research 쪽이라서 이 분들과 업계에서 마주볼 일이 없어가지고...ㅋㅋ
여튼 소프트웨어 개발자분들이 만든 AI에 대한 인사이트 컨텐츠를 보고도 어느 부분은 공감이 참 안가고, 테크 쪽 종사자가 아닌 분들의 컨텐츠를 봐도 그들의 우려나 불안감은 이해가 가지만 뭔가 정보 제공차원에서 핀트가 묘하게 엇나간 느낌이다. 그렇다고 그 분들의 생각이 틀렸다거나 우려가 이해가 안 가는 것은 아니다. 그들이 말하는 이익 혹은 위기도 상당 부분 공감이 간다. 다만 내가 본 관점에서 내가 얻은 정보값과 참 겹치는게 없다는 생각은 든다.
그럼에도 나는 그 이야기 플로우에 끼고 싶지 않았다. 내가 말하는 것은 AI를 추종하는 사람들이든 AI에 반감을 가진 사람들이든 양쪽 중 한군데도 공감을 얻지 못할 것을 알기 때문이다. 이게 참 그렇다. 특정 분야를 전공하고 다방면에서 콜라보 프로젝트를 많이 해보다보면 좀 시야가 넓어진다는 (그만큼 참 좆뱅이를 다방면으로 쳤다는) 장점이 있긴한데 그렇기에 더 자신있게 말을 꺼내기가 어려워진다는 것이다. 자신있게 내가 아는 걸 말하려면 내가 알고 있는 특정 도메인 지식을 하나하나 디테일을 풀어야하는데 대부분 그 지점에서 종사자/전문가가 아닌 사람들은 자기 관여/관심 분야가 아니기 때문에 바로 관심을 끊어버려 딱히 이야기를 하는 것에 대한 효능감을 느끼지 못하는 현타가 빨리 와서 말을 더 안 하게 된다.
저작권과 보안, 개인정보, 지적재산과 비실존적인 개인정체성 및 인격 보호 관련으로 정책으로 이야기가 흘러갈 수록 더욱 그러하다. 정책과 저작권과 같은 컨텍스트/도입/결과/원인 컨텍스트를 총 집결해서 봐야하는 주제일수록 흑과 백으로 딱 잘라 기다아니다 말할 수가 없는 사안이라 결국 니 말도 맞고 너 말도 맞다는 말을 해 양쪽에서 뚜까맞게 된다. 혹은 그것과 이것은 다르다 말할 때 대부분 사람들은 어떤 사안을 군집을 갈라 분류해 양 극단의 케이스 혹은 과적합으로 일부 샘플링을 전체가 대변하는 듯 말하는 경향이 짙기에(인간이 가진 특성이다. 나 또한 그러한 걸) 그 어떤 방향이든 한 방향의 입맛에 딱 맞아 떨어지는 대답을 주지 못하면 마찬가지로 뚜까맞기 딱 좋다.
우선 당장 LLM Gen AI를 그냥 다짜고짜 AI로 퉁치지 말라부터 합의가 필요한데 이것에 대한 설득에도 실패했으니.
생성형 딥러닝 기반 모델과 특징추출기반의 전통ML 모델링 기법을 몇몇 케이스에서 비교했을 때 후자가 압도적인 성능을 증명했다는 논문을 쓰고 있는 입장에서 데이터 사이언스에 대한 트윗을 쓰면 나랑 코드가 맞는 ML원론과 그래픽스/음향 분석에 대해 본질적인 특징 추출에 대한 견해를 나눌 사람들은 아무도 나서지 않고 만사에 LLM Gen AI 만능설을 주장하는 계정들이 바이럴 용으로 내 포스트만 입맛대로 싹 골라 인용하고 있으니 답답할 노릇이다.
혹자는 이런 말을 하는 내가 Anti-LLM으로 오해하고 야 너도 AI쓰면서 내로남불이네! 라고 지적한다. 누차 말하지만 나는 LLM Gen AI 자체를 부정한 적은 없다. 써야할 때는 안 쓰고 쓰지 말아야 할 때 쓰는 '규제 없는 오남용 사용자 케이스'의 급증과 그걸 방치하고 돈 벌이를 하는 대형 '기업'들의 폭주, 그것에 대한 적절한 '규제'를 고민하고 내놓기엔 너무나 진도가 느린 정치,법안, 그리고 이를 제대로 이해하고 다양한 각도에서 토론을 해서 현실적인 해결책 혹은 중용책에 대해 논의하기엔 너무 뜨거운 공론으로 분위기를 몰아가는데만 집중하는 대중의 흐름이 우려될 뿐이다.
나는 LLM Gen AI는 실제 서비스 제공이나 Public으로 발행되는 '생성 결과물'을 '직접적'으로 쓰지 말아야하는 입장이다. 혹은 그 생성 결과물로 부당한 이익을 취하지 말아야 한다에 가깝다. 그럼 어느 부분에 쓰길 권장하는가.
나는 아이디어를 빠르게 맵핑하고 초기 프로토타이핑 단계에서 MVP(가장 빠르게 최선의 것만 발행해 반응을 보는 베타 혹은 알파 테스팅 단계)를 구현하는 단계, 아이디어 무드보드를 만들어 조직 내부나 클라이언트, 외부 협력시 커뮤니케이션을 원할하게 하는 서포트 자료 구현, 혹은 내가 빠르게 리서치를 구성해 흩어진 아이디어를 빨리 섬머리를 구현해 Reading In 인지과부하가 오기 전에 그 중압감 좀 덜어주는 서포트 같은 경우 말이다. 혹은 내가 아직 스스로 이해가 좀 더딘 생소한 분야에서 빠르게 간결한 정리를 제공받아 일을 진행하는데 특정 보틀넥 구간에서 일이 막히는 부분을 좀 뚫어줘 각 도메인 분야가 다른 전문가들과 협업할 때 일을 내가 계속 진행할 수 있게 Summary를 받는 정도의 서포트 툴에서 한정해야 한다는 편이다. 한마디로 생성 결과에 대해 인간이 그걸 인지하고 컨트롤 할 수 있는 시간텀을 줘야하며 propagation 단계에서 쓰이고 완성과 작업 진행은 인간의 컨트롤이 들어가야한다.
그리고 이것을 사용할 때 생성되는 결과물을 절대로 그대로 따다가 직접 쓰지 말고, 리퍼런스나 구성 소재로 사용 영역을 지정해서 쓰고 리퍼런스 기록을 꼭 남겨야한다는 입장이다. 이건 단순히 도의 혹은 윤리적 문제가 아니라 이걸 숙지 안하면...실제로 망테크를 탄 프로젝트를 꽤 자주 봤기 때문인데 이것에 대한 이야기는 다음 기회에 더 자세히 풀어보겠다. (법률팀과의 유쾌하지 않은 대화라던가, 감사 공지라던가, 서버광탈로 소비자 고발 당한다던가 큼큼...)
그 외에도 여러 괜찮은 사용케이스는 많다. 성대결절이 와서 더 이상 노래를 부를 수 없는 작은 무명 인디밴드의 리드보컬이 자기가 이전에 발행하거나 녹음한 수 많은 보컬믹스 파일들을 Synthetic 음성합성 및 재생성 모델을 이용해 자기 목소리의 보컬라인을 MIDI로 음역대를 지시해 DAW에 보컬 음원으로 사용한다던가 비싼 스튜디오와 녹음장비 대여 및 믹스와 마스터링 비용을 감당할 수 없는 활동단체에서 자신들의 슬로건 응원가를 당장 내놔야 할 때 스플라이스 샘플과 멜로디 라인 템플릿을 생성형 모델을 사용해 비용을 줄이는 경우라던가 말이다. 전자는 본인의 목소리를 로컬모델로 재생성한 것이고 후자는 이 생성물의 사용처가 스트리밍사이트나 음원 발매로 발생하는 수익에 목적이 아닌 비영리 단체활동에 쓰는 용도이니 저작 침해나 타 지적재산물 생산자 시장을 교란 시키는 일도 없다. 후자는 애초에 수익성을 목적으로 두지도 않아 본인들에 아무런 손익이 없어 사용유무를 공지도 제대로 하는 편이다.
광고수익에 눈이 멀어 자동생성물로 컨텐츠 플랫폼을 도배하고 스트리밍을 점유해 플랫폼 공급망에 크고 작은 다양성을 압도하며 점유율을 가져가 부정적 수익을 얻고 더 나아가 남의 저작물을 마구 받아 그걸 토대로 합성해서 만드는 경우, 신뢰가 중요한(실사용 후착 후기가 아주 중요한 상품 페이지나 정보의 정확성이 중요한 컨텐츠) 구간에서 마구 남용하거나, 리팩토링도 하지 않고 마구 바이브 코딩으로 생성한 코드를 프로덕션에서 푸시해서 대규모 보안 사고를 터지게 한다는 경우를 우리는 딱 집어서 비판을 해야한다.
나쁜 놈은 한 두개만 병크를 터트리지 않는다고...안 좋은 사례는 한 두개의 잘못된 예를 가지지도 않아서 대부분 이렇게 양산형 컨텐츠로 플랫폼 생태계를 교란하는 사람들은 AI사용 유무 고지도 안하고 남의 저작물도 마구 긁어가고, 신뢰자산이 중요한 때와 장소에서도 마구 남발하며 피로감을 유발한다. 그리고 자신들의 오남용 사례를 정당화하기 위해 정당하게 사용한 사례를 긁어다가 자기 방어를 위해 인용한다. 내가 데이터 사이언스에서 배운 지식으로 인터랙티브 미디어를 창작한다는 포스팅에 정작 내 작업물에 대해선 한번도 알티 안 하면서 저 트윗만 쏙 빼가 자기들 LLM Gen AI 연계 서비스를 홍보해대는 스타트업 바이럴 계정들처럼 말이다.
대부분의 경우 기술 자체는 죄가 없다. 그 기술을 정작 써야할 때는 안 쓰고(크고 작은 장애를 가진 이들에게 어시스트를 제공하고 이를 위해 접근성을 낮춘다던가) 안 써야할 때 마구 써버려 문제가 발생하는 것이다. 적절한 규제는 이런 문제가 소진하는 사회 신뢰자산과 실제 기형적으로 한쪽에만 몰아가는 경제 재정을 다시 순환구조로 흐르게 하는 장점이 있다.
유사한 예시로 우리가 일상생활에서 사용하는 여러 진보된 기술들과 화학물을 보자. 이 화학 원료만 따지면 여러 전쟁에서 대량 학살용 무기로 쓰인 경우를 찾을 수 있다. 이 원료를 쓰기 때문에 앞으로 이 생활품, 혹은 기술을 도입한 의료 서비스를 제한하자!는 말이 안된다. 근데 그렇다고 해서 이 학살의 피를 기반으로 발전해 온 기술과 화학은 우리 실생활에 도움이 되니까 규제를 풀고 제한을 두지 말고 마구마구 쓰게 하자!며 악용 케이스를 정당화해서도 안 된다는 것이다. LLM AI에 대해서 과할 정도로 맹신을 하는 이들은 매번 이런 논리로 트롤링을 해대서 유독 내가 데이터 사이언스, ML, AI 키워드를 넣고 포스팅하길 주저하게 된다.
퍼블릭으로 배포가 된 그림이나 음악, 글 등 저작물은 이미 인터넷에 나온 이상 이건 공공재라며 마구 긁어가고 부당하게 사용하는 경우도 마찬가지다. 공공장소에서 나체로 취약자가 거리를 활보하면 그 취약자를 안전한 곳으로 피신 시키는 게 옳은 일이지 그가 공공장소에 취약하게 나체로 나왔다고 해서 그의 몸을 탐하거나 강도,상해를 입혀도 된다는 말이 아닌 것처럼 말이다.
규제를 이용하면 AI를 발전시켜 앞서나가기에도 시급한 시점인데 뭔 규제냐고 말한다. 규제란 하지말라 막는 것이 아니다. 어느 사용케이스가 적법하고 건강하고 어느 사용케이스가 부적절한지 가이드라인을 차츰 발전시켜 적법하고 건강한 사용케이스는 적극 지원해서 더욱 활용하는 기술을 다양하게 키워 그걸 필요로 하게 인큐베이팅하고 부적법하고 보안과 윤리를 위법하는 케이스는 규제해 '신상필벌'을 확실히 하자는 것이다. 성장을 막는 게 아니라 무분별하게 뻗어 되려 성장을 가로막는 사단을 막기 위해 잡초제거와 가지치기를 하는 것이다.
그리고 까놓고 말해서, 이미지와 비디오, 글을 마구 생성하게 더 정교하게 복사하고 생성하는 상품과 기술을 마구 풀어 B2C로 배포하는 게 더 잘 팔릴거 같냐, 미디어를 인풋으로 제공했을 때 합성패턴을 픽셀 단위로 분석해서 메타태그 분류하는 인프라를 정부주도로 지원을 받아 구축해 정보보안과 저작보호를 강화한 시스템을 프레임워크화 패키지로 구성해서 개인정보와 저작권에 민감한 유럽이나 아세안 국가들과 수주계약 맺는 수익이 더 클까...?
개인이나 기업들의 사용성과 접근성을 막지는 않되 사용처를 무분별하게 마구 점령하고 오염 데이터로 정보 인프라망을 도배하지 않게 관리하고, 기업들은 함부로 개인 저작물이나 개인 정보를 아무렇지 않게 긁어가지 않게 감독한다고 해서 수익창출이 막히진 않는단 이야기다. 돈을 버는 아이디어는 목적과 서비스를 제공하는 타겟이 명확하고 그 니즈를 속 시원하게 긁어줄 때 나오는 건데 적합한 규제와 제도는 이를 장려할 뿐이지 막진 않을거라 생각한다.
두서없이 생각나는 데로 글을 써보았다. 그래서 하고싶은 말이 뭐냐면...음 너무 말하고 싶은 포인트가 많아서 딱히 저도 정리는 못하겠네요.
걍 이 글이 이 주제에 관해 여러 시각에서 생각해 본 사람들에게 다른 관점에서의 질문을 던진다면 그걸로 족한달까.