개발자가 딥러닝을 개발하는 시대
바야흐로 "딥러닝의 엔드유저 시대"가 시작된것이 마구마구 느껴집니다.
즉, 다시말해서 "모델링이나 개발이 필요없이" 딥러닝을 활용하는 이들이 본격적으로 늘어난게 느껴지구요,
그런 딥러닝 엔드유저들을 겨냥한 GPTers, 아카라이브 같은 커뮤니티들도 부쩍 늘어나고 있는게 느껴집니다.
Gemini, ChatGPT나 Claude 같은 LLM을 업무에 활용하는 사용자자나 Stable Diffusion 활용 디자이너, 그리고 SAM 모델로 ComputerVision앱을 개발하는 이들까지..
물론 예상했던 일이지만 말이죠 ...
2012년이후 붐을 이룬 딥러닝의 양상은 크게 다음 네가지 유형이 주인것 같습니다..
1. 딥러닝에 모델코드 개발이 더 중요한 회사(데이타 보단 모델코드나 학습파라미터에 치중)
2. 모델 최적화와 솔루션이나 웹서비스가 더 중요한 회사(모델링 성능 보단 제품화에 치중)
3. 모델개발은 필요없고 데이타와 오그먼테이션이 더 중요한 회사(널려있는 오픈소스 모델 활용)
4. 생성AI와 극소량의 데이터만으로 원샷, 퓨샷으로 모델링하는 회사(합성 데이타 활용)
이미 글로벌 주요AI 기업들은 3단계 나 4단계에 치중하고 있으나 국내 AI업계는 아직도 1단계와 2단계에서 벗어나지 못하고 있는거 같습니다.
그리고 아직 1단계를 고집하고 있는 AI업체들도 많은듯 합니다.. 그동안 그렇게 열심히 모델논문을 읽고.스터디 하는 등, 배운게 아까워서 일까요?
하지만 거대한 흐름은 거스를 수가 없으며 특히 2023년부터 이러한 분위기가 급물살을타는 느낌이 듭니다.
의료인공지능 프로젝트를 해보면, 공부에 도가 튼 의사들이 딥러닝을 개발자들보다 더 잘 알고 있는 경우가 많듯이, 이제 도메인지식으로 무장한 엔드유저들이 딥러닝을 더 잘 활용하고 쉽게 접근하는 시대가 이미 시작되고있다고 봅니다.
이제 pytorch나 keras를 몰라도, 그리고 Gradienr Descent, CrossEntropy Loss, multiHead attention, Mode Collapse, Skip Connection 같은 딥러닝 용어들을 몰라도 딥러닝을 활용할 수 있으며, 오히려 도메인지식이 풍부한 엔드유저들이 더 나은 딥러닝 결과물들을 뽑아내는 시대가 이미 시작된 것이죠.
최근의 Claude code, Gemni-cli 그리고 gpt-5-codex 와 같은 터미널 기반 AI 에이전트들 덕분이기도 하구요 ..!
이 그림은 19세기말에 당대 최고의 엔지니어들이 신사복을 멋지게 차려입고 당시의 고급 문화교류의 장소인 카페에 모여서 커피를 마시며 과학기술에대해 토론하는 모습 입니다.
그들은 저렇게 모여서 당시엔 최첨단 과학기술이었던 모터의 정류자, 삼상전류, 교류위상, 코일 권선기술 같은 걸 열정적으로 토론했었다고 합니다.
하지만 21세기인 오늘날에도 모터는 중요하게 쓰이고있지만 더이상 디테일한 모터기술에 대해 이야기하는 사람은 거의 없죠. 극히 소수의전문가들 끼리만 모터기술은 공유가되고 크게 조명받는 기술도 이젠 아니구요..
아마 딥러닝 기술도 마찬가지가 될것으로 보입니다. 다만 그전 기술들과의 차이점이라면 그 시기가 더 빨리 올거라는 점만 다를 뿐 ..
얀 르쿤 과 제프리 힌튼교수 등 극소수 연구자들 만이 신경망을 연구하던 2010년도 까지는 관련학회에 신경망 논문이 제출되면 무조건 리젝(Reject)되던 시절(인공지능의 2차 겨울 시대)이었다고 합니다. 심지어, "신경망은 일종의 사기다"라는 인식조차 학계에 존재했었다고 해요 ..
하지만 요즘은 신경망 논문이 학회에 과잉으로 넘처나는 시대가 되었죠. 매일 매일 딥러닝논문이 수십편씩 쏟아져 나오는 시대.. 무조건 리젝되던 시대도 비정상적이었지만, 무조건 억셉되지만, 광속으로 잊혀지는 지금 이시대 또한 정상적으로 느껴지진 않아보이는건 ... 비단 저 뿐일까요?
이론은 그럴듯 하지만, 산업현장에서의 딥러닝 프로젝트사업의 실패률은 무려 85%에 육박한다고 합니다.
학습에 필요한 데이타의 양과 라벨링 품질을 가볍게 여기고 도메인 지식을 소홀히 하면서 그저 상품화(GUI, 서비스, SaaS)와 복잡한 모델링에만 매달린 결과가 아닐런지요?
인공신경망과 딥러닝의 가장 중요한 본질은 데이타 드리븐(Data-Driven) 입니다. 잊지 맙시다. 거기에 아무리 복잡한 수학이 쓰이던, 아무리 빠른 GPU가 쓰이던, 그것들은 다 그저 데이타를 거들 뿐 입니다. 트랜스포머란 녀석도 알고보면 결국 더 많은 데이타를 서로 관계맺게 해주는 역할을 할뿐 그이상도 그이하도 아닙니다.
최근의 초거대 모델인 LLM 같은 생성AI열풍도 어찌보면 진짜 중요한 기존의 소규모 모델들의 높은 실패율 때문에 반대급부로 부각되고 있는것인지도 모르겠습니다. 하지만 정작 VLM을 포함 LLM들, 그리고 SDXL 모델들은 자유도가 너무 높아서 정량적인 결과물이 필요한 산업현장에 적용하기엔 무리가 있는것도 현실입니다.
가성비 측면에서도 경쟁력이 떨어지구요. 초거대 생성AI를 쓰기엔 배보다 배꼽이 더 큰 경우도 많지요.
이러다가 정말, 다시 신경망 업계에 세번째 겨울이 찾아오는건 아닐까요?