9가지 트렌드
지난 몇 년에 핫한 키워드를 꼽아보라면 누가 뭐라 해도 '인공지능'과 '블락 체인'이 꼽힐 것이다. 근데 항상 이 두 가지 콘셉트는 일반 소비자들에게 잘 와 닿지 않았고 나름 이 분야에 가깝다고 생각했던 나조차도 그렇게 느꼈다. 그래서 이번엔 CB Insights 가 발행한 2020년 AI 관련 트렌드 리포트를 정리해보려고 한다.
1. Deepfake의 활성화
Deepfake란 인공지능의 영상 합성 및 조작 기술을 뜻하고 '안 좋은 용도' (정치적 음모, 유명 연예인의 포르노 등)로 쓰여서 논란이 일기도 했던 기술이다. 2019년 12월에 스냅이 유크레인의 AI Factory라는 Deepfake 회사를 $166M에 인수하여서 주목을 받기도 했다.
단순 컴퓨터 그래픽으로 만들려면 인력과 시간이 많이 필요했지만 이제 슬슬 Deepfake의 '좋은 면'이 마케팅에서는 활용되기 시작하려는 모양이다.
아래는 Synthesia가 Deepfake로 만든 데이비드 베컴. 9가지 언어로 말라리아 캠페인을 광고한다.
https://www.youtube.com/watch?v=QiiSAvKJIHo
온라인 쇼핑에서 직접 나에게 옷을 입혀보고 주문을 할 수 있다면?
이제 언어의 장벽은 정말 옛날 얘기인 것인가?
수많은 연예인/인플루언서들: 몸이 2개였으면 좋겠다는 말도 옛날 얘기
2. 해킹의 AI화
AI시대의 해킹은 두 가지로 분류된다. 1) AI 알고리듬을 망치는 공격 2) AI를 활용한 공격
만약 해커가 '보안'에 사용 중인 AI알고리듬을 정확하게 이해하고 있으면 어떻게 될까? AI가 취약점을 발휘할만한 오염된 데이터를 주입할 수 있다면? (Data posioning). 심지어 AI가 만들어낸 '가족'의 목소리로 전화가 온다면? 위에서 나온 Deepfake도 마찬가지로 보이스 피싱 혹은 페이스 피싱(?)에 활용될 수 있을 것이다.
또 하나의 맹점은 많은 AI algorithm은 오픈소스이기 때문에 해커들도 활용이 가능하다는 점.
해커들은 AI를 마음껏 활용할 수 있다
모든 알고리듬은 약점이 있다
제조업계를 포함한 좀 더 전통적인 산업들은 AI 해킹의 공격에 전혀 준비가 안되어있다
3. AutoML이 미래이다
AutoML이란 Machine Learning을 세상에 존재하는 문제들에 자동으로 적용시키는 과정을 칭한다. 시간이 오래 걸리는 반복적인 작업을 자동화 함으로써 효율과 생산성을 올리면서도 어느 정도 모델의 정확도를 보장하는 모델을 만드는데 활용되는 많은 AI 도구들을 지칭할 때 사용하고 결국 AutoML의 등장은 많은 회사들과 개인들의 AI를 처음 접할 때 느끼는 진입장벽을 많이 낮춰줄 것이다.
AI 전문가들의 수는 부족하지만 AutoML로써 전문가의 필요성이 줄어들 것이다
AI를 사용할 때 필요한 비용과 복잡도가 내려간다
4. Federated Learning: AI의 제일 큰 고민인 Data가 해결되는 것인가?
Federated Learning 아직은 좀 생소한 단어였다. 블락 체인의 사생활 보호 방식과 비슷하게 들리는 이 콘셉트는 결국 개인의 데이터는 개인의 Device (스마트폰 등)에 그대로 저장되어있고 클라우드에서 돌아가는 알고리듬을 업데이트하는 용도로만 암호화된 뒤 전송되는 방식이다. 에너지적으로 효율적이기도 하다.
참고: https://ai.googleblog.com/2017/04/federated-learning-collaborative.html
최근에 NVIDIA의 Clara가 Federated Learning을 지원한다고 한다.
개인 Data의 사생활을 보장하면서 AI를 활용할 수 있다면 정말 좋지 아니한가?
궁극적으론 개인 간, 조직 간, 나라 간의 데이터 공유가 가능해질지도?
5. 알파벳 (구글)의 지배력은 더 강화된다
알파벳 (구글)은 이제 스마트시티 사업마저 지배하려나보다. 자회사인 Sidewalk Labs을 통해서 토론토 지자체와 다른 사업체들과의 계획을 공개한 바 있다.
예를 들어 Sidewalk Labs에서 spin-off 한 Replica라는 회사는 사람들의 출퇴근 행동 데이터를 모으고 있다고 하고, 미국 오레곤주의 포틀랜드와 일리노이주의 지자체는 Replica의 서비스를 벌써 계약한 바 있다.
알파벳의 자회사들 Deepmind, Waymo, Sidewalk Labs 등을 보라. 앞으로 구글의 영향력은 더 커질 듯.
작은 회사들은 작은 서비스 / 데이터 포인트를 정부에게 전달할 뿐인데 구글의 자회사는 처음부터 끝까지 다해주는 식이다
구글의 막대한 자본력으로 공무원들의 위험 회피적 성격을 어느 정도 달래줄 것이다
6. AI가 쓰는 전산 에너지는 어마어마해서 AI가 직접 해결해야 할 것이다
많은 AI 알고리듬이 대기업에 의해서 개발되고 open-source화 되는 이유는 결국 AI를 제대로 하려면 엄청난 전산 에너지가 필요하기 때문이기 여서도 하다.
크게 두 가지가 있다. 1) 에너지를 효율적으로 쓰는 AI 2) AI를 활용한 에너지 관리
많은 AI를 활용하는 기업들이 1)에 관심이 있을 것이고 (위에 Federated Learning과도 관계가 있다) 많은 IT 대기업, 자동차 제조업, 석유산업이 2)에 관심이 있을 것이다.
하드웨어 회사들은 Machine Learning 그리고 AI를 어떻게 에너지를 덜 쓰면서 활용할 수 있을까 고민할 것이다 (특히 스마트폰 등 가전제품)
재생에너지들의 사용도가 올라가는 것은 당연한 이야기이지만 누가 더 효율적으로 사용할지는 어려운 문제이다
7. Doing more with less
AI의 제일 큰 문제는 Data의 부족함이다. 그렇다면 방법은 두 가지. 1) 그럴듯한 가짜 데이터를 만들던가 2) 부족한 Data로 정확도를 높이던가
Deep learning은 많은 데이터를 요 구로 하고 여러 가지 문제들로 인해 Data를 모으기란 어렵다. 여기서 synthetic data (가짜 데이터)가 등장한다. 예를 들어 Nvidia에 의하면 가짜 MRI사진들을 활용하여 희귀 병들 진단에 활용된 사례가 있다.
부족한 Data로 정확도를 높이는 방법은 컴퓨터 비전 분야에서 조금 더 활용되고 있다. Transfer Learning이란 한 분야에서 Train 된 모델을 다른 분야에서 활용하는 것이다. 여기서 두 분야는 당연히 관계가 있어야 한다. 예를 들어 자동차를 찾는 모델을 트럭을 찾는 모델에서 활용한다던지 하는 것이다.
언어분야인 Natural Language Processing (NLP) 분야에서도 '다음 단어" 예측에 활용되고 있는 Self-supervised pre-training도 지켜봐야 할 것이다.
NLP 모델들의 발전으로 인해 드디어 사람 같은 챗봇을 만나게 될지도
주로 대기업들이 모델을 만들 것이다
Synthetic data 만들기는 소규모 회사들이 잘 활용해야 할 기술이다
8. Quantum ML의 파급효과
Hybrid 모델이라고 불리는 전형적인 Machine Learning과 Quantum AI의 만남은 점점 실용화되어가고 있다. 보통 컴퓨터와 달리 Quantum 컴퓨터는 qubit을 사용하고 qubit의 값은 0과 1 사이의 아무 값을 가질 수 있게 된다. 그 말은 결국 전산과정이 엄청나게 복잡해진단 애기다.
아직은 이론적인 성향이 강하지만 Xanadu라는 스타트업을 벌써 Quantum ML을 활용하는 모델을 내놓았다.
서버가 AWS 등으로 대중들에게 다가갔던 것처럼 Quantum 컴퓨터도 잘하면 언젠간 대중화될 수도?
9. NLP알고리듬의 응용
언어가 무수한 단어들의 조합으로 이루어져 예측하기가 힘든 것처럼 단백질과 유전자 변이도 마찬가지다. 다른 분야 (언어)에서 만들어진 알고리듬이 과학에서도 사용될 수 있을까?
많은 신약들이 단백질을 타깃 하는 만큼 신약개발에서의 AI활용도는 점점 높아질 것이다
관련포스트:
출처: https://www.cbinsights.com/research/report/ai-trends-2020/