패션 AI를 만드는 옴니어스에서 살펴보았습니다
2020년이 코앞으로 다가왔습니다. 패션 AI 기업 옴니어스에서는 2019년 눈여겨볼 만했던 AI 관련 이슈를 정리하면서 내년을 맞으려 합니다. 가벼운 마음으로 함께 살펴보시겠어요?
* 각 항목의 순서는 중요도와 무관하며, 본문의 내용은 AI에 대한 전문 지식이 없더라도 쉽게 이해할 수 있도록 작성되었습니다.
(이미지 출처 : 딥마인드의 스타크래프트 2 플레이 영상)
올해 1월, 딥마인드의 AI 알파스타가 스타크래프트 2 프로게이머 두 명을 이겼습니다. 옴니어스에서도 소개해 드린 적 있는데요. 바둑의 신이 된 알파고에 이어 새로운 게임 신의 등장! 이라기엔 아쉬운 점도 남았습니다. 당시 알파스타는 스타크래프트의 세 종족(테란, 저그, 프로토스) 중 프로토스 대 프로토스 경기만 가능했었고요, APM이나 시야 부분에서 사람보다 유리한 조건이라 승리했다는 의견도 많았습니다.
하지만 알파스타는 계속해서 발전하고 있었습니다. 딥마인드는 지난 10월 알파스타가 멀티 에이전트 강화학습(multi-agent reinforcement learning)으로 스타크래프트의 모든 종족에서 그랜드마스터 레벨에 도달했다는 소식을 알렸습니다. 지난 10월 네이처에 게재한 논문에 따르면 알파스타는 사람과 비슷한 수준의 시야 정보 및 명령 속도(APM)를 가진 상태로 스타크래프트 공식 게임 서버인 배틀넷에서 게임에 임했습니다.
상위 0.2%라는 우수한 성적도 놀랍지만, 통제된 환경이 아닌 실제 게임 유저들과 배틀넷에서 겨루며 학습했다는 점이 특히 인상적이었는데요. 알파스타는 궁극적으로 여러 행위자가 참여하는 복잡한 환경에서도 작동하는 AI의 등장을 의미합니다. 딥마인드는 알파스타 개발에 활용한 기술들이 일반적인 AI 시스템의 안정성을 발전시키고 현실 세계의 영역에서 연구를 발전시키는 데 도움이 되길 바란다는 입장을 남겼습니다.
참고자료
→ AlphaStar: Grandmaster level in StarCraft II using multi-agent reinforcement learning, Deepmind
이미지 인식을 위한 딥러닝에 가장 보편적으로 활용되는 CNN. 최근에는 단순히 CNN의 레이어 개수를 늘리는 것보다 더 효율적으로 성능이 좋은 CNN 구조를 자동으로 찾는 Neural architecture search(NAS)에 기반한 연구들이 활발히 이루어지고 있습니다.
올해 5월 구글 인공지능 연구팀에서 발표한 EfficientNet는 CNN을 스케일업하는 효과적인 방법을 제시합니다. 기존에는 CNN의 하나의 차원(width, depth, resolution)에 대해 크기를 임의로 조정했지만, EfficientNet에서는 적절한 계수를 찾아 목표로 하는 모델 크기나 예산에 맞게 조정해 전체 차원들을 균일하게 스케일업 합니다.
(이미지 출처 : Google AI Blog)
결론적으로 EfficientNet은 비슷한 수준의 정확도를 보이는 다른 모델에 비해 최대 10배 더 효율적인 모델을 학습합니다. 출시된 시점을 기준으로 다른 CNN 모델들과 비교했을 때 정확도(ImageNet top-1 기준 84.4%) 및 효율성이 높은 데다 속도도 더 빨랐어요. 이전보다 Image Classification에서 높은 성능을 보이는 EfficientNet에 이어 11월에는 이를 Object detection에 적용하여 성능과 효율을 높인 EfficientDet 연구도 발표되었습니다.
참고자료
→ EfficientNet: Improving Accuracy and Efficiency through AutoML and Model Scaling, Google AI Blog
→ EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 리뷰, HOYA012'S RESEARCH BLOG
2018년, 페이스북 AI 연구원들은 수십억 장의 인스타그램 사진에 달린 해시태그를 classification model의 정확도를 높이는 트레이닝에 활용할 수 있다는 것을 입증했습니다. 해시태그 데이터는 노이즈가 많기 때문에 간접적인 레이블 데이터(weakly labeled data)로 볼 수 있는데요, 1500개의 해시태그로 10억 개의 이미지를 학습해 이미지넷 벤치마크에서 top-1 85.4%의 정확도를 달성했습니다.
(이미지 출처 : Facebook Engineering Blog)
연이어 지난 11월 구글 리서치 팀에서는 페이스북의 기록을 앞선 87.4%의 정확도를 달성합니다. 구글에서는 이를 위해 EfficientNet 모델을 이미지넷의 레이블된 이미지로 학습하고, 3억 장의 레이블 없는 이미지(unlabeled image)들의 pseudo label을 만들기 위한 'teacher'로 활용했습니다. 그런 다음, 새롭게 학습된 student model보다 complexity가 더 큰 EfficientNet을 teacher로 두고, 새로운 student model을 다시 학습합니다. 위 논문에서는 이렇게 student model을 teacher model로 만드는 과정을 반복해 최종 모델을 제시했습니다.
이렇듯 페이스북과 구글의 사례처럼 비용이 적게 드는 레이블 없는 데이터를 모아 학습 데이터로 활용하는 시도가 다양해지는 추세입니다.
참고자료
→ Facebook at NeurIPS 2019, Facebook Research
→ Self-training with Noisy Student improves ImageNet classification, Google Research
옴니어스에서 작년에도 주목했던 이슈인 GAN(Generative Adversarial Networks), 진짜 같은 가짜 이미지를 만드는 기술은 빠르게 발전을 거듭하고 있습니다. 올해 2월 Nvidia 연구원들이 오픈소스로 공개한 StyleGAN을 이용한 웹사이트 ThisPersonDoesNotExist으로 대중에도 더욱 널리 알려졌어요.
(이미지 출처 : ThisPersonDoesNotExist)
가짜 이미지를 생성하는 GAN은 사회의 부정적 이슈를 생성하기도 합니다. 영상 속 인물의 얼굴을 합성 대상의 얼굴로 바꿔치기하는 딥페이크(Deepfake) 기술이 그 대표적인 예시입니다. 연예인 얼굴을 합성해 포르노 영상을 만드는 것은 물론, 지난 6월에는 페이스북 CEO 마크 저커버그의 딥페이크 영상이 나와 정치 이슈에도 악용될 수 있음을 보여주었는데요. 가짜 인물 사진과 딥페이크 영상은 전문 지식이 없더라도 쉽게 제작할 수 있는 툴이 배포 중이어서 이러한 문제가 더욱 심화될 가능성이 있습니다.
물론 GAN은 사용 목적에 따라 공공의 이익을 위해 활약할 수 있는 기술입니다. 9월에 발표된 한 논문은 익명으로 처리되어야 할 인터뷰 등에서 대상자의 프라이버시를 지키기 위해 얼굴을 바꿔치기하는 기술을 소개합니다. 아직 연구 단계의 기술이지만 대상의 얼굴 표정 등을 아예 새로 창조해 기존의 모자이크 방식보다 진보된 형태로 인터뷰 대상자의 신상 공개 위험을 없앨 수 있습니다.
참고자료
→ 사람 낚는 인공지능이 있다? 딥페이크 이야기, 옴니어스
→ Deepfakes could anonymize people in videos while keeping their personality, MIT Technology Review
AI는 이제 기업 채용이나 병원 검진, 은행 대출 심사를 돕는 등 연구실 밖에서도 다양하게 활용됩니다. 그래서 XAI(eXplainable Artificial Intelligence, 설명 가능한 인공지능)의 필요성이 더욱 높아지고 있습니다. 의사 결정의 근거를 말할 수 있는 AI여야 사용자가 그 결과를 납득할 수 있기 때문입니다.
(설명 가능한 AI에 대한 출간물 증가 그래프, 이미지 출처 : Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI)
미국 국방성 DARPA(Defense Advanced Research Projects Agency)에서는 2016년부터 XAI로 AI의 의사결정에 대한 근거를 제시할 수 있도록 하는 연구를 계속하고 있습니다. 국내외 다양한 기업 및 연구기관에서도 중요성을 높게 평가하는 주제이며, IBM의 왓슨 오픈스케일(Watson OpenScale)이 현재 출시된 제품 중 대표적인 XAI 사례입니다. 아직 획기적인 기술이 개발되었다고 보기는 어렵지만 수요가 계속해서 상승 중인 기술이기에 앞으로를 기대할 만합니다.
참고자료
→ AI에게 이유를 묻다: 설명 가능한 인공지능(XAI: eXplainable AI), KERIS
→ Explainable Artificial Intelligence (XAI), DARPA
2018년에는 음성 전화 예약을 돕는 구글 듀플렉스, 자율주행 택시 웨이모 등 다양한 제품들이 출시되어 대중의 놀라움을 얻었습니다. 2019년에는 이미지 인식 분야의 성능 개선이 이어지는 동시에 딥러닝 모델 output의 신뢰도를 높이기 위해 데이터의 bias를 줄이는 영역에서 많은 개선이 이루어졌는데요. 2020년에는 어떤 모습으로 발전할지 기대됩니다. 옴니어스에서도 눈여겨볼 만한 소식을 전할 수 있도록 더욱 노력하겠습니다!
함께 읽으면 좋은 포스팅
바둑왕 AI, 스타크래프트 2 정복하다?! : 문과생이 털어본 스타크래프트 2 프로토스 제왕 ‘알파스타’