2020년 1월 9일 (목) 구글 AI 리서치 블로그
Google Research의 목표는 사람들의 일상생활에 큰 도움이 될 수 있는 문제를 해결하는 데 중점을 두고 장기적이고 야심적인 문제를 해결하는 것입니다. 2019년 목표를 달성하기 위해 광범위한 기초 연구 영역에서 발전했으며, 의료 및 로봇 공학과 같은 새로운 신생 영역에 연구를 적용했으며, 다양한 코드를 오픈 소스로 제공하고 Google product 팀과 지속적으로 협업하여 구축했고, 우리의 사용자들에게 매우 유용한 도구 및 서비스들도 제공했습니다.
2020년에 시작하면 한 걸음 물러서서 지난해에 수행한 연구 작업을 평가하고 향후 몇 년 동안 어떤 문제를 해결하고자 하는지를 기대합니다. 이 블로그 게시물은 (2018년 유사한 리뷰 및 2017년 및 2016년 일부 작업에 대한 세밀하게 집중된 리뷰를 한 정신으로) 2019 년 Google 연구원 및 엔지니어들이 수행한 일부분의 연구 중심 작업에 대한 설문 조사입니다. 좀 더 포괄적인 보기를 하려면 2019년 연구 출판물들을 참조하십시오.
AI의 윤리적 사용
2018 년에는 우리의 제품에 있어서 머신 러닝과 같은 기술에 대해 자체 연구 및 응용 프로그램을 평가하는 프레임워크를 제공하는 AI 원칙들을 발표했습니다. 2019 년 6 월, 연구 및 제품 개발 수명주기의 여러 측면에서 이러한 원칙이 어떻게 적용되는지에 대한 1년 업데이트를 발표했습니다. 원칙에 의해 다루어진 많은 영역이 광범위한 AI 및 머신러닝 리서치 커뮤니티 (예: 편향(Bias), 안전, 공정성, 책임, 투명성 및 머신러닝 시스템의 프라이버시)의 활발한 연구 영역이므로, 우리의 목표는 이 분야에서 현재 가장 잘 알려진 기술을 우리 작업에 사용하고 이러한 중요한 분야에서 최신 기술을 계속 발전시키기 위한 연구를 수행합니다.
예를 들어 작년에 우리는:
새로운 Cloud AI 제품에 대한 모델 카드들을 출시할 수 있는 새로운 투명성 도구에 관한 연구 논문을 발표했습니다. Cloud AI Vision API Object Detection 기능의 모델 카드 예를 볼 수 있습니다.
Activation Atlases가 신경망 동작을 탐색하고 머신러닝 모델의 해석 가능성(interpretability)을 지원하는 방법을 보여줍니다.
차등 개인정보 보호(Differential privacy)를 보장하는 머신러닝 모델을 훈련하는 오픈소스 라이브러리인 TensorFlow Privacy를 소개했습니다.
ML 실무자들이 기계 학습 모델의 부당하거나 의도하지 않은 영향을 식별할 수 있도록 공정성 지표의 베타 버전을 출시했습니다.
[그림1] 상세 설명 - 공정성 지표에서 슬라이스를 클릭하면 What-If Tool 위젯 내에서 해당 슬라이스의 모든 데이터 포인트가 로드됩니다. 이 경우 "여성"레이블이 있는 모든 데이터 요소가 표시됩니다.
ML 공정성을 개선하기 위해 페어와이즈 비교 및 정규화가 대규모 생산 추천 시스템에 통합되는 방법에 대한 KDD'19 논문을 발표했습니다.
머신러닝 연구의 공정성을 생산 분류 시스템에 적용하는 것에 관한 사례 연구에 관한 AIES'19 논문을 발간하고 기회 평등을 구현할 때의 분포적 차이를 고려한 공정성 측정 및 조건부 평등을 설명했습니다.
다음과 같은 질문을 하는 텍스트 분류 문제의 반사실적 공정성에 대한 AIES'19 논문을 발행했습니다: "샘플(Sample)에서 참조하는 민감한 특성이 다른 경우 예측이 어떻게 변경될까요?"라고 온라인 콘텐츠의 독성을 평가하는 프러덕션 시스템을 향상시키기 위해 이 접근 방식을 사용했습니다.
딥페이크(Deepfakes) 식별 연구에 도움이 되는 새로운 데이터셋을 출시했습니다.
[그림2]의 상세 설명- Google이 FaceForensics 벤치 마크에 기여한 비디오 샘플. 이를 생성하기 위해 영화배우들을 쌍으로 무작위로 선택했으며, 심층 신경망(deep neural network)은 한 영화배우의 얼굴을 다른 영화배우의 머리로 교환했습니다.
사회적 이익을 위한 AI
머신러닝이 많은 중요한 사회 문제를 도울 수 있는 엄청난 잠재력이 있습니다. 우리는 다른 여러 분야에서 작업을 수행했으며 다른 사람들이 창의력과 기술을 적용하여 그러한 문제를 해결하도록 노력하고 있습니다. 홍수는 지구 상에서 가장 흔하고 치명적인 자연재해로 매년 약 2억 5천만 명의 사람들에게 영향을 미칩니다. 우리는 머신 러닝, 컴퓨터의 조작(computation) 및 더 나은 데이터 소스를 사용하여 훨씬 더 정확한 홍수 예측을 하고 영향을 받는 지역에 있는 수백만 명의 사람들에게 실행 가능한 경보를 전달했습니다. 또한 Google과 광범위한 연구 커뮤니티의 홍수 예측, 수문학 및 머신러닝에 대한 전문 지식을 갖춘 연구원들을 모아 워크숍을 개최하여 이 중요한 문제에 대해 더 협력할 수 있는 방법을 논의했습니다.
홍수 예측 노력 외에도 세계 야생 동물을 더 잘 이해하는 기술을 개발하고 7개의 야생 동물 보존 단체와 협력하여 머신러닝을 사용하여 야생 동물 카메라 데이터를 분석하고, 미국 NOAA와 협력하여 수중 녹음에서 소리들로 부터 고래 종과 위치를 식별했습니다. 우리는 또한 새로운 종류의 머신러닝 지향 생물 다양성 연구를 가능하게 하는 일련의 도구를 만들고 발표했습니다. 가나의 Accra에 있는 Google 연구원은 6차 미세한 시각적 분류 워크샵을 조직하는 데 도움을 주기 위해 Makerere University AI & Data Science 리서치 그룹의 연구원들과 협력하여 카사바 식물 질병 분류(Cassava Disease Classification)에 관한 Kaggle competiton을 만들고 운영했습니다. 카사바는 아프리카에서 두 번째로 많은 탄수화물 공급원이므로 식물 건강은 중요한 식량 안보 문제이며 87개 팀에서 100 명 이상의 참가자가 대회에 참여하는 것을 보는 것이 좋습니다.
2019 년에 Google 어스 타임 랩스(Google Earth Timelapse)를 업데이트하여 사람들이 지난 35 년간 지구의 변화를 효과적이고 직관적으로 시각화할 수 있습니다. 또한 인간 이동성에 대한 데이터를 집계하여 도시 계획자들에게 탄소 배출량이 적은 효율적인 환경을 설계하는 방법에 대한 더 나은 정보를 제공하기 위해 새로운 개인정보 보호 방법에 대해 학계 연구자들과 협력하고 있습니다.
또한 우리는 아동기 학습을 지원하기 위해 머신러닝을 적용했습니다. UN에 따르면 6억 6,700만 명의 어린이들은 삶의 질을 결정하는 기본적인 문해력이 없습니다. 더 많은 어린이들이 읽기를 배우도록 돕기 위해, Bolo 앱은 학생들을 실시간으로 지도하는 음성 인식 기술을 사용합니다. 접근성을 늘리기 위해 이 앱은 저렴한 전화에서 완전히 오프라인으로 작동합니다. 인도에서 Bolo는 이미 80만 명의 어린이들이 이야기를 읽고 50억 단어를 말하는 것을 도왔습니다. 초기 결과는 고무적입니다. 인도의 200개 마을 중 3개월간 파일럿은 파일럿 참가자들의 64%에서 읽기 능력이 향상되었습니다.
고등학생의 경우 Socratic앱은 수학, 물리학 및 1,000개가 넘는 고등 교육 주제에 복잡한 문제가 있는 고등학생을 도울 수 있습니다. 또한 이 앱은 사진 또는 구두 질문을 기반으로 질문의 기본 개념을 식별하고 가장 유용한 온라인 리소스에 대한 링크를 자동으로 식별합니다. Socratic 메서드와 마찬가지로 이 앱은 질문에 직접 대답하지 않고 대신 학생들이 스스로 답을 찾도록 유도합니다. 우리는 Bolo 및 Socratic과 같은 것들을 통해 전 세계의 교육 성과를 향상할 수 있는 광범위한 가능성에 대해 기쁘게 생각합니다.
사회적 이익을 위한 AI의 범위를 넓히기 위해, 5월에는 Google.org 2,500만 달러의 지원금으로 AI Impact Challenge의 수상자들을 발표했습니다. 우리는 119개국에서 2,600개 이상의 신중한 제안을 받았습니다. 20개의 인상적인 단체가 큰 사회적 및 환경적 문제를 해결할 수 있는 잠재력을 보여 주었으며 최최의 수상자들이었습니다. 이러한 조직의 작업에 대한 몇 가지 사례는 다음과 같습니다 :
Fondation Médecins Sans Frontières (MSF)는 이미지 인식 도구를 사용하여 저 자원 상태(현재 요르단에서 시험 중)의 임상 직원이 항균성 이미지를 분석하고 특정 환자의 감염에 사용할 항생제에 대해 조언하는 데 도움이 되는 무료 스마트폰 응용 프로그램을 만들고 있습니다.
10억 명이 넘는 사람들이 소규모 농장 세대에 살고 있습니다. 단일 해충 공격으로 농작물 수확량과 생계가 파괴될 수 있습니다. Wadhwani AI는 이미지 분류 모델을 사용하여 해충을 식별하고 농약 살포시기와 시기에 대한 적절한 조언을 제공하여 작물 수확량을 궁극적으로 개선합니다.
불법 삼림 벌채가 기후 변화의 주요 운전자인 열대 우림의 깊숙한 곳에서 Rainforest Connection은 생물 음향 모니터링 및 오래된 휴대전화에 딥러닝을 사용하여 열대 우림 건강을 추적하고 위협을 탐지합니다.
AI 응용 프로그램을 다른 분야로
컴퓨터 과학 및 머신러닝을 다른 과학 분야에 적용하는 것은 특히 여러 조직에서 공동 작업을 할 때 흥분되고 많은 논문을 출판한 분야입니다. 올해의 주요 내용은 다음과 같습니다.
비행 두뇌의 대화형, 자동화된 3D 재구성에서, 우리는 각 개별 뉴런을 힘들게 추적할 수 있는 머신러닝 모델을 사용하여 전체 비행 두뇌의 구조를 매핑하는 이정표를 달성한 공동 노력에 대해 보고했습니다.
PDE (Partial Differential Equations)에 대한 더 나은 시뮬레이션 메서드 학습에서 우리는 머신러닝을 사용하여 기후 과학, 유체 역학, 전자기, 열전도 및 일반 상대성 이론의 많은 기본 계산 문제의 핵심 인 PDE 계산을 가속화하는 방법을 보여주었습니다.
[그림4] 상세 설명 - 유체의 충격파 모델인 버거스 방정식(Buerger's equition) 시뮬레이션은 표준 유한 체적법(왼쪽) 또는 신경망 기반 방법(오른쪽)으로 해결되었습니다. 주황색 사각형은 저해상도 그리드에서 각 방법의 시뮬레이션을 나타냅니다. 이 포인트는 각 시간 단계에서 모델로 피드백되어 변경 방법을 예측합니다. 파란색 선은 훈련에 사용된 정확한 시뮬레이션을 보여줍니다. 신경망 솔루션은 파란색 선을 부드럽게 추적하는 주황색 사각형으로 표시된 것처럼 4배 더 거친 그리드에서도 훨씬 좋습니다.
우리는 냄새를 맡는 학습: 분자의 후각 특성을 예측하기 위해 딥러닝을 사용하여 더 나은 향기의 세계를 제공했습니다. 우리는 손으로 만든 규칙을 사용하지 않고 그래프 신경망(GNN)을 활용하여 개별 분자의 냄새 설명자를 직접 예측하는 방법을 보여주었습니다.
[그림4] 상세 설명 - 악취가 강조된 임베딩 공간의 2D 스냅샷. 왼쪽: 각 냄새는 자체 공간에 모여 있습니다. 오른쪽: 악취 서술자(odor descriptor)의 계층적 특성. 음영 처리 및 윤곽선 영역은 임베딩의 커널-밀도 추정값으로 계산됩니다.
화학과 강화 학습 기술을 결합한 연구에서 분자 최적화를 위한 프레임워크를 제시했습니다.
머신러닝은 또한 우리의 예술적이고 창조적인 노력에 도움이 될 수 있습니다. 아티스트는 AI 및 AR과 협업하고 머신으로 춤을 추는 것에서 안무를 재구성하는 것, 머신러닝 도구를 사용하여 새로운 멜로디를 만드는 등 흥미로운 새로운 형태를 만드는 방법을 찾았습니다. ML은 초보자도 사용할 수 있습니다. J.S. 바흐의 생일을 축하하기 위해 우리는 ML로 구동되는 기념일 로고(Doodle)를 선보였습니다. 멜로디만 만들면 ML 도구가 바흐 스타일의 조화를 만들 수 있습니다.
보조 기술
보다 개인적인 규모로 ML은 일상생활에서 우리를 도울 수 있습니다. 아름다운 이미지를 보거나 좋아하는 노래를 듣거나 사랑하는 사람과 이야기할 수 있는 능력을 당연하게 여깁니다. 그러나 10억 명이 넘는 사람들이 이런 방식으로 세상에 접근할 수 없습니다. ML 기술은 이러한 신호(시각, 청각, 언어)를 접근성 요구가 있는 사람들이 잘 관리할 수 있는 다른 신호로 전환하여 주변 세계에 더 잘 접근할 수 있도록 도와줍니다. 다음은 보조 기술의 몇 가지 예를 보여줍니다 :
Lookout는 시각 장애가 있거나 시력이 약한 사람들이 주변 환경에 대한 정보를 식별하도록 도와줍니다. 휴대전화를 가리키기 만하면 주변의 물체를 검색하고 조치를 취할 수 있는 Google Lens와 유사한 기본 기술을 사용합니다.
Live Transcribe는 청각 장애가 있는 사람들이 일상적인 상호 작용에서 더 큰 독립성을 제공할 수 있는 잠재력을 가지고 있습니다. 음성이 다른 언어로 되어 있어도 사용자가 참여한 대화 내용을 실시간으로 기록할 수 있습니다.
Project Euphonia는 개인화된 음성을 텍스트로 복사를 수행합니다. ALS를 가진 사람들과 비속어 또는 비표준 언어를 생성하는 다른 사람들을 위해 이 연구는 다른 최신 ASR 모델에 비해 자동 음성 인식(ASR)을 개선합니다.
Project Euphonia와 마찬가지로 Parrotron은 엔드-투-엔드 신경망을 사용하여 통신을 개선하지만, 이 연구는 전사(텍스트 복사)가 아닌 자동적으로 음성 변환에 중점을 두어 일부 사람들이 보다 쉽게 접근 할 수 있는 음성 인터페이스를 제시합니다.
온라인에서 수백만 개의 이미지에 텍스트 설명이 없습니다. Get Image Descriptions from Google는 시각 장애인 또는 시력이 약한 사용자가 라벨이 없는 이미지를 이해하는 데 도움이 됩니다. 설명 없이 화면 판독기에 이미지나 그래픽이 표시되면 Chrome에서 자동으로 만들 수 있습니다.
Lens for Google Go에서 시각적 텍스트를 오디오 형식으로 읽을 수 있는 도구를 개발하여 글을 잘 아는 사용자가 주변의 단어가 많은 세계를 탐색할 수 있도록 도와줍니다.
휴대전화를 보다 지능적으로 만들기
대부분의 작업은 온-디바이스 머신 러닝을 사용하여 휴대전화에 새로운 기능을 제공함으로써 지능형 개인용 장치를 구현하는 데 기여합니다. 기기에서 실행할 수 있는 강력한 모델을 만들면 이러한 휴대전화 기능이 응답성이 뛰어나고 비행기 모드나 네트워크 외부에서도 항상 사용할 수 있습니다. Google은 기기에서 실행되는 매우 정확한 음성 인식 모델, 비전 모델 및 필기 인식 모델을 개발하여 강력한 새 기능을 위한 길을 열었습니다. 올해의 주요 특징 중 일부는 다음과 같습니다:
여러분의 기기에서 재생 중인 모든 비디오를 항상 사용할 수 있는 on-device captioning with Live Action 의 론치.
오디오 정보를 인덱싱하고 쉽게 검색할 수 있는 강력한 새 Transcribing recorder app을 만듭니다.
Google Translate's camera translation의 개선은 익숙하지 않은 언어로 텍스트를 가리키고 상황에 맞게 즉시 번역할 수 있습니다.
ARCore에서 Augmented Faces API를 출시하여 새로운 실시간 AR 자체 표현 도구를 사용할 수 있습니다.
사용자가 손으로 장치와 상호 작용하고 제어할 수 있는 새로운 방법을 제공하는 on-device, real-time hand tracking 데모.
온 스크린 모바일 키보드를 위한 향상된 RNN 기반 온-디바이스 필기 인식.
스마트 폰 카메라를 사용하여 보다 정확한 방향을 설정하고 세계에서 길을 찾는 데 도움이 되는 새로운 글로벌 현지화 방식을 출시했습니다.
연합학습(Federated learning)(온라인 만화 설명을 확인 하세요!)은 2015년 Google 연구원이 발명한 강력한 머신 러닝 방식으로, 모바일 클라이언트나 전체 조직과 같은 많은 클라이언트가 모델을 공동으로 학습하면서 교육 데이터를 분산된 상태로 유지합니다. 이를 통해 대규모 학습 시스템에서 우수한 개인 정보 보호 속성이 있는 접근 방식이 가능합니다. 우리는 점점 더 많은 제품과 기능에서 연합 학습을 사용하고 있으며 이 분야의 많은 연구 문제에서 최첨단 기술을 발전시키기 위해 노력하고 있습니다. 2019년 Google 연구원은 24개(!) 교육 기관의 저자들과 협력하여 연합학습(Federated Learning)에 대한 설문 조사 기사를 작성했으며, 지난 몇 년간의 발전을 강조하고 해당 분야의 여러 공개 연구 문제를 설명합니다.
컴퓨터 사진 분야는 지난 몇 년 동안 전화 카메라의 이미지 품질을 크게 향상했으며 올해도 예외는 아닙니다. 올해는 더 멋진 셀카 촬영, 전문가 수준의 피사계 얇은 심도 이미지 및 인물 촬영, Pixel Phones의 야간 투시 기능을 사용하여 멋진 천체 사진을 찍기 쉽게 만들었습니다. 이 작업에 대한 자세한 기술 정보는 다중 프레임 초 해상도 및 매우 저조명 조건에서 모바일 사진에 관한 논문에서 찾을 수 있습니다. 이 모든 작업은 인생의 마법의 순간을 기억하기 위해 멋진 사진을 찍을 수 있도록 도와줍니다.
건강
2018 년 후반에 Google Research health 팀, Deepmind Health 및 Google Hardware 부서의 팀을 결합하여 건강 관련 응용 프로그램에 중점을 두어 Google Health을 형성했습니다. 2019 년에는 이 분야에서 추구하고 있는 연구를 계속하고 다양한 의료 파트너와 협력하여 연구 논문을 게시하고 도구를 제작했습니다. 2019 년의 주요 특징은 다음과 같습니다:
우리는 유방 조영술에 대한 딥러닝 모델이 의사가 유방암을 발견하는데 도움이 될 수 있음을 보여 주었습니다. 유방암은 평생 동안 미국 여성 8명 중 1명에게 1명에게 영향을 미치며 전문가보다 정확도가 높으며 위양성 및 위음성을 모두 줄입니다. 영국의 병원에서 비식별 처리된 데이터에 대해 훈련된 이 모델은 미국의 완전히 다른 의료 시스템에서 환자를 평가할 때 비슷한 정확도를 얻었습니다.
피부 질환의 감별 진단을 위한 딥러닝 모델이 1차 진료 의사보다 훨씬 더 정확하고 피부과 의사보다 훨씬 더 나은 결과를 제공할 수 있음을 보여주었습니다.
미국 보건국 재향 군인국(VA)의 전문가들과 함께 일하면서, Google Health의 일원인 DeepMind Health 동료들은 피할 수 있는 환자의 주요 원인 중 하나인 최대 2일 전에 피해를 입히는 급성 신장 손상(AKI)의 발병을 머신 러닝 모델이 예측할 수 있음을 보여주었습니다. 앞으로 의사들은 이 심각한 상태를 치료하는데 48 시간 헤드 스타트를 줄 수 있습니다.
우리는 딥러닝 적용을 여러 파트너 조직과 함께 전자 건강 기록으로 확장했습니다. 이 작업에 대한 자세한 내용은 2018 블로그 게시물을 참조하십시오.
우리는 폐암을 예측하기 위한 기대할 수 있는 진전을 보여 주었습니다. 폐암의 조기 발견 시 훈련된 방사선 전문의 보다 동등하거나 더 나은 단일 CT 스캔 연구의 결과를 검사하기 위한 딥러닝 모델을 사용했습니다. 폐암의 조기 발견은 생존율을 크게 향상합니다.
우리는 Verily 및 인도 및 태국의 의료 파트너와 협력하여 안 질환 예방 및 예방을 위한 머신러닝 도구의 배치를 지속적으로 확장하고 평가했습니다.
암 진단을 위해 증강 현실 현미경에 대한 연구 논문을 발표했습니다. 병리학자는 현미경을 통해 조직을 검사하면서 슬라이드의 어떤 부분이 가장 흥미로운 지에 대한 실시간 피드백을 얻을 수 있습니다. 2018 블로그 게시물에서 자세한 내용을 확인할 수도 있습니다.
우리는 병리학자들이 유사한 사례를 검사함으로써 보다 효과적인 진단을 할 수 있도록 인간 중심의 유사한 이미지 검색 도구를 만들었습니다.
양자 컴퓨팅
2019년에 우리의 양자 컴퓨팅팀은 세계에서 가장 빠른 클래식 컴퓨터보다 양자 프로세서에서 기하급수적으로 10,000 년에 비해 단 200초로 더 빠르게 실행될 수 있는 컴퓨팅 작업을 처음으로 시연했습니다.
[그림6] 상세 설명 - 왼쪽: 극저온에 장착된 Sycamore 프로세서에 대한 아티스트의 표현(풀 해상도 버전; Forest Stearns, Google AI Quantum Artist in Residence) 오른쪽: Sycamore 프로세서 사진(풀 해상도 버전: Erik Lucero, 연구 과학자 및 양자 하드웨어 프로덕트 리드).
양자 컴퓨터를 사용하면 재료 과학, 양자 화학(초기 예) 및 대규모 최적화와 같은 영역에서 중요한 문제가 발생할 수 있지만, 이를 실현하기 위해서는 계속해서 현장을 발전시켜야 합니다. 우리는 이제 더 이상 계산을 실행할 수 있도록 양자 오류 수정을 구현하는 데 집중하고 있습니다. 또한 양자 알고리즘을 보다 쉽게 표현하고 하드웨어를 보다 쉽게 제어할 수 있도록 노력하고 있으며 심층 강화 학습과 같은 고전적인 머신러닝 기술을 사용하여 보다 안정적인 양자 프로세서를 구축하는 방법을 찾아냈습니다. 올해의 성과는 고무적이며 실제적인 양자 컴퓨팅을 보다 다양한 문제에 대한 현실로 만들기 위한 초기 단계입니다.
양자 컴퓨팅 이정표의 의미에 대해 Sundar의 생각을 읽을 수도 있습니다.
일반 알고리즘과 이론
알고리즘과 이론의 일반적인 영역에서 우리는 알고리즘 기반에서 응용 프로그램에 대한 연구를 계속했으며 그래프 마이닝 및 시장 알고리즘에서도 연구했습니다. 그래프 학습 알고리즘에서 일부 작업을 요약한 블로그 게시물은 해당 작업에 대한 자세한 내용을 제공합니다.
비록 "이 멋진 방법으로 데이터센터의 서비스 용량을 40 % 늘릴 수 있습니다!" 라는 다른 제목이 있지만, "데이터센터 애플리케이션의 캐시 인식 로드 밸런싱"이라는 제목으로 VLDB'19에 논문을 제출 했습니다. 이 백서에서는 웹 검색 백엔드 서비스 시스템에서 캐시를 특수화하기 위해 균형 잡힌 그래프 분할을 사용하여 플래시 드라이브의 쿼리 처리량을 48%를 늘리고 전체 검색 백엔드의 처리량을 40% 증가시키는 방법을 설명합니다.
[그림7] 상세 설명 - 웹 검색 서빙에서 플래시 IO 요청의 히트맵(캐시 누락으로 인한 결과). 3개의 혹은 무작위 리프 선택, 로드 밸런싱 및 캐시 인식로드 밸런싱(왼쪽에서 오른쪽으로)을 나타냅니다. 선은 50번째, 90번째, 95번째 및 99.9번째 백분위 수를 나타냅니다. "데이터 센터 애플리케이션의 캐시 인식로드 밸런싱" VLDB의 19 논문에서 발췌했습니다.
"새로운 개는 오래된 트릭들을 배운다: RL은 고전적인 최적화 알고리즘을 찾는다"의 ICLR'2019 논문에서, 우리는 강화 학습이 온라인 매칭 및 할당과 같은 일반적인 온라인 최적화 조합 문제에 대해 최적의(최악의 경우, 균일한) 알고리즘을 효과적으로 찾을 수 있는 방법을 보여주는 알고리즘과 머신러닝 사이의 새로운 연결을 발견했습니다.
확장 가능한 알고리즘에 대한 우리의 작업은 빅 데이터 세트를 위한 병렬, 온라인 및 분산 알고리즘에 걸쳐 있습니다. 최근의 FOCS'19 논문에서, 우리는 연결된 컴포넌트에 대해 거의 최적의 병렬 연산 알고리즘을 제공했습니다. 본 논문의 다른 세트는 (이론 및 실습에서)매칭 및 밀도 클러스터링(Density Clustering)을 위한 병렬 알고리즘을 개선 했습니다. 그리고 세 번째 작업은 기능 선택 및 어휘 압축에 여러 응용 프로그램이 있는 블랙박스 모델에서 하위 모듈 기능을 적응적으로 최적화하는 것과 관련이 있습니다. SODA'19 논문에서, 우리는 근사 계수, 근사값 복잡성 및 쿼리 복잡성이라는 세 가지 측면에서 거의 최적인 하위 모듈식 최대화 알고리즘을 제시했습니다. 또한 다른 FOCS2019 논문에서는 PCA 및 열하위 집합 선택을 위한 최초의 온라인 곱셈 근사 알고리즘을 제공합니다.
다른 연구에서는 미지의 미래에 예측 가능한 부분과 적대적인 부분이 있다고 가정하는 반-온라인 계산 모델을 소개합니다. 이분법 일치(ITCS'19) 및 캐싱(SODA'20)과 같은 고전적인 조합 문제의 경우 최상의 온라인 및 오프라인 알고리즘 사이를 원활하게 보간할 수 있도록 Semi-online 알고리즘을 얻었습니다.
최근 시장 알고리즘 영역에 대한 연구에는 학습과 시장간의 상호 작용에 대한 새로운 이해와 실험 설계의 혁신이 포함됩니다.
학습과 시장사이의 상호작용에 대한 새로운 이해를 포함한 마켓 알고리즘에 대한 우리의 최근 연구는 실험적인 설계의 혁신을 포함합니다.
예를 들어, 이 NeurIPS'19 oral paper은 일반적으로 반복하는 2인 게임에서 전략 요원이 학습 요원과 경쟁할 때 갖는 놀라운 경쟁 우위를 보여줍니다. 최근 광고 자동화에 중점을 두어 자동화된 입찰 및 광고주의 응답 행동에 대한 관심이 높아졌습니다. 한 쌍의 WINE2019 논문에서 Google은 광고주를 대신하여 전환을 극대화하기 위한 최적의 전략을 연구하고 경매 변경에 대한 광고주의 응답 행동을 추가로 학습합니다. 마지막으로, 한 그룹의 처리가 다른 그룹의 결과에 영향을 줄 수 있는 간섭이 있는 상태에서 실험 설계를 연구했습니다. KDD'19 논문과 NeurIPS'19 논문에서 실험적인 거듭제곱(experimental power)을 유지하면서 간섭을 제한하기 위해 unit 또는 unit cluster들을 정의하는 방법을 보여줍니다.
[그림8] 상세 설명 - KDD'19 논문 “지리적 클러스터링을 통한 무작위 실험 디자인”의 클러스터링 알고리즘은 미국의 사용자 쿼리에 적용됩니다. 이 알고리즘은 대도시 지역을 자동으로 식별하여 베이 지역에 샌프란시스코, 버클리 및 팔로 알토가 포함되지만 새크라멘토는 포함되지 않음을 정확하게 예측합니다.
머신러닝 알고리즘
2019년에는 다양한 머신러닝 알고리즘 및 접근 방식에 대한 연구를 수행했습니다. 한 가지 주요 초점은 신경망에서 훈련 역학의 속성을 이해하는 데 었었습니다. 이 논문에서 강조된 데이터 병렬 훈련의 한계 측정 블로그 게시물에서, Google 연구원들은 데이터 병렬 처리의 양을 조정할 때(더 큰 배치를 만들어서) 모델이 더 빨리 수렴할 수 있는 효과적인 실험 결과를 제시했습니다.(데이터 병렬 처리 사용).
[그림9] 상세 설명 - 테스트한 모든 작업에 대해 배치 크기와 훈련 속도 사이의 보편적인 관계를 관찰했습니다. 작은 배치 크기를 사용한 완벽한 확장(점선에 따라), 결국 배치 크기가 커짐에 따라 수익이 감소함(점선에서) 최대 배치 크기 (트랜드가 정체되는 위치)에서 최대 데이터 병렬 처리. 일정한 형태들 사이의 전환 지점은 다른 워크로드마다 크게 다릅니다.
모델이 여러 계산 장치에 분산되어 있는 데이터 병렬 처리와 달리 모델 병렬 처리는 효과적인 모델 확장 방법이 될 수 있습니다. GPipe는 파이프라인된 CPU 프로세서에서 사용하는 것과 유사한 방식으로 모델 병렬 처리를 보다 효과적으로 수행할 수 있는 라이브러리입니다. 전체 모델의 한 부분이 일부 데이터에서 작업하는 경우 다른 부분은 해당 부분에서 작업할 수 있습니다. 다른 데이터에 대한 계산. 이 파이프 라인 접근법의 결과를 결합하여 더 큰 배치 크기를 시뮬레이션할 수 있습니다.
머신 러닝 모델은 원시 입력 데이터를 가져와서 모델이 구별할 수 있는 속성 (고양이 대 트럭 대 누우, 악성 조직 대 정상 조직)으로 여러 종류의 예를 구분하는 "분리된(disentangled)" 상위 레벨 표현을 배울 수 있을 때 효과적입니다. 머신러닝 알고리즘을 발전시키는 데 중점을 둔 부분은 새로운 샘플들, 문제 또는 도메인에 더 잘 일반화되는 더 나은 표현을 배우도록 장려하는 것입니다. 올해 우리는 여러 가지 상황에서 이 문제를 살펴보았습니다.
분리된 표현에 대한 비지도 학습 평가(Evaluating the Unsupervised Learning of Disentagled Representations)에서, 우수한 표현과 효과적인 학습을 만드는 것에서 무엇이 효과적인지 이해하기 위해 비지도의 데이터에서 얻은 표현에 어떤 속성들이 영향을 미치는지 조사했습니다.
심층 뉴럴네트워크들의 일반화 간격 예측(Predicting the Generation Gap in Deep Neural Networks)에서 마진 분포의 통계를 사용하여 일반화 격차(훈련 분포의 데이터에 대한 모델 성능과 다른 분포에서 가져온 데이터 간 격차)를 예측할 수 있음을 보여 주었습니다. 어떤 모델이 가장 효과적으로 일반화되는지 이해하는 것이 좋습니다. 또한 머신러닝 모델에서 분포외 검출 개선(Improving Out-of-Distribution Detection in Machine Learning Models)에 대한 연구를 통해 모델이 이전에는 볼 수 없었던 종류의 데이터를 만나기 시작할 때를 더 잘 이해할 수 있었습니다. 우리는 또한 강화 학습과 관련하여 정책외 분류(Off-Policy Classification)를 검토하여 어떤 모델이 가장 일반화될 가능성이 높은 지를 더 잘 이해했습니다.
희소성 및 과소평가 보상에서 일반화하는 학습(Learning to Generalize from Sparse and Underspefied Rewards)에서, 우리는 학습 시스템에서 보다 직접적으로 학습하고 우연히 원하는 목표를 달성하기 위해 더 길고, 바람직하지 않는 시퀀스(less-desirable sequences)들의 액션(action)으로 덜 산만 해지지 않도록하는 강화 학습(reinforcement learning)을 위한 보상 기능을 지정하는 방법을 조사했습니다.
[그림10] 상세 설명 - 이 지시 후속 작업에서, 동작 궤적 a1, a2 및 a3은 목표에 도달하지만, 순서 a2 및 a3은 지시를 따르지 않습니다. 이것은 불특정 보상 문제를 보여줍니다.
AutoML
학습 방법을 배우는 알고리즘이 머신러닝의 여러 측면을 자동화할 수 있으며 특정한 머신러닝 메타 결정에 있어 최고의 인간 머신 러닝 전문가보다 훨씬 더 나은 결과를 얻을 수 있는 접근 방식인 AutoML에 대한 연구를 계속했습니다. 특히:
EfficientNet : AutoML 및 Model Scaling을 통한 정확도 및 효율성 개선에서 신경 아키텍처 검색 기술을 사용하여 컴퓨터 비전 문제에 대해 84.4 % 의 최고 정확도의 새로운 최신 결과를 포함하여 실질적으로 더 나은 결과를 얻는 방법을 보여주었습니다. ImageNet에서 이전 최고 모델보다 8 배 적은 매개 변수를 갖습니다.
[그림11] 상세 설명 - 모델 크기와 정확도 비교. EfficientNet-B0은 AutoML MNAS에서 개발한 기본 네트워크이며 Efficient-B1에서 B7은 기본 네트워크를 확장하여 얻습니다. 특히, EfficientNet-B7은 새로운 최고 수준의 84.4% Top-1/97.1% Top-5 정확도를 달성하는 동시에 기존의 최고 CNN보다 8.4 배 더 작습니다.
EfficientNet-EdgeTPU: AutoML과 함께 가속기 최적화 신경망 생성(Creating Accelerator-Optimized Neural Networks)에서 뉴럴 아키텍처 검색 접근 방식이 특정 하드웨어 가속기에 맞게 조정된 효율적인 모델을 찾는 방법을 보여 주어 모바일 장치에서 실행하기 위한 높은 정확도, 낮은 계산 모델을 제공합니다.
Video Architecture Search에서, 우리는 AutoML 작업을 비디오 모델 영역으로 확장하여 최첨단 결과를 달성하는 아키텍처를 찾고, 수작업으로 제작한 모델의 성능과 일치하면서 50배 적은 계산(computation)을 사용하는 경량 아키텍처를 찾는 방법을 설명합니다.
[그림12] 상세 설명 - TVN(TinyVideoNet) 아키텍처는 계산 시간을 원하는 한계 내로 유지하면서 인식 성능을 최대화하도록 발전했습니다. 예를 들어 TVN-1(상단)은 CPU에서 37ms, GPU에서 10ms로 실행됩니다. TVN-2 (하단)는 CPU에서 65ms, GPU에서 13ms에서 실행됩니다.
우리는 테이블 형식의 데이터에 대한 AutoML 기술을 개발하여 많은 회사와 조직이 관계형 데이터베이스에 흥미로운 데이터를 가지고 있고 종종 이 데이터에 대한 머신러닝 모델을 개발하려는 중요한 영역을 열었습니다. 우리는 이 기술을 새로운 Google Cloud AutoML Tables 제품으로 출시하기 위해 협력했으며, KaggleDays의 테이블 형식 데이터를 위한 엔드-투-엔드 AutoML 솔루션에서 이 시스템이 새로운 Kaggle Competition에서 얼마나 잘 수행되는지에 대해서도 논의했습니다. (스포일러 : AutoML Tables는 74개 전문가 데이터 과학자 팀 중 2위를 차지했습니다).
Exploring Weight Agnostic Neural Networks에서, 평가된 모델의 가중치를 업데이트하기 위한 교육 단계 없이 흥미로운 신경망 아키텍처를 찾는 방법을 보여주었습니다. 따라서 아키텍처 검색이 훨씬 더 효율적으로 계산될 수 있습니다.
[그림13] 상세 설명 - 다양한 가중치 매개 변수에서 Cartpole 스윙 업 작업을 수행하고 미세 조정된 가중치 매개 변수를 사용하여 가중치에 영향을 받지 않는 신경망.
Transformer 아키텍처에 AutoML 적용하기(Applying AutoML to Transformer Architectures)는 계산 비용을 대폭 절감하면서 vanillia transformation 모델을 능가하는 자연 언어 처리 작업을 위한 아키텍처를 찾을 수 있었습니다.
[그림 14] 상세 설명 - 다양한 크기의 WMT'14 En-De에서 Evolved Transformer와 원본 Transformer의 비교 더 큰 크기의 성능에서 가장 큰 성능 향상이 발생하는 반면, ET는 더 큰 크기의 강도를 보여 주므로 37.6% 더 적은 매개 변수로 가장 큰 Transformer를 능가합니다 (비교 모델은 녹색 원으로 표시). 정확한 숫자들은 논문에 수록된 표3을 참조하십시오.
SpecAugment : A New Data Augmentation Method for Automatic Speech Recognition에서, 우리는 자동 학습 데이터 확대 방법의 접근 방식이 음성 인식 모델로 확장될 수 있음을 보여 주었고, 기존의 인간 ML 전문가 주도의 데이터 증강 메서드들보다 적은 데이터로 훨씬 높은 정확도를 달성하는 학습된 데이터 증강 메서드들로 음성 인식 모델로 확장될 수 있음을 보여 주었습니다.
우리는 AutoML을 사용하여 키워드 검색 및 언어 식별을 위한 첫 번째 음성 응용 프로그램을 시작했습니다. 우리의 실험에서 우리는 한동안 이 설정에 있었던 인간 설계 모델보다 더 나은 모델(보다 효율적이고 더 나은 성능)을 발견했습니다.
자연어 이해
지난 몇 년 동안 자연어 이해, 번역, 자연 대화, 음성 인식 및 관련 작업에 대한 모델이 크게 향상 되었습니다. 올해 우리 작품의 주제 중 하나는 양식과 작업을 결합하여 보다 강력하고 유능한 모델을 훈련시켜 최첨단 기술을 발전시키는 것이었습니다. 몇 가지 예는 다음과 같습니다:
Exploring Massively Multilingual, Massive Neural Machine Translation에서, 100개의 개별 모델이 아닌 단일 모델을 100개 언어로 번역하도록 훈련함으로써 번역 품질이 크게 향상 되었습니다.
[그림15] 상세 설명 - 왼쪽: 교육 데이터가 많은 언어 쌍은 일반적으로 번역 품질이 높습니다. 오른쪽: 각 언어 쌍에 대해 별도의 모델이 아닌 모든 언어 쌍에 대해 단일 모델을 학습하는 다국어 교육을 통해 많은 데이터가 없는 언어 쌍에 대한 BLEU 점수(번역 품질 측정)가 크게 향상되었습니다.
스트리밍 엔드-투-엔드 모델을 사용한 대규모 다국어 음성 인식(Large-Scale Mulitlingual Speech Recognition with a Streaming End-to-End Model)에서, 음성 인식과 언어 모델을 결합하고 여러 언어로 시스템을 훈련하는 방법이 음성 인식 정확도를 크게 향상할 수 있는 방법을 보여 주었습니다.
[그림16] 상세 설명 - 왼쪽: 각 언어에 대한 어쿠스틱, 발음 및 언어 모델로 구성된 전통적인 단일 언어 음성 인식기입니다. 중간: 어쿠스틱 및 발음 모델이 다국어인 반면 언어 모델은 언어별로 다릅니다. 오른쪽: 음향, 발음 및 언어 모델이 단일 다국어 모델로 결합된 E2E 다국어 음성 인식기.
Translatotron : 엔드-투-엔드 음성-음성 번역 모델(An End-to-End Speech-to-Speech)에서, 우리는 음성 인식, 번역 및 텍스트-음성 생성의(일반적으로 분리된) 작업을 훌륭하게 수행하기 위해 joint model을 훈련시킬 수 있음을 보여 주었습니다. 생성된 번역된 오디오에서 발표자의 음성 소리를 보존하는 것 뿐만 아니라 더 간단한 전체 학습 시스템과 같은 이점이 있습니다.
시맨틱 검색을 위한 다국어 범용 문장 인코더(Multilingual Universal Sentence Encoder for Semantio Retrieval)에서, 우리는 많은 다른 목표를 결합하여 시맨틱 검색에서 훨씬 더 나은 모델을 생성하는 방법을 보여 주었습니다(단순한 단어 매칭 기술과 비교). 예를 들어, Google Talk to Books에서 “무슨 향기가 기억을 되찾는가?”라는 결과가 나옵니다. “팬 바그나트와 함께 재스민 냄새가 나면 평온한 어린 시절이 돌아옵니다.”
Robust Neural Machine Translation에서, 적대적 훈련 절차를 사용하여 언어 번역의 품질과 견고성을 크게 향상하는 방법을 보여 주었습니다.
[그림 17] 상세 설명 - 왼쪽: Transformer 모델이 입력 문장(왼쪽 아래)에 적용되고 target output sentence(오른쪽 위) 및 input sentence(중간 오른쪽: "<sos>" placeholder로 시작)과 함께 translation loss가 계산됩니다. AdvGen 함수는 소스 문장, 단어 선택 분포, 단어 후보 및 번역 손실을 입력으로 사용하여 adversarial source example를 구성합니다. 오른쪽: 방어 단계에서 adversarial source example는 Transformer 모델에 대한 입력으로 사용되며 변환 손실이 계산됩니다. 그런 다음 AdvGen은 위와 동일한 방법을 사용하여 대상 입력에서 adversarial target example를 생성합니다.
seq2seq, Transformer, BERT, Transformer-XL 및 ALBERT 모델과 같은 근본적인 연구 발전을 바탕으로 언어 이해 능력이 향상됨에 따라 Gmail의 Google Translate, Gmail’s Smart Compose 및 Google Search와 같은 많은 핵심 제품 및 기능에서 이러한 유형의 모델 사용이 증가했습니다. 올해 핵심 검색 및 순위 알고리즘(core search and ranking algorithm)에서 BERT를 시작하여 쿼리 및 문서 단어/구문의 미묘한 의미를 보다 잘 이해함으로써 지난 5 년간(그리고 가장 큰 것 중 하나) 검색 품질이 가장 크게 향상되었습니다.
머신 퍼셉션
스틸 이미지를 더 잘 이해하기 위한 모델은 지난 10년 동안 놀라운 발전을 이루었습니다. 다음 주요 경계에는 다이내믹한 세계를 세밀하게 이해하기 위한 모델과 접근 방식이 있습니다. 여기에는 이미지와 비디오에 대한 깊고 미묘한 이해 뿐만 아니라 실시간 및 위치 인식: 대화형 속도로 시청각 세계를 이해하고 사용자와 공유 공간 접지를 하는 것이 포함됩니다. 올해, 우리는 다음을 포함하여 이 분야의 발전의 여러 측면을 탐구했습니다:
Lens의 세밀한 시각적 이해로 더욱 강력한 visual search이 가능합니다.
Nest Hub Max의 Quick Gestures, Face Match 및 스마트 화상 통화 프레임과 같은 유용한 스마트 카메라 기능.
Lens를 통해 주변 세계를 유용하게 보강하기 위한 실시간 및 공간 인식 인식 기술.
비디오의 깊이 예측을 위한 더 나은 모델.
시간주기 일관성 학습을 사용하여 비디오의 세밀한 시간적 이해(fine-grained temporal understanding of videos using temporal cycle-consistency learning)를 위한 더 나은 표현.
[그림 18] 상세 설명 - 오른쪽: 스쿼트 운동을 하는 사람들의 비디오를 입력하십시오. 왼쪽 상단의 비디오가 참조하세요. 다른 비디오는 스쿼트를 하는 사람들의 다른 비디오에서 가장 가까운 주변 프레임(TCC embedding space)을 보여줍니다. 왼쪽: 동작이 수행 되었기 때문에 해당 frame embedding이 이동합니다.
레이블이 지정되지 않은 비디오로 부터 일시적으로 일치하는 텍스트, 음성 및 비디오에 대한 학습 표현.
[그림 19] 상세 설명 - 쿠킹 비디오에 대해 사전 교육을 받은 VideoBERT의 질적 결과. 위: 몇 가지 레시피 텍스트가 주어지면 일련의 시각적 토큰을 생성합니다. 아래: 시각적 토큰이 주어지면 VideoBERT가 예측한 상위 3 개의 미래 토큰을 다른 시간 단위로 표시합니다. 이 경우 모델은 밀가루와 코코아 가루 한 그릇이 오븐에서 구워지고 브라우니나 컵케익이 될 수 있다고 예측합니다. 피처 공간에서 토큰에 가장 가까운 트레이닝셋의 이미지를 사용하여 시각적 토큰을 시각화합니다.
과거의 관측에서 미래의 시각적 입력을 예측할 수 있습니다.
Google Photo에서 'blowing out candles' 또는 'sliding down a slide'와 같은 특별한 비디오 순간을 더 잘 기억할 수 있도록 하면서 동영상의 액션 시퀀스를 보다 잘 이해할 수 있는 모델들.
우리는 우리 주변의 감각 세계에 대한 이해가 지속적으로 개선될 것으로 기대하고 있습니다.
로봇공학
로봇 컨트롤에 머신러닝을 적용하는 것은 우리에게 중요한 연구 분야입니다. 우리는 이것이 일상의 가정이나 기업과 같은 복잡한 실제 환경에서 로봇이 효과적으로 작동할 수 있도록 하는 필수 도구라고 생각합니다. 올해 우리가 한 일 중 일부는 다음과 같습니다.
자동화된 강화 학습을 통한 장거리 로봇 내비게이션(Long-Range Robotic Navigation via Automated Reinformancement Learning)에서 로봇이 Google 사무실 건물과 같은 복잡한 환경을 보다 효과적으로 탐색할 수 있도록 강화 학습과 장기 계획을 결합하는 방법을 보여주었습니다.
PlaNet : 강화학습을 위한 심층 계획 네트워크(A Deep Planning Network for Reinforcement Learning)에서, 우리는 이미지들의 픽셀에서 순전히 world model을 효과적으로 학습하는 방법과 더 적은 학습 에피소드들로 작업을 수행하기 위해 세계가 어떻게 행동하는지에 대한 이 모델을 활용하는 방법을 보여 주었습니다.
TossingBot을 통한 물리 및 딥러닝 통합(Unifying Physics and Deep Learning with TossingBot)에서 로봇은 로봇이 작동하는 환경에 대한 물리 모델로 사전 프로그래밍되지 않고 환경에서의 실험을 통해 "직관적인" 물리학을 학습하는 방법을 보여주었습니다.
Soft Actor-Critic : 로봇공학을 위한 심층 강화학습(Deep Reinforcement Learning for Robotics)에서, 우리는 기대 보상(표준 RL 목표)을 극대화하고 정책의 엔트로피를 극대화하기 위해(학습은 좀 더 무작위적인 정책을 선호하기 때문) 강화학습 알고리즘을 훈련하는 것이 로봇이 환경 변화에 더 빨리 배우고 더 강력하게 도울 수 있음을 보여주었습니다.
자체 감독 분해에서 조립 및 일반화 학습(Learning to Assemble and to Generalize from Self-Supervised Disassemembly)에서, 우리는 로봇이 먼저 자체 감독 방식으로 물건을 분해하는 방법을 학습함으로써 조립을 배우는 방법을 보여주었습니다. 아이들은 물건을 분해하여 배우고 로봇도 마찬가지로 할 수 있는 것처럼 보입니다!
우리는 ROBEL: 저가 로봇들을 이용한 학습을 위한 로봇공학 벤치마크(Robotics Benchmarks for Learning with Low-Cost Robots)를 통해 비용 효율적인 로봇의 오픈소스 플랫폼인 실제 로봇공학 하드웨어에 대한 연구 및 개발을 용이하게 하기 위해 설계된 선별된 벤치마크를 소개했습니다.
광범위한 개발자 및 연구원 커뮤니티의 발전 지원
오픈소스는 코드 이상의 의미를 지니고 있습니다: 커뮤니티의 헌신자들(contributers)에 관한 것입니다. 오픈소스 커뮤니티에 참여한 것은 신나는 한 해 였습니다. 우리는 지금까지 가장 크게 출시한 TensorFlow 2.0을 출시하여 ML 시스템 및 애플리케이션을 그 어느 때 보다 쉽게 구축할 수 있습니다. TensorFlow Lite에 빠른 모바일 GPU 추론에 대한 지원이 추가되었습니다. 또한 빠르고 간편한 웹 기반 도구인 Teachable Machine 2.0을 출시했습니다. 이 도구는 코딩 없이 버튼 하나만 클릭하면 머신러닝 모델을 학습할 수 있습니다. 소프트웨어 및 하드웨어 조각화의 복잡성을 해결하고 AI 응용 프로그램을 보다 쉽게 구축할 수 있는 오픈소스 러닝머신 컴파일러 인프라인 MLIR을 발표했습니다.
우리는 고성능 머신러닝 연구를 위한 새로운 시스템인 JAX의 첫해를 보았습니다. NeurIPS 2019에서 Google 직원과 더 광범위한 오픈소스 커뮤니티는 뉴럴 탄젠트 커널(neural tangent kernel)에서 베이지안 추론(Bayesian inference), 분자 동역학(molecular dynamics)에 이르기까지 JAX를 사용하여 작업을 발표했으며, Cloud TPU JAX 프리뷰 버전을 출시 했습니다.
우리는 지각력이 있는 다중 모드 응용 ML 파이프 라인을 구축하기 위한 프레임워크인 오픈소스 MediaPipe와 효율적인 부동 소수점 신경망 추론 연산자의 라이브러리인 XNNPACK을 제공합니다. 2019년 말 현재 전 세계 1,500명 이상의 연구원들이 TensorFlow Research Cloud를 통해 Cloud TPU에 무료로 액세스 할 수 있었습니다. Intro To TensorFlow at Coursera 강좌는 10만 명의 학생들을 넘어섰습니다. 그리고 TensorFlow를 11개 국가로 로드쇼를 하면서 수천 명의 사용자와 교류하면서 최초의 텐서플로우 월드등을 주최했습니다.
TensorFlow의 도움으로 한 대학생이 두 개의 새로운 행성을 발견하고 다른 사람들이 더 많은 것을 찾을 수 있도록 방법을 만들었습니다. 나이지리아 출신 태생의 데이터 과학자는 아프리카 마스크를 연상시키는 이미지를 생성하도록 GAN을 교육했습니다. Uganda의 개발자는 TensorFlow를 사용하여 현지 농부들이 농작물 파괴 애벌레와 싸우는 데 사용할 수 있는 앱인 Farmers Companion을 만들었습니다. 눈내리는 아이오와 주에서 연구원과 공무원은 TensorFlow를 사용하여 교통 상황, 시각 자료 및 기타 데이터를 기반으로 안전한 도로 조건을 판별하는 데 사용했습니다. 햇볕이 잘 드는 캘리포니아에서 대학생들은 로스앤젤레스의 도로에 구멍이 난 위험한 도로 균열을 식별하기 위해 TensorFlow를 사용했습니다. 프랑스에서는 코더가 TensorFlow를 사용하여 흑백 사진에 색상을 추가하는 방법을 배우는 간단한 알고리즘을 만들었습니다.
오픈 데이터셋
명확하고 측정 가능한 목표를 가진 개방형 데이터 세트는 종종 머신 러닝 분야를 발전시키는 데 매우 도움이 됩니다. 리서치 커뮤니티가 흥미로운 데이터 세트를 찾도록 돕기 위해 Google은 여러 조직에서 제공하는 다양한 오픈 데이터 세트를 Google Dataset Search로 계속 색인합니다. 또한 커뮤니티가 새로운 기술을 탐색 및 개발하고 공개 데이터를 책임감있게 공유할 수 있도록 새로운 데이터셋을 만드는 것이 중요하다고 생각합니다. 올해 우리는 다양한 분야에 걸쳐 수많은 공개 데이터셋을 추가로 발표했습니다:
Open Images V5 : 350개 범주에서 280만 개의 객체에 대한 분할 마스크를 포함하는 인기 있는 Open Images 데이터셋 업데이트(이미지 수준 레이블, 객체 경계 상자, 객체 분할 마스크 및 시각적 릴레이션쉽 등과 같이 ~9M 이미지가 주석 처리됨).
Natural questions : 자연스럽게 발생하는 쿼리를 사용하고 짧은 단락에서 답변을 추출하는 대신 전체 페이지를 읽어 답변을 찾는 첫 번째 데이터셋 입니다.
Data for deepfake detection: 우리는 FaceForensics 벤치 마크(위에서 언급)에 시각적 딥 페이크의 대규모 데이터셋을 제공했습니다.
Google Research Football: 에이전트들이 세계에서 가장 인기 있는 스포츠인 사커(또는 미국인의 경우 풋볼)를 겨냥한 새로운 강화학습 환경. 강화학습 에이전트들이 GOOOAAALLLSS를 갖는 것이 중요합니다!
Google-Landmarks-v2: 2억 개가 넘는 랜드마크의 5백만 개가 넘는 이미지 (첫 번째 릴리스의 2배).
YouTube-8M Segments: YouTube-8M 동영상의 5 초 세그먼트 수준에서 사람이 인증 한 라벨을 포함하는 대규모 분류 및 시간적 현지화 데이터 세트.
Atomic Visual Actions(AVA) Spoken Activity: 대화 인식을 위한 멀티 모달 오디오 + 비주얼 비디오 데이터셋. 또한 AVA: 음성 활동 및 AVA 액션 인식(AVA action recognition and AVA: Spoken Activity)에 대한 학문적 도전이 이루어졌습니다.
PAWS 및 PAWS-X: 패러프레이즈 식별을 돕기 위해 두 데이터셋 모두 어휘적 겹침이 높은 올바른 형식의 문장 쌍을 포함하며, 이 중 약 절반은 패러프레이즈이고 절반은 그렇지 않습니다.
Natural langauage dialog datasets: CCPE와 Taskmaster-1은 모두 음성 대화에 참여하는 두 사람을 쌍으로 연결하여 인간 수준의 대화를 디지털 비서와 모방하는 OZ 마법사를 사용합니다.
The Visual Task Adaptation Benchmark: VTAB는 ImageNet 및 GLUE와 유사한 지침을 따르지만 하나의 원칙을 기반으로 합니다. 더 나은 표현은 도메인내 데이터가 제한되어 보이지 않는 작업에서 더 나은 성능을 제공하는 것입니다.
Schema-Guided Dialogue Dataset: 17개의 도메인에 걸쳐 18,000개가 넘는 대화가 있는 가장 큰 공개적으로 사용 가능한 작업 지향 대화 모음입니다.
리서치 커뮤니티 상호작용
마지막으로 광범위한 학문 및 연구 커뮤니티에서 바빴습니다. 2019년 Google 연구원들은 수백 편의 논문을 발표하고 수많은 회의에 참석했으며 많은 상들과 기타 찬사를 받았습니다. 우리는 다음과 같은 강력한 출석을 했습니다:
CVPR: ~ 250명의 Google 직원들이 40개 이상의 논문, 강연, 포스터, 워크숍 등을 발표했습니다.
ICML: ~ 200명의 Google 직원들이 100개 이상의 논문, 강연, 포스터, 워크숍 등을 발표했습니다.
ICLR: ~ 200명의 Google 직원들이 60개 이상의 논문, 강연, 포스터, 워크숍 등을 발표했습니다.
ACL: ~ 100명의 Google 직원들이 40개 이상의 논문, 워크숍 및 자습서를 발표했습니다.
Interspeech: 100명 이상의 Google 직원들이 30개 이상의 논문을 발표했습니다.
ICCV: ~ 200명의 Google 직원들이 40개 이상의 논문을 발표했으며 일부 Google 직원도 3개의 권위 있는 ICCV 상을 수상했습니다.
NeurIPS: ~ 500명의 Google 직원이 120개가 넘는 논문을 공동으로 작성했으며 다양한 워크숍에 참여했습니다.
또한 전 세계 수백 명의 Google 연구원들과 교수님들과 교직원들이 Google locations에서 주최하는 15개의 개별 연구 워크샵에 모였습니다. 이 워크샵은 전 세계 홍수 예측 개선에서 머신러닝을 사용하는 것 부터, 장애인들에게 더 나은 서비스를 제공할 수 있는 시스템을 구축하는 방법, 잡음이 많은 중간 규모 양자(NISQ) 프로세서를 위한 알고리즘, 응용 프로그램 및 도구의 개발을 가속화하는 방법에 이르기까지 다양한 주제를 다루었습니다.
Google 이외의 학계 및 연구 커뮤니티를 지원하기 위해 연례 PhD 펠로우쉽 프로그램을 통해 전 세계적으로 50명 이상의 PhD 학생들을 지원했으며, Google Faculty Research Awards 2018의 일부로 158개의 프로젝트들에 자금을 지원했으며, Google AI Residency Program의 세 번째 코호트(cohort)를 개최했습니다. 또한 AI 중심 스타트업을 멘토링 했습니다.
새로운 장소, 새로운 얼굴
2019년에는 많은 진전이 있었지만 할 수 있는 일이 훨씬 더 많았습니다. 전 세계에서 영향력을 지속적으로 확대하기 위해 벵갈로(Bangalore)에 리서치 사무소를 개설했으며 다른 사무소로도 확장하고 있습니다. 이러한 종류의 문제에 대해 관심이 있으시면 채용 중입니다.
2020년과 그 이후를 기대하며
지난 10년간 머신러닝 및 컴퓨터 과학 분야에서 현저한 발전을 보였으며, 이제 컴퓨터에 언어를 보다 더 잘 보고 듣고 이해할 수 있는 능력이 부여되었습니다(지난 10 년간 중요한 발전에 대한 개요를 보세요!). 우리 주머니에는 이러한 기능을 사용하여 일상생활에서 여러 가지 작업을 보다 잘 수행할 수 있는 정교한 컴퓨팅 장치가 생겼습니다. 특수 하드웨어를 개발하여 이러한 머신러닝 방식을 중심으로 컴퓨팅 플랫폼을 대폭 재설계하여 더 큰 문제를 해결할 수 있습니다. 이는 데이터 센터(예: 추론 중심 TPUv1 및, 교육 및 추론 중심 TPUv2 및 TPUv3)와 저전력 모바일 환경(예: Edge TPU) 모두에서 컴퓨팅 장치에 대한 생각을 변화시켰습니다. 딥러닝 혁명은 컴퓨팅과 컴퓨터에 대한 우리의 생각을 계속 바꿔 나갈 것입니다.
동시에 수많은 답변되지 않은 질문과 해결되지 않은 문제가 있습니다. 2020년 이후 대처에 대해 우리가 기대하는 몇 가지 지침과 질문은 다음과 같습니다.
수백만 개의 작업을 처리하고 새로운 작업을 자동으로 수행하는 방법을 배울 수 있는 머신러닝 시스템을 어떻게 구축할 수 있습니까? 현재 우리는 주로 처음부터 또는 가장 관련성이 높은 하나 또는 몇 가지 관련 작업에 대해 훈련된 모델에서 시작하여 각각의 새 작업마다 별도의 기계 모델을 훈련하고 있습니다. 따라서 우리가 훈련시키는 모델은 실제로 하나 또는 몇 가지 점에서는 우수하지만 다른 점에서는 우수하지 않습니다. 그러나 우리가 진정으로 원하는 것은 많은 일을 할 때 전문 지식을 활용하는 데 능숙한 모델이며, 훈련 데이터와 계산이 상대적으로 적은 새로운 일을 배울 수 있습니다. 이것은 솔리드 스테이트 회로 설계, 컴퓨터 아키텍처, ML 중심 컴파일러, 분산 시스템, 머신 러닝 알고리즘 및 도메인 전문가를 포괄하는 여러 분야에서 전문 지식과 발전이 필요한 여러 가지 분야의 전문 기술과 진보를 요구하는 진정한 도전입니다. 광범위한 응용 분야에서 독립적으로 새로운 작업을 해결하도록 일반화하십시오.
편향(bias) 방지, 해석 및 이해성 향상, 개인 정보 보호 및 안전 보장과 같은 인공지능 연구의 중요한 영역에서 최첨단 기술을 어떻게 발전시킬 수 있습니까? 사회에서 머신러닝을 점점 더 많이 사용함에 따라 이러한 분야의 발전이 중요해질 것입니다.
중요한 새로운 과학 분야를 발전시키기 위해 어떻게 계산과 머신러닝을 적용할 수 있습니까? 기후 과학, 의료, 생물 정보학 및 기타 여러 분야와 같은 다른 분야의 전문가들과 협력함으로써 중요한 발전이 있습니다.
머신러닝과 컴퓨터 과학 연구 커뮤니티가 추구하는 아이디어와 방향이 다양한 연구원 그룹에 의해 제시되고 탐색되도록 어떻게 할 수 있습니까? 컴퓨터 과학 및 머신러닝 연구 커뮤니티가 추구하는 연구는 수십억의 사람들에게 광범위한 영향을 미치며, 우리는이 연구를 수행하는 연구자들이 전 세계 모든 사람들의 경험, 관점, 관심사 및 창의적 열정을 표현하기를 원합니다. 다양한 분야의 신입 연구원들을 현장에 가장 잘 지원할 수 있는 방법은 무엇입니까?
전반적으로 2019년은 Google 및 광범위한 리서치 커뮤니티에서 매우 흥미로운 한 해였습니다. 2020년 및 그 이후에 우리 앞에 있는 연구 과제를 해결하게 되어 기쁩니다. 진행 상황을 여러분과 공유하기를 기대합니다!
게시자: Google Research 커뮤니티 전체를 대표하여 Google Research and Health의 수석 부사장 겸 SVP 인 Jeff Dean
JAX 오픈소스: https://github.com/google/jax
Neural-tangents 오픈소스: https://github.com/google/neural-tangents
Bayesian inference 오픈소스: https://github.com/pyro-ppl/numpyro
mediapipe 오픈소스: https://github.com/google/mediapipe
원본 소스: https://ai.googleblog.com/2020/01/google-research-looking-back-at-2019.html
이 블로그는 2020년 1월 9일(목), Google AI Research Blog 기사를 영어에서 우리나라 말로 번역한 것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게 저작권이 있음을 알려 드립니다. (First Draft Version)
원본 소스: https://ai.googleblog.com/2020/01/google-research-looking-back-at-2019.html
이 블로그는 2020년 1월 9일(목), Google AI Research Blog 기사를 영어에서 우리나라 말로 번역한 것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게 저작권이 있음을 알려 드립니다. (First Draft Version)