2020년 3월 12일(목) - 구글 AI 리서치 블로그
Pixel 4 및 Pixel 4 XL은 사용하기 쉽도록 최적화되었으며 이 목표를 실현하는 데 도움이 되는 주요 기능은 모션 감지(Motion Sense)로, 사용자가 장치를 건드리지 않고도 다양한 방식으로 그들의 Pixel과 상호작용할 수 있습니다. 예를 들어, 모션 감지를 사용하면 특정 제스처를 사용하여 음악 트랙을 변경하거나 걸려 오는 전화를 즉시 끌 수 있습니다. 모센 센서는 휴대 전화 근처에 있을 때와 휴대 전화에 가까이 있을 때 추가로 감지하여 사용자의 행동을 예상하여 Pixel이 더 도움이 되도록 합니다. 예를 들어, 카메라를 프라이밍하여 완벽한 얼굴 잠금 해제 환경을 제공하거나, 울리는 알람의 볼륨을 정중하게 낮추어 알람을 해제하거나, 더 이상 장치 근처에 있지 않을 때 전원을 절약하기 위해 디스플레이를 끕니다.
모션 센스 기반 기술은 소비자 스마트폰에 최초로 통합된 단거리 레이더(radar) 센서인 Soli로, 접촉없이 전화와 근접한 상호 작용을 가능하게 합니다. 아래에서는 Soli의 핵심 레이더 감지 원리, 레이더 데이터에서 인간 활동을 인식하는 데 사용되는 신호 처리 및 머신러닝(ML) 알고리즘 설계, 소비자 장치에서 사용할 Soli를 준비하기 위해 일부 통합 문제를 해결하는 방법에 대해 설명합니다.
모션 감지를 위한 Soli 레이더 시스템 설계
레이더의 기본 기능은 전파와의 상호 작용을 기반으로 원격 물체의 특성을 감지하고 측정하는 것입니다. 클래식 레이더 시스템에는 전파를 방출하는 송신기가 포함되어 있는데, 이 경로는 경로 내의 물체에 의해 산란되거나 방향이 바뀌어 레이더 수신기에 의해 일부 에너지가 역 반사되어 차단됩니다. 수신된 파형을 기반으로 레이더 시스템은 물체의 존재를 감지하고 거리와 크기와 같은 물체의 특정 특성을 추정 할 수 있습니다.
레이더는 거의 한 세기 동안 탐지 및 거리 측정 기술로 활발히 개발되고 있습니다. 기존의 레이더 접근 방식은 비행기 및 자동차와 같이 크고 단단하며 먼 물체를 감지하도록 설계되었습니다. 따라서 소비자 핸드 헬드 장치의 요구 사항 내에서 복잡한 동작을 감지하기위한 감도와 해상도가 부족합니다. 따라서 모션 센스를 가능하게 하기 위해 Soli 팀은 새로운 소규모 레이더 시스템, 새로운 감지 패러다임 및 인간 상호작용에 대한 세밀한 인식(fine-grained)을 위한 알고리즘을 처음부터 개발했습니다.
클래식 레이더 설계는 다양한 물체를 해결하고 공간 구조를 구별하기 위해 대상 크기에 비해 미세한 공간 해상도를 사용합니다. 이러한 공간 분해능은 일반적으로 넓은 전송 대역폭(bandwidth), 좁은 안테나 빔 폭(beamwidth) 및 큰 안테나 배열을 필요로 합니다. 반면에 Soli는 공간 구조가 아니라 모션에 따라 근본적으로 다른 감지 패러다임을 사용합니다. 이 새로운 패러다임으로 인해 5mm x 6.5mm x 0.873mm 칩 패키지에 Pixel 4용 Soli의 전체 안테나 어레이를 장착 할 수 있어 레이더를 전화기 상단에 통합 할 수 있었습니다. 놀랍게도, 예를 들어, 광학 이미징 센서와 달리 대상의 공간 구조를 명확하게 정의 할 필요가 없는 알고리즘을 개발했습니다. 따라서 사람의 신체 또는 얼굴에 대한 식별 가능한 이미지가 모션 감지 존재 또는 제스처 감지에 생성되거나 사용되지 않습니다.
Soli는 미묘한 동작을 감지하고 해결하기 위해 수신된 신호의 시간적 변화 처리에 의존합니다. Soli 레이더는 60 GHz 주파수 변조 모듈화된 신호를 전송하고 주변 물체나 사람의 반사 중첩을 수신합니다. 한 전송에서 다음 전송까지 대상 위치에서 밀리미터 미만의 스케일 변위는 수신된 신호에서 뚜렷한 타이밍 시프트를 유도합니다. 여러 변속기의 창에서 이러한 변속은 물체의 속도에 비례하는 도플러 주파수로 나타납니다. 다른 도플러 주파수를 해결함으로써 Soli 신호 처리 파이프라인은 다른 모션 패턴으로 움직이는 물체를 구별 할 수 있습니다.
아래 애니메이션은 처리된 Soli 신호에서 다른 동작이 독특한 모션 특징을 나타내는 방법을 보여줍니다. 각 이미지의 세로 축은 센서에서 위 또는 아래로 증가하는 범위 또는 방사형 거리를 나타냅니다. 수평축은 중심을 향한 0, 왼쪽의 목표물에 해당하는 음의 속도, 오른쪽의 후진 목표물에 해당하는 양의 속도로 센서를 향하거나 멀어지는 속도를 나타냅니다. 레이더에 의해 수신된 에너지는 이러한 범위 속도 차원에 매핑되고 각 픽셀의 강도로 표시됩니다. 따라서, 강한 반사성 타겟은 약한 반사성 타겟과 비교하여 주변 노이즈 플로어에 비해 더 밝은 경향이있다. 이 거리-속도 매핑 내에서 에너지의 분포와 궤적은 장치를 걷고, 닿거나, 튀는 사람에 대한 명확한 차이를 보여줍니다.
왼쪽 이미지에서, 사람이 장치에 접근 할 때 속도 축의 음의 측면에 여러 신체 부위의 반사가 나타난 다음 사람이 장치에 가까워 질 때 이미지 상단에서 속도가 0으로 수렴합니다. 도달 범위를 나타내는 중간 이미지에서 손은 센서에서 20cm의 고정 위치에서 시작한 다음 장치를 향한 음의 속도로 가속하고 마지막으로 장치에 도달 할 때 정지합니다. 손에 대응하는 반사는 제스처의 과정에서 센서로부터 손의 감소하는 범위에 대응하여 이미지의 중간에서 상단으로 이동한다. 마지막으로, 세 번째 이미지는 속도 축의 왼쪽 절반에 있는 센서를 향해 음의 속도로 이동하고 반경 방향 속도가 0 인 센서를 직접 지나가는 손을 장치 위로 스와이프하는 것을 보여줍니다. 그리고 나서, 장치 반대쪽의 정지 점에 도달하기 전에 속도 축의 오른쪽 절반에있는 센서에서 멀어집니다.
각각의 분해 가능한 반사의 3D 위치는 또한 Soli의 3개의 수신기 각각에서 수신된 신호를 처리함으로써 추정 될 수 있습니다. 이 위치 정보는 목표 차별화를 위한 범위와 속도 이외에도 사용될 수 있습니다.
Soli를 위해 설계된 신호 처리 파이프 라인에는 신호 대 잡음비를 높이고, 원치 않는 간섭을 감쇠 시키며, 노이즈와 클러터(clutter)로부터 사람의 반사를 구별하는 맞춤형 필터와 코히어런트(coherent) 통합 단계의 조합이 포함됩니다. 이러한 신호 처리 기능을 통해 Soli는 소비자 스마트 폰의 제약 내에서 저전력으로 작동 할 수 있습니다.
레이더를 위한 머신 러닝 알고리즘 설계
Soli의 신호처리 파이프라인을 사용하여 원래 레이더 신호를 필터링하고 증폭한 후 결과 신호 변환이 제스처 분류를 위해 Soli의 ML 모델로 제공됩니다. 이 모델은 짧은 대기 시간으로 모션 감지 제스처를 정확하게 감지하고 인식하도록 훈련되었습니다.
모션 감지 기술에 공통적인 인-에어(in-air) 제스처를 강력하게 분류하는 데는 두 가지 주요 연구 과제가 있습니다. 첫 번째는 모든 사용자가 독특하고 스와이프(swipe)와 같은 간단한 동작을 무수히 수행한다는 것입니다. 두 번째는 하루 종일 센서의 범위 내에서 대상 제스처와 유사하게 나타날 수있는 수많은 외부 모션이 있을 수 있다는 것입니다. 또한 전화가 움직이면 전 세계가 전화의 모션 센서의 관점에서 움직이는 것처럼 보입니다.
이러한 과제를 해결하려면 레이더 신호에서 대기 제스처의 저 지연 감지에 최적화된 맞춤형 ML 알고리즘을 설계해야 했습니다. Soli의 ML 모델은 수천 명의 Google 지원자가 기록한 수백만 개의 제스처를 사용하여 훈련된 신경망으로 구성됩니다. 이 레이더 녹화는 기기 근처에서 일반적인 동작을 포함하는 다른 Google 지원자의 수백 시간의 백그라운드 레이더 녹화와 혼합되었습니다. Soli의 ML 모델은 TensorFlow를 사용하여 훈련을 받았으며 Pixel의 저전력 디지털 신호 프로세서(DSP)에서 직접 실행되도록 최적화되었습니다. 이를 통해 메인 애플리케이션 프로세서의 전원이 꺼진 경우에도 저전력으로 모델을 실행할 수 있습니다.
컨셉에서 제품으로 Soli로 가지기
Soli의 Pixel 스마트폰 통합은 하드웨어, 소프트웨어 및 알고리즘을 포함한 엔드-투-엔드 레이더 시스템이 소비자 기기의 크기 및 전력 제약 내에서 터치리스 상호 작용을 할 수 있도록 신중하게 설계 되었기 때문에 가능했습니다. Soli의 소형 하드웨어를 통해 전체 레이더 시스템을 Pixel의 상단 베젤의 제한된 공간에 맞출 수있었습니다. 이는 팀의 중요한 성과였습니다. 실제로 2014년 첫 번째 Soli 프로토 타입은 데스크톱 컴퓨터의 크기였습니다. 우리는 패키지에 안테나를 포함하여 전체 레이더 시스템을 단일 5.0mm x 6.5mm RFIC로 축소하기 위해 앞에서 설명한 새로운 시간 감지 패러다임과 하드웨어 혁신을 결합했습니다. 또한 Soli 팀은 몇 가지 혁신적인 하드웨어 전원 관리 체계와 최적화된 Soli의 계산주기를 도입하여 모션 센스를 스마트폰의 전력 예산 내에 맞출 수 있었습니다.
레이더 시스템 팀은 Pixel에 통합하기 위해 Soli 신호 품질을 유지하기 위해 제품 설계 엔지니어와 긴밀히 협력했습니다. 전화 내 칩 배치와 칩 위의 z- 스택 물질은 유리를 통한 신호 전송을 최대화하고 주변 구성 요소의 반사 및 폐색을 최소화하도록 최적화되었습니다. 또한 주변 전화 구성 요소와 공존 할 수 있도록 사용자 지정 신호 처리 기술을 개발했습니다. 예를 들어, 레이더 신호에 대한 오디오 진동의 영향을 줄이기 위해 새로운 필터가 개발되어 음악이 재생되는 동안 제스처 감지가 가능합니다. 이러한 알고리즘 혁신을 통해 다양한 일반 사용자 시나리오에서 모션 센스 기능을 사용할 수 있었습니다.
향후 방향
Soli를 Pixel 4 및 Pixel 4 XL 장치에 성공적으로 통합하면 일상적인 모바일 소비자 장치에서 레이더 기반 기계 인식의 실현 가능성이 처음으로 입증됩니다. Pixel 장치의 모션 감지는 명시적 및 암시적 상호 작용을 위해 완벽한 컨텍스트 인식 및 제스처 인식을 제공 할 수있는 Soli의 잠재력을 보여줍니다. 새로운 레이더 기반 감지 및 인식 기능을 지원하기 위해 Soli를 계속 연구하고 개발하게되어 기쁩니다.
감사의 말
위에서 설명한 작업은 Google Advanced Technology and Projects (ATAP)와 Pixel 및 Android 제품 팀 간의 공동 작업이었습니다. 이 블로그 게시물에 대한 주요 기여에 대해 Patrick Amihood에게 감사드립니다.
원본 제목: 픽셀4의 Soli 레이더 기반 인식 및 상호 작용(Soli Radar-Based Perception and Interaction in Pixel 4)
게시자: Jaime Lien (연구 엔지니어) 및 Nicholas Gillian (Google 고급 기술 및 프로젝트 소프트웨어 엔지니어)
Soli: ubiquitous gesture sensing with millimeter wave radar 논문: https://dl.acm.org/doi/10.1145/2897824.2925953
이 블로그는 2020년 3월 12일(목), Google AI Research Blog 기사를 영한 번역한 것입니다. 또한 이 번역 글은 정보 공유 목적으로만 작성했으므로 어떠한 상업용으로 사용할 수 없으며, 원본 저작물 모두 구글에게 저작권이 있음을 알려 드립니다. (First Draft Version)