스마트폰 시대의 추천 알고리즘

안경

by 마루


스마트폰 시대의 추천 알고리즘은 주로 좌표와 검색에서 시작했다.

지도 앱이 기록한 방문 이력, 브라우저의 검색어, 쇼핑·동영상 플랫폼의 클릭 이력 같은 명시적 신호들이 관심사를 설명했다.


그러나 실제 일상에서 인간은 훨씬 더 많은 것을 무의식적으로 본다.

잠깐 스친 재킷의 질감, 진열대의 컵 각도, 테이블 위 빛의 반사 같은 시선의 미세한 정지가 취향을 더 정확히 말해주지만,

지금의 시스템은 이 신호들을 거의 저장하지 않는다.


여기서 제안하는 개념이 **‘시각적 해시태그(Visual Hashtag)’**다.

사용자가 카메라가 탑재된 안경과 같은 웨어러블을 착용하고 일상을 보낼 때,

디바이스는 사용자의 시선 고정(gaze fixation), 머문 시간(dwell time), 시야 내 객체(object), **환경 맥락(장소·조도·소음·동반자 유무 등)**을 비침투적으로 수집하고,

AI가 이를 의미 단위로 요약·표지화해 메모리로 보관한다.


이때 생성되는 표지가 바로 시각적 해시태그다.

텍스트로 사람이 붙이는 #카페 #블랙재킷 같은 라벨이 아니라,

시각적 관심 순간 자체가 라벨이 되는 방식이다.


작동 흐름은 다음과 같다.


첫째, 획득 단계에서 안경의 카메라와 시선 추적 센서(eye tracking),

IMU(머리 움직임)와 오디오 입력이 고해상도로 들어온다.


둘째, 지각·이해 단계에서 온디바이스 혹은 근거리 디바이스(스마트폰)에서 동작하는 멀티모달 모델이

장면을 객체·행동·텍스처·브랜드·색채 조합 등으로 분해하고,

사용자 시선의 체류 시간을 가중치로 삼아 관심 후보 장면을 뽑는다.


셋째, 의미 압축 단계에서 모델은

“오늘 14:23, OO카페, 너의 시선은 체크 패턴의 그린 톤 재킷과 더블에스프레소 잔에 오래 머물렀다.”

이처럼 문맥이 살아 있는 문장을 만들고, 동시에 벡터 임베딩 형태의 검색 키를 생성한다.


넷째, 표지화 단계에서 이 문장·벡터·시간·장소가 한 덩어리로 묶여 시각적 해시태그가 된다.


다섯째, 회상 단계에서 사용자가 “그때 카페에서 내가 뭐에 꽂혔더라?”라고 물으면,

음성 인터페이스가 해당 세션의 시각적 해시태그를 호출해

“그린 체크 재킷과 더블에스프레소”를 즉시 상기시킨다.


이 과정은 브라우저 기록을 뒤지는 과거형 검색이 아니라,

개인 기억의 재구성에 가깝다.


이 개념의 핵심은 “최초의 해시태그가 시선에서 발생한다.”는 점이다.

기존에는 사람이 텍스트로 달거나, 플랫폼이 추천 로그에서 역추정했다.

이제는 **착용형 디바이스(안경)**가

“무엇을 얼마나 오래 보았는가”를 1차 신호로 삼고,

AI가 이를 언어화·요약화해 장기 기억 슬롯으로 저장한다.


결과적으로 사용자는 1년 뒤, 10년 뒤에도 이렇게 물을 수 있다.

“2022년 봄 OO카페에서 네가 유독 오래 본 건 ○○였어.

그때 테이블엔 산미 강한 원두가 있었고,

너는 그 맛을 ‘가벼운데 길게 남는다’고 메모했어.”


이런 형태의 맥락화된 회상이 가능해지는 것이다.

사진 한 장으로는 잡히지 않는 ‘내가 무엇을 좋아했는가’의 증거가 남는다.


구현 관점에서 몇 가지 설계 원칙이 중요하다.


첫째, 프라이버시-우선 아키텍처.

시야에는 타인의 얼굴·문서·상표가 포함될 수 있으므로,

원시 영상은 가능한 한 온디바이스 즉시 처리·요약 후 폐기하고,

외부 전송 전에는 비식별화·마스킹이 필요하다.


둘째, 계층형 저장 정책.

원시 데이터는 초단기 보관(수분수시간),

의미 요약은 중기(수주수개월),

시각적 해시태그의 라벨·벡터·타임라인만 장기 보관으로 나눈다.


셋째, 투명한 대화형 인터페이스.

“지금 이 장면을 기억할까?”, “이건 잊을까?”를 실시간으로 물어보는 저마찰 확인 UI와,

“오늘의 시각적 해시태그 보여줘.” 같은 일상 언어 질의가 자연스럽게 작동해야 한다.


넷째, 온디바이스 모델 + 근거리 보조.

배터리·발열·지연을 고려하면,

1차 감지·요약은 안경/휴대폰에서,

무거운 재학습·개인화는 개인 클라우드 또는 로컬 허브가 맡는 하이브리드 구조가 현실적이다.


다섯째, 윤리와 표준.

공공장소 착용 표시, 타인 비식별 의무, 데이터 이동권, 감사 로그(누가 언제 무엇을 조회했는지) 같은 거버넌스 장치가 필수다.


이 접근은 추천 시스템에도 변화를 준다.

지금은 “비슷한 사람·비슷한 클릭”에 기대는 협업 필터링이 강하다.

시각적 해시태그는 **‘나만의 벡터화된 시선 이력’**을 제공하므로,

시스템은 텍스처·실루엣·색채 조합·재료감 같은 감성적 특징을 직접 가중해 추천을 조정할 수 있다.


예를 들어 사용자가 짧고 잔잔한 패턴의 울 코트에 시선이 오래 머문다면,

쇼핑 추천은 그 시각적 특징 벡터를 우선 반영한다.

텍스트 해시태그가 놓치는 질감·톤·비율 같은 요소가

학습 가능한 1급 피처가 되는 셈이다.


사용자 경험은 훨씬 단순해진다.


“AI야, 지난겨울에 마음에 든 코트 느낌으로 추천해줘.”

그러면 시스템은 텍스트 검색이 아니라

작년 겨울 시각적 해시태그 묶음을 불러와

동일한 특징을 가진 후보를 제시한다.


여행도 마찬가지다.

“작년 교토에서 좋았던 카페 무드로 서울에서 찾자.”

AI는 조도, 목재 톤, 잔의 형태, 소음 레벨, 좌석 밀도 같은 환경 벡터를 비교해 근사치를 추천한다.

이건 더 이상 카테고리의 문제가 아니라,

내가 사랑한 장면의 재현이다.


물론 한계와 과제도 있다.


시선 데이터는 가장 민감하다.

무심코 본 것마저 기록될 수 있기에, 기본 OFF와 세밀한 권한 설정이 필요하다.


또한 잠깐의 응시가 항상 선호를 뜻하진 않는다.

반복·간격·조합으로 안정도의 임계치를 세워야

“한 번 본 것”과 “계속 끌리는 것”을 구분할 수 있다.


설명 가능성도 중요하다.

“왜 이 추천이 나왔는가?”에 대해

**시각적 근거(유사 패턴, 색채 팔레트, 형태 스케치)**를 함께 제시해

사용자가 자신의 벡터화된 취향을 이해할 수 있어야 한다.


마지막으로, 사회적 합의가 필요하다.

공공장소 촬영, 아동 보호, 저작권 객체 인식 등은

기술이 아니라 문화와 법의 문제다.

기술은 반드시 느리더라도 합의의 속도를 따라가야 한다.


그럼에도 불구하고, 시각적 해시태그는

“텍스트로 라벨링하던 시대”에서

**“보는 순간이 곧 라벨이 되는 시대”**로의 전환을 제안한다.


기술의 목적은 모든 것을 기억하는 것이 아니라,

잊으면 아쉬운 순간에 이름을 붙여주는 것이다.


그 이름이 바로 시각적 해시태그다.


카페에서 무심코 스친 재킷.

몇 달 뒤 “그때 마음에 든 게 뭐였지?”라고 묻자,

안경 속 AI가 대답한다.

“그린 체크, 울 70%에 부드러운 드레이프.

너는 그날 그 무드에 오래 머물렀어.”


그 한 문장이 우리가 기술에 바라는 것이다.

보는 것을 말로, 말하는 것을 다시 나의 세계로 돌려주는 능력.


텍스트 해시태그가 열어젖힌 검색의 시대를 뒤잇는,

시각적 해시태그의 시대가 서서히 문을 두드리고 있다.


#시각적해시태그 #VisualHashtag #안경AI #개인메모리AI #멀티모달 #시선데이터 #온디바이스AI #프라이버시설계 #추천시스템 #감자공주시선



keyword