그동안 온톨로지라는 말은 많이 들었는데, 정확하게 무슨 의미인지는 잘 몰랐는데, 데이터 자본주의를 보고 큰 틀에서 데이터에 태그를 붙이는 것과 비슷하다는 것을 알게 됐다. 다양한 키워드를 적용해 데이터를 체계적으로 분류하는 것이다.
요즘 인공지능(AI) 데이터 라벨링이라는 말도 심심치 않게 들을 수 있는데, 이것 역시 온톨로지에 포함된다고 볼 수 있다.
셔츠를 한 장 산다고 생각해보자. 자주 가는 온라인 쇼핑 사이트에 접속한다. 셔츠를 클릭하면 수백 개의 선택지가 나타난다. 하지만 엄청나게 많은 요소 가운데 원하는 크기, 옷감, 색상, 비율, 소매길이, 깃의 모양, 브랜드 등을 선택하여 원하는 것만 고르거나 원하지 않는 것을 걸러내어 선택지를 좁힐 수 있다. 따라서 칠부 소매의 8사이즈인 파란색 혹은 청록색 보틀넥 면 니트 상의를 사려고 한다면 이런 조건으로 검색하면 된다.
만일 적당한 상품이 없다면 다른 곳에서 찾으면 된다. 온라인 판매자는 어떻게 셔츠에 관해 이렇게 많은 정보를 제공할 수 있을까? 의류의 특징에 대한 데이터를 이용해 각 상품을 분류하기 때문이다. 하지만 이렇게 하려면 특정한 종류, 이를테면 셔츠에 속하는 모든 상품은 동일한 범주를 이용하여 분류되어야 한다. 이러한 범주 역시 데이터이지만 데이터에 대한 데이터, 즉 메타 데이터다.
분류는 인터넷 공간에서 발견의 중요한 인프라다.
효과적으로 분류하지 못하면 온라인에서 무언가를 찾을 희망은 거의 없다. 같은 이유로 그 과정은 더욱 어려워졌다. 관계형 데이터베이스를 사용하던 시절에는 데이터가 깔끔하게 정리되어 있다. 왜냐하면 모든 데이터 필드가 명확하게 정의됐고 필드 내용에 대한 정확한 형식까지 명시되어 있었다. 하지만 1990년대 후반부터 이런 질서는 대부분 데이터베이스 필드에 깔끔하게 들어맞지 않는 디지털 정보의 기하급수적인 증가로 위기를 맞고 있다. 그런 데이터는 이메일, 웹페이지, 이미지, 음성, 동영상 파일에서 나온 것이다.
업로더와 뷰어와 거래하고 세 번째 시장 참여자인 광고주에게 대부분의 자금을 지원받는 비디오 콘텐츠 시장인 유튜브를 살펴보자. 동영상을 시청하게 하려면 시청자가 쉽게 콘텐츠를 찾을 수 있어야 한다. 같은 이유로 콘텐츠 제공자는 자신의 콘텐츠가 빨리 발견될 수 있게 해야 한다. 동영상의 제목과 업로드한 날짜와 시간만으로는 한계가 있다. 라벨과 키워드를 동영상에 더하면 업로드하는 사람이 얼마나 적절한 키워드를 선택하는지에 따라 효과가 나타난다.
상업용 콘텐츠 제공자 역시 같은 문제를 겪고 있다. ESPN 같은 스포츠 네트워크는 매주 수십만 시간의 동영상을 방송하고 기록한다. 일부 팬들은 저장된 스포츠 경기를 처음부터 끝날 때까지 보고 싶어 하지만 대다수는 가장 중요한 순간을 바로 보고 싶어 한다. 예를 들어 2016년 NBA 챔피언십 마지막 일곱 번째 게임에서 클리블랜드 캐벌리어스의 르브론 제임스가 상대방의 뒤를 쫓아 단호하게 블록을 하는 장면이나 데이브 로버츠가 도루를 하는 장면 등처럼 말이다. 이런 순간을 쉽게 찾기 위해 ESPN은 인간의 노동력에 의존했다. 수십 명을 고용해 실시간으로 동시에 여러 스포츠 경기를 시청하면서 모든 플레이와 관련 상황에 수동으로 태그를 달게 한 것이다
생각보다 온톨로지는 기업들 전략에 중요한 영향을 미치고 있다는 점도 알게 됐다.
ESPN이 직원 마음대로 태그를 달게 했다면 단지 범위와 규모만 커졌을 뿐 유튜브 검색 결과 처럼 들쑥날쑥했을 것이다. 하지만 직원들은 시청하는 동영상에 라벨을 붙일 때 발전된 키워드 체계를 사용하는 법, 온톨로지에 대해 교육받았다.
스포츠는 온톨로지 시스템에 적합하다. 양국에서 레슬링까지 모든 스포츠는 규칙이 정해져 있다. 단지 선수만을 위한 규칙이라기 보다는 경쟁 자체를 위한 규칙이다. 책이나 전자제품, 기구 등도 마찬가지다. 명확히 정해진 변수가 있다면 특정한 소비자에게 알맞은 상품을 찾는 것은 쉽다. 출판업자는 수 세기에 걸쳐 듀이 십진분류법이나 미국 의회 도서관 분류법을 따라 별개의 범주로 책을 분류해온 경험이 있기 때문에 남북전쟁 중 여성의 역사에 관한 책을 구입하려고 한다면 아마 찾을 수 있을 것이다. 사실 제프 베조스가 1994년 온라인 서점 아마존을 시작한 이유 가운데 하나는 당시 출판사의 도서 목록이 디지털화되어 그 데이터를 기반으로 회사를 설립하기로 계획했기 때문이다.
아마존 이용자들은 같은 데이터를 기반으로 브랜드, 가격, 구매자의 리뷰 뿐만 아니라 눈에 덜 띄는 다른 많은 특징에 따라 상품을 선택하고 걸러내고 비교한다. 세탁기를 예로 들면 세탁기 여는 법, 색상, 크기 등의 정보가 있고, 일부 유럽 시장에는 세탁 용량과 에너지 효율 데이터가 있다. TV, 하드드라이브, 전자레인지 같은 다른 여러 가지 상품에 대해 비슷한 차원의 정보가 존재한다. 전자 제품의 특징을 분류하는 것은 비교적 직관적인 경우가 많다. 제조 업체가 풍부한 데이터를 온라인 소매상에 충분히 제공하거나 온톨로지가 매우 분명하기 때문에 온라인 소매상에 직접 데이터를 입력한다. 일반적으로 말해서 간단하고 보편적으로 인정된 온톨로지에 적합한 상품에는 풍부한 정보가 유통되는 시장이 많이 존재한다.
반대로 일반 시장을 위한 온톨로지를 개발하는 것은 훨씬 어렵다. 그래서 아마존에서 세탁기를 사려고 검색할 때보다 유튜브의 검색 결과가 들쑥날쑥한 것이다. 개념에 대한 검색은 어떻게 하는가? 즉 공중제비를 하는 법에 관한 영상은 어떻게 검색할까? ESPN에서는 기본인 키워드의 깊이와 범위를 유튜브에서 아직 만족시키지 못하는 이유는 인간에게 모든 사람이 빠르고 이해할 수 있고 오류 없이 적용할 수 있는 배우기 쉬운 범용 온톨로지가 없기 때문이다.
이베이는 시장에서 오랫동안 비슷한 수준의 검색을 제공하려고 노력해왔다. 아마존에서 편리하게 다양한 필터를 사용하는 소비자와는 달리 이베이에서 물건을 사는 사람은 상품 이름과 상세 정보에 포함된 단어를 검색한 다음, 결과 페이지를 이동하며 찾아야 하는 경우가 많았다. 이것은 이베이가 여러 측면에서 독특한 상품 등 누구나 무엇이든 팔 수 있는 시장으로 출발했기 때문에 남아 있는 유산이다. 반면 아마존은 온톨로지가 잘 개발된 단일한 범주에 속한 상품(책)의 판매자로서 시작했다. 시간이 흐르면 온톨로지가 없는 시장에서 거래 발생 수가 감소한다. 있는 상품조차 검색하기가 어렵기 때문이다. 간편한 검색에 도움이 되는 필터가 없으면 시장 효율성은 급감한다.
온톨로지는 데이터 경제 시대 혁신을 가속화시킬 엔진이 될 수 있다는 점에서 주목된다.
많은 시장에서 성공은 데이터의 풍부한 흐름이 달려 있기 때문에 효과적인 분류 전략을 개발해야 한다는 경제적 압박이 상당히 크다. 그런 데이터의 전문가인 마디 솔로몬은 핵심은 적절한 온톨로지를 찾아내는데 있다고 강조한다. 그녀는 이것이 얼마나 어려운지 알고 있다. 마디 솔로몬은 월트디즈니사에서 기업 용어 분류학자로 그후에는 교육 출판사인 피어슨에서 데이터 구조 및 의미론적 플랫폼의 일원으로 일했다. 스스로 지겹고 고된 일이라고 설명한다. 하지만 미래에 적절한 온톨로지를 찾아내려면 인간의 창의력 보다는 빈틈 없는 데이터 분석이 필요할 것이라고 솔로몬은 생각한다. 데이터가 데이터 온톨로지를 이끌 것이라고 말한다.
라벨과 범주를 올바르게 하는데 얼마나 의존하고 있는지, 또한 지금까지 얼마나 우리의 능력이 제한적이었는지 고려한다면 데이터 온톨로지가 왜 정보기술 스타트업에 인기가 있는 분야이자 화폐 기반 시장에서 데이터가 풍부한 시장으로 변화하는데 중요한 도구인지 쉽게 이해할 수 있다. 대규모 프로젝트를 진행 중인 이베이는 판매 중인 상품의 목록을 개선하여 검색률을 42%에서 90%로 높이는 것을 목표로 하고 있다.
자동으로 상품 정보를 분류하기 위해 그들은 이미 얼레이션, 코리건, 엑스퍼트메이커 등 다수 데이터 온톨로지 스타트업을 인수하여 협업하고 있다. 다른 기업도 이베이를 따라가며 경쟁적으로 데이터 기간 시설을 구축하여 풍부하고 다차원적인 정보의 유통을 구현하려고 애쓰고 있다. 앞으로는 데이터 온톨로지가 구축되지 않으면 오프라인과 온라인 시장 모두 가격에만 집중하는 것에서 벗어나지 못할 것이다.