이미지 인식 기술 콘텐츠를 쓸 때 고민
POC 단계인 기술을 와 닿게 설명하려면
마음에 드는 이미지가 없어서 앨런 파슨스 프로젝트의 'Eye In The Sky' 앨범 재킷을. 여기서 눈은 카지노 감시 카메라라고. 사진=앨런 파슨스 프로젝트 공식 홈페이지글을 쓸 때마다 뭐 하나 만만한 게 없다. 어떤 건 '전에 비슷한 주제로 써봤으니 할만하겠지' 싶어도 시작하면 어렵고. 어렵게 느끼는 게 나쁘지 않다. 살면서 '쉽다'는 생각을 가급적 안 하고 싶다. 그러면 내가 망할 것 같아서다. 쉬워 보이는 일도 복병이 기다리고 있으니. 전설의 리틀 농구단에서 이 대사가 기억에 남았다. 우리가 삐지는 이유는 기대했다가 실망했기 때문이라고. 일의 난이도에도 이런 마음을 갖는다. 쉬울 거라고 기대하지 않기. 그랬다가 큰 코 다치고 실망할 수 있으니까? 결국 내 마음 편하려고 이런다. 그래서 난 내가 비겁하다고 생각한다. 그 마음도 내려놓고 싶은데 덩치에 비해 내면에는 작은 모습이 많다.
이미지 인식 기술을 글로 쓸 때도 그랬다. 전에도 비슷한 주제를 써본 적 있고 친숙한 기술이니 잘(?) 쓸 수 있을 거야 하다가. 음성인식과 음성합성 기술을 동시에 글로 쓸 때 방대한(?) 양에 압도돼 큰 코 다친 터라. 또 이미지 인식 기술의 스펙트럼이 넓어서 역시나 과정에서 만만찮음을 느꼈다. 어디까지 좁혀야 할지도 고민이고. 전주에 공간 빅데이터 분석 플랫폼을 쓰면서도 지옥을 맛봤는데 이건 더할 수도 있겠다는 두려움. 보통 기술의 일반론을 이야기하고 그다음에 해당 기업 기술 이야기로 들어갔다. 이건 아직 POC(Proof Of Concept, 개념 증명) 단계에 있어서 사례를 풀기도 어려웠다.
자주 하는 말이지만 난 의미로 다가오는 기술 콘텐츠를 쓰고 싶다. 글을 부탁한 곳에서 필요한 바이기도 하다. 그러려면 해당 기업만의 스토리텔링도 필요하다. 난 그게 그 기업 기술의 경쟁력이나 차별성에서 나온다고 봤다. 그전에 쓴 내용은 시장에 일부 도입 사례가 있어서 이를 전달하기가 수월했다. 아직 연구단계에 있고 상용화되지 않은 기술은 글로 써보지 않아서. 이걸 더 쉽고 와 닿게 설명하려면 어떻게 해야 할지 많이 고민스러웠다. 그건 내가 해보지 않았기 때문에 어려웠던 것 같다. 다른 콘텐츠에 비하면 너무 이론적인 느낌도 들지만. 그러나 질의응답 과정에서 더 깊이 있는 답변을 들어서 좋았다. 쓰고 난 뒤 기억에 많이 남는 주제.
개를 좋아하지 않았지만 딱딱한 글에는 귀여운 이미지를 넣어보자는 계산. 사진=픽사베이이미지 인식 기술은 이미지나 영상에 비친 문자와 얼굴 등 물체, 특징을 감지하는 기술이다. 내가 글을 쓴 기업에서는 아직 더 연구, 개발하는 단계이지만. 이미 시장에 이를 상용화한 기업이 많다. 가깝게는 쇼핑몰에서 이미지 인식 기술로 상품을 파악하는 걸로 익숙하다. 얼굴인식 기술도 이에 속하고. 자율주행차가 알아서 사물, 사람을 인식하고 장애물을 피하며 안전하게 운전하려면 이 기술이 매우 중요하다. 요청받은 주제이지만 이 시점에 알아둘 만하고 중요한 기술이라 쓰는 의의는 크다. 알리바바, 아마존, 구글, 마이크로소프트 등과 같은 대기업에서도 이를 개발, 보급하고 있다. 국내에는 LG CNS에서 구내식당에 이를 활용하고.
이미지 인식 기술의 잠재력은 글 쓰고 난 이후에 더 크게 실감했다. 그 계기는 헬스케어 AI 콘텐츠를 쓸 때였다. 의료분야에서 이미지 인식 기술이 얼마나 크게 기여할 수 있는지 배웠다. 소리 AI를 구현한 곳도 있지만 이미지 인식 기술을 활용한 곳이 대다수인 듯했다. 특히 사진을 분석해 질병의 조기 징후를 판단하는 데 핵심 기술. 이스라엘에 특히 이런 기술력이 발달한 기업이 많고. 의료분야가 아니라 해도 이미지 인식 기술을 포괄하는 컴퓨터 비전 기술 스타트업을 보면 이스라엘 출신이 만든 곳이 눈에 띈다. 이미지 인식 기술로 선반 위 재고를 파악하는 트랙스도 그렇고. 결론은 이미지 인식 기술, 이스라엘 스타트업 짱 먹어라?
글을 쓰면서 만족스러웠던 것 중 하나는 참고자료가 풍부했다는 점이다. 다른 콘텐츠를 쓸 때보다 책도 더 봤다. 책 이외에도 좋은 자료가 많았다. 블로그 책 리뷰부터 이미지 인식 기술을 연구하는 다른 기술 기업 개발자 인터뷰. 또는 이미지 인식 콘텐츠를 자주 올리는 개발자 홈페이지. 꼭 기술이 아니라 삶을 대하는 태도에서 배울 점도 엿보였으니. 글을 쓰다가 이런저런 궁금증이 생긴다. 그때 질문 퍼즐이 잘 맞춰지면 좋다. 그건 자료에서 해결할 때도 있고, 질의응답이나 피드백으로 해결할 때도 있다. 이미지 인식 기술로 글을 쓸 때 그걸 많이 충족했다. 나보다 더 잘 아는 사람에게서 배울 수 있다는 건 감사하고 좋은 일이다.
'파이썬으로 배우는 딥러닝 교과서'. 사진=한빛미디어좋았던 자료를 일부 공유하자면- 개념을 정의할 때는 책이 도움됐다. 비개발자도 어느 정도 이해할 수 있는 난이도로 나온 책들. 이 글을 쓰는 과정에서 길벗 출판사의 위엄을 새삼 실감했다. '파이썬으로 배우는 딥러닝 교과서: 이미지 인식 모델을 만들면서 익히는 딥러닝(이시카와 아키히코, 한빛미디어, 2020)', '가장 빨리 만나는 딥러닝 with Caffe(다케이 히로마사, 길벗, 2016)', '처음 배우는 인공지능(다다 사토시, 한빛미디어, 2017)', 'OpenCV 4로 배우는 컴퓨터 비전과 머신 러닝(황선규, 길벗, 2019)'. 블로그 리뷰를 보니 개발자 눈높이보다 쉬운(?) 책인 듯하고, 개념을 정리할 때 봐 두면 유용한 듯했다.
ETRI에서 나온 보고서도 좋았다. '이미지 기반의 식물 인식 동향(윤여찬·상종희·박수명, 전자통신동향분석 제33권 제4호)'라는 보고서인데. 이것도 기술 개념과 발전과정을 파악하는 데 도움됐다. 특히 이미지넷의 역사? 또 난 식물에 관심 있어서 이 보고서를 보고 좋은 식물 앱을 많이 알았다. 아울러 내가 있었으면 하는 식물 앱도 생각해보고. 돈이 될지 모르겠지만. 진지한 식물 집사는 돈을 아끼지 않지! 트랙스에서 컴퓨터 비전 기술의 과거, 현재, 미래를 다룬 보고서를 낸 것도 유익했다. 이건 기계가 사람 눈보다 어떤 점에서 비교 우위에 있는지 잘 분석했다. 이 기술의 필요성을 쓸 때 무척 도움됐다. AWS와 SAS 홈페이지도 그렇다. 기술 문서를 잘 만든 기업을 보면 확실히 남다르다. 대기업은 특히. AWS나 MS가 괜히 AWS, MS가 아니란 생각도.
그러나 스타트업 중에서도 좋은 브랜드 콘텐츠를 만든 곳이 있으니. 난 어반베이스를 특히 다시 봤다. 잘 알던 곳은 아니고 이름만 들어보고, 기사로만 접했지만. 브랜드 콘텐츠도 야무지게 잘 만든다는 생각이 들었다. 특히 '[어반베이스 피플] 알고리즘으로 전 세계 도면을 변환하다_CV 개발자 인터뷰'라는 콘텐츠가 글 쓰는 과정에서 개념을 정립하는 데 무척 유용했다. 개발자가 직접 글을 써서 내용을 풀어주는 것도 좋은데 여러 가지 이유로 그걸 하기 어려울 때가 있으니. 그럴 때 다른 메신저가 이를 대신 잘 전달해주는 것도 도움된다. 외부인 입장에서는. 이 인터뷰를 읽고 어반 베이스는 훌륭한 개발자를 뒀다고 생각했다. 오죽하면 트위터에도 씀.
사진=픽사베이책 리뷰도 좋았다고 했는데. 난 이 리뷰를 인상 깊게 읽었다. 특히 마지막 문장이 좋았는데. "마우스로 조작하는 GUI 프로그램으로 배우는 것보다 파이썬으로 배우는 것이 장래 학생들과 독자들에게 엄청 큰 도움이 될 것이라고 생각한다. 그것이 차이다. 하루 가지고는 부족하다. 적어도 몇 번 이상은 책을 봐야 자기 것이 될 것이다." 이 글에서 뼈 맞는 기분이었다. 그건 딥러닝뿐만이 아닐 것이다. 우리 인생이 다 그런 것 같다. 정석대로 가는 게 있고, 우회하거나 조금 더 쉬운(?) 길로 가는 것도 있는데. 어려워도 정공법을 택하고 기초를 탄탄히 쌓는 게 제대로 배우고, 성장할 수 있는 길이 아닐까.
글의 개요는 이렇게 구성했다. 서두-기술 개념-발전과정-활용분야-사람 눈과 비교로 살펴본 이 기술의 필요성-해당 기업의 기술 작동방식과 차별화 지점-연구사례-마무리. 다른 콘텐츠를 쓸 때도 흔히 취하는 구조였다. 다만 POC 단계이기 때문에 실제 생활에서 해당 기업 기술이 어떻게 쓰이는지 다루기 어려웠고. 대신 어느 정도 연구됐고, 어떻게 종류가 나뉘어 있는지 다뤘다. 주제를 전달받을 때 해당 기업 내부에서 이 기술을 주제로 담당자분이 진행한 동영상 강의 파일도 받았다. 워딩을 하면서 영상을 봤는데 기초 지식이 많이 부족해서 알아듣기 어려운 내용이 많았다. 그래서 질문도 많았던.
서두를 여러 번 고쳤다. 썼다가 마음에 안 들어서(?) 엎고. 이건 코로나 19처럼 지금 당장 시의성 있는 긴급한 현안을 끌어오기도 뭣하고. 비대면과 관련된 것도 있지만 딱 맞아떨어지지 않았다. 결국 트랙스 기술 사례를 인용했다. 100% 마음에 들지는 않았지만. 이미지 인식 기술로 마트 선반 재고를 인식하며 판매 현황도 수시로 파악할 수 있는데. 이건 오프라인 매장의 디지털화를 주도할 수 있다고. 그러면서 다른 쓸모를 짧게 언급하고 스마트폰 대중화와 고도화된 딥러닝 알고리즘이 기술의 정확도를 높였다고 짚고. 해당 기업의 기술은 이런 쪽으로 연구해서 기술을 차별화, 발전시키려고 한다 그렇게 서두를 구성했다.
사진=픽사베이본론 1은 기술 개념과 발전과정을 설명했는데. 앞서 얘기했듯 좋은 참고자료가 많아서 도움이 꽤 됐다. 다만 어려운 게 있다면 이미지 인식 기술과 컴퓨터 비전 기술의 개념을 구분해서 쓰는 것. 컴퓨터 비전과 영상처리 개념을 어떻게 구분해서 쓸 것인가. 이 두 가지를 고민했다. 개념상 이미지 인식 기술이나 컴퓨터 비전 기술은 차이가 없고. 이미지 인식 기술은 컴퓨터 비전이라는 연구 분야의 일부인 셈인데. 이걸 혼용해서 많이 불러서 개념을 정리해서 쓰는 데 고민이 많이 됐다. 또 컴퓨터 비전과 영상처리를 혼용해서도 부르는데 개념을 명확히 구분 짓기 애매하다고 해서. 글에서는 이미지나 영상에서 정보를 추출하는 기술로 좁혀서 불렀다. 이미지와 영상이라는 단어도 구분하기가 뭣하다. 영상이 이미지에 속하기도 하고.
본론 2가 어려웠는데 앞서 이야기했듯 기술의 필요성 때문이었다. 기술의 쓰임새는 너무 다양해서 내용이 차고도 넘쳤지만. '이걸 왜 써야 하는가'는 해석이 필요했다. 이게 왜 필요하지. 이걸 왜 개발했지. 이걸 쓰면 우리에게 어떤 이익이 있지. 뭐가 도움되지. 예술하는 건 아니니까 사용자 효용을 염두에 두고 기술을 개발했을 텐데. 이건 단순히 활용사례만 언급해서 규명될 수 있는 건 아니라고 봤다. 기술 자체를 논리적으로 설명해야 하는 부분이라고 봤다. 필요성을 잘 풀어내지 못하면 난 혈관이 막히는 기분이 든다. 앞서 이야기했듯 기술이 의미로 다가오려면 이 부분이 중요하니까.
다행히 트랙스 보고서가 많은 통찰을 줘서 겨우 살았다. 여기에서 분석한 사람 눈 또는 뇌의 한계는 조금 씁쓸하기도 했다. 사람의 뇌는 오랜 진화의 역사 때문에 선천적으로 편견이 있다고. 글에서도 언급했지만 기계도 학습 데이터에 따라 편견이 생길 수 있다고 반박했다만. 또 사람의 눈은 220도 영역 안에서만 볼 수 있는데 기계는 360도 카메라와 여러 대의 카메라로 전체 시야를 다 포괄한다는 점도. 기계는 시야에 상관없이 색을 균일하게 볼 수 있고. 뭐, 일단 사람의 한계를 보완하기 위해서 기계를 활용한다 이렇게 마무리했다.
사진=픽사베이그 뒤로는 해당 기업의 기술 이야기를 했다. 여기는 지식그래프를 이미지 인식에 활용한다. 이로써 단순히 이미지 속 물체를 인식하는 걸 넘어 장면을 이해하는 기술을 구현하려고 한다. 동영상 강의 주인공인 연구위원 분이 질의응답에 답변도 해주시고, 글도 감수해주셨는데. 다른 글보다 좀 더 잡아주신 내용이 많았다. 이미지 캡션도 그렇고. 피드백 과정에서 알게 된 게 스탠퍼드대를 중심으로 이뤄지는 '비주얼 게놈 프로젝트'인데. 이게 이미지 인식 기술과 언어를 연결하는 거라고 하셨다. 이를 통해 이미지에서 객체의 다양한 속성, 객체 간 관계를 찾아 해석한다는데. 이걸 내가 더 일찍 알고 조사했더라면 좋았겠다는 생각이 들었다.
글을 그렇게 마무리했는데 역시나 쓰면서 어렵고 고통스러웠다. 공간 빅데이터 분석 플랫폼이 양적 압박이 컸다면 이건 질적 압박이라고 해야 하나. 일단 내용이 어려웠다. 그 기업의 기술을 이해하는 것도 그렇지만 이걸 더 쉽게 잘 전달하는 게 어려웠다. 또 글 쓰는 과정에서 다른 고민도 많았는데 가장 큰 게 능력의 한계였다. 난 이보다 더 높은 난이도로 글은 못 쓰겠다고 생각했다. 질의응답 과정에서 모르는 개념을 묻는데 내 질문이 게으른 거 아닌가 싶어서다.
예를 들어 도메인이 쓰이는 맥락이 각각 다른데. 내가 음성인식, 음성합성 기술 콘텐츠를 쓸 때 도메인 의미와 이미지 인식 기술에서 도메인 의미가 달랐다. 게으른 질문을 하고 싶지 않아서 내 선에서 답을 찾아봤지만 나오지 않아서 일단 질문했다. 답변은 받았는데 그냥 그런 생각이 들었다. 개발자라면 그걸 배경지식으로 깔고 알 텐데. 기술 콘텐츠도 대상에 따라 난이도나 유형이 다르다. 난 대중을 상대로 겉핥기 식 글은 쓸 수 있겠지만 그보다 개발자를 위한 글이나 더 깊이 있는 글을 쓸 깜냥은 아직 안 된다는 걸 이 글을 쓰면서 많이 실감했다. 더 공부하고, 많이 보고 들으면 나아질 수 있겠지만. 굉장히 많은 노력이 필요하다.
내 한계가 더 분명히 보였고, 난 그걸 넘고 싶은데 그러려면 어떻게 해야 할까. 그 고민을 했고 요즘도 그걸 고민한다. 또 왜 내가 그걸 해야 하나, 나 아니라도 할 사람 많을 텐데? 여기에 대한 답도 필요하고. 과정은 고통스러웠고 답은 찾는 중인데. 한편으로는 생각할 거리를 많이 던져줘서 다른 글보다 이 글을 쓸 때가 더 기억에 많이 남는다. 그래선지 유독 이 글을 쓸 때 트위터에 자주 끼적이고 브런치에도 종종 뭔가를 쓰고. 글 쓰면서 딴짓도 많이 했다. 시간이 잘 가네. 오늘은 여기까지.