brunch

You can make anything
by writing

C.S.Lewis

by 김기만 Sep 25. 2021

[테크이야기1] AI는 빅데이터보다는 굿데이타

모델정교화보다는 데이타클렌징


요즘은 항상 AI가 화두입니다. 아직까지 사람보다 똑똑함보다는 사람보다 실수를 하지 않는 쪽의 인공지능입니다. 시간이 지나면 더 똑똑한 판단이나 기획 디자인도 가능하겠죠. 하지만 이 인공지능도 학습을 해야합니다. 사람이나 기계나 쓸모가 있으려면 학습은 필수인 모양입니다.


저번에도 언급했듯이 사람의 분류를 이용한 머신러닝과 인공지능 자체 분류기준으로 러닝하는 방법이 있습니다. 사람의 분류로 학습된 인공지능은 딱 사람만큼만 합니다. 그리고 인공지능 자체 분류기준은 그 끝을 알 수 없습니다. 알파고도 기보를 공부한 버전과 기보를 공부하지 않은 버전이 있습니다. 지금은 기보를 공부하지 않고 자체의 분류와 판단하는 버전이 실력이 월등합니다.

어떻게 보면 우리가 풀지 못하는 문제는 다른 시각 다른 방법으로 접근해야하는데 사람들에는 고정관념이라는 있어서 쉽게 관점을 바꾸지 못합니다. 이런 경우에는 인공지능의 새로운 관점이 필요한거겠지요. 새로운 분류형태를 갖게 되면 인간이 보지 못한 관점을 가질 수 있을 겁니다.


어느 나라에서는 색을 흑과 백으로만 나누는 곳이 있고 우리나도 예전에 색에 대한 분류가 많지 않았습니다. 그래서 아직도 신호등에 녹색불이 켜져도 파란불이라고 이야기합니다. 이런 색분류가 많은 나라일수록 문화 해상도가 높습니다. 펜톤이 발행하는 색채표만큼은 아니더라도 요즘은 색이름도 너무 어려워졌습니다. 저한테만 어려운거면 아직 새로 생긴 문화에 속하지 못한거겠죠.

 아무튼 오늘 이야기는 인공지능 향상을 위해서는 어떤 조치를 취해야하는지에 대한 내용입니다. 한 회사에서 표면의 오류 검사를 인공지능을 이용해서 하고 있는데 정확도가 76%였다고 합니다.목표는 90%까지 정확도를 높이는 것이였고 두가지 방법으로 진행했습니다.


한가지는 인공지능의 알고리즘을 재설계하는 것이였고 다른 한가지는 인공지능에 투입되는 데이타를 선별해서 깨끗한 데이타만 입력하는 방법이였습니다. 결과는 데이타 클렌징을 한 방법이 93%정확도로 알고리즘 개선 방법을 이겼다는 겁니다. 여기서 중요한 것은 RAW DATA의 중요성입니다.


테슬라는 카메라 9개만 가지고 자율주행을 합니다. 카메라에 나오는 사물의 명확하지 않을때 사람이 직접 라벨링을 합니다. 처음에는 외주를 이용했는데 원하는 결과가 나오지 않아서 1000명의 정규직원으로 직접 뽑아서 데이타의 라벨링만 합니다. 왜냐하면 이런 인간개입 데이타 클렌징이 더 효과적이라는 걸 테슬라는 잘 알고 있는겁니다. 아직도 CG랜더링을 할때도 사람이 포인트를 달고 움직이고 이걸 데이타화하는것이 더 효율적인 것 같은거로 이해합니다. 이걸 다른 말로 하면 방법의 중요성이나 정교함보다는 일단 기록의 중요성을 이야기하는 것 같습니다.


일본말에는 알다의미로 두가지 한자가 있습니다. 하나는 나눌분(分)이고 다른 하나는 알(知)지입니다. 나눌분은 와까루로 발음하고 알지는 시루로 발음합니다. 와까루는 분류할 줄 안다는 뜻입니다. 사람인지 동물인지 분류할 수 있고 늑대인지 개인지를 분류할 수 있는 걸 와까루합니다. 분류의 해상도가 높아지면 더 세세한 문제도 해결할 수 있겠죠. 다른 한편의 시루는 화살시와 입구자로 이루어져 있습니다. 모양으로 보면 알다는 뜻은 뭔가 화살처럼 빨리 입으로 말한다는 의미거나 화살처럼 정곡을 찌른다는 의미가 있나봅니다. 알다는 분류에 의미라기보다는 기존의 지식이 한 순간 융합되어 바로 이야기한다는 의미일겁니다. 현재의 인공지능은 와까루는 할 줄 알지만 아직 시루에는 못미치는것 같습니다. 오늘도 파이팅.





작가의 이전글 [유튜브 만들기1]클로바 더빙으로 유튜브 영상을 만들다
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari