3. 데이터를 알아보자

전문 지식은 필요 없지만, AI를 '어느 정도' 이해하고 싶은 당신께

by 먀 ai

데이터란 무엇일까?


지난번 글에서, AI에게 데이터는 세상을 배우는 '교과서'라고 표현했는데요. 단순히 데이터가 많다고 해서 AI가 무조건 똑똑해지지는 않습니다. 무엇을 담고 있는 데이터인지, 얼마나 다양하고 정확한지가 훨씬 중요합니다. '독도는 일본 땅'이라는 거짓된 책으로 아무리 열심히 공부해도 진실을 알 수 없듯이, 데이터의 질이 좋지 않다면, AI는 잘못된 세상을 배울 수도 있습니다. 데이터 품질이 AI 품질을 결정합니다.


좋은 데이터 vs 나쁜 데이터


똑똑한 AI를 만들기 위해서는 어떤 데이터가 좋을까요?


좋은 데이터의 조건

정확성: 정보가 사실에 근거해야 합니다.
잘못된 답이 적힌 교과서를 보면 사람도 헷갈리듯, AI도 마찬가지입니다.

다양성: 한 종류의 데이터만 보여주면 편향이 생깁니다.
예를 들어, 오직 낮에 찍은 고양이 사진만 학습하면, 밤에 찍은 고양이는 인식하지 못할 수 있습니다.

균형성: 특정 그룹이나 관점에 치우치지 않고, 다양한 상황과 배경을 포함해야 합니다.

노이즈(오염) 최소화: 의미 없는 데이터나 오류가 가득한 데이터는 AI를 혼란스럽게 만듭니다.


반대로, 나쁜 데이터는...

오타와 오류가 많은 데이터

극단적으로 편향된 데이터(예: 특정 인종, 성별만 학습)

반복적이고 중복된 데이터


데이터의 종류


AI 종류가 다양하듯, 인공지능이 학습할 수 있는 데이터 또한 굉장히 다양한데요. 주로 다음과 같은 형태로 구분할 수 있습니다.


텍스트 데이터:
글로 된 데이터로, 사람들이 쓴 글, 책, 뉴스 기사, 이메일, 대화 기록 등
예시- 챗GPT가 사람들과 자연스럽게 대화하는 데 사용됩니다.

이미지 데이터:
사진, 그림, 인포그래픽, 영상 속 장면 등 이미지로 된 데이터
예시- 고양이를 인식하는 AI나 자율주행 자동차의 카메라 영상으로 사용됩니다.

음성 데이터:
대화 녹음, 음성명령, 노래 등 소리 데이터
예시- Siri나 Google Assistant가 사람 음성을 인식하고 반응하는 데 사용됩니다.

센서 데이터:
온도, 속도, 위치, 심박수처럼 기계나 환경에서 수집된 데이터
예시- 스마트워치가 걸음 수나 심장박동을 측정하는 데 사용됩니다.


데이터는 왜 다양하게, 많이 필요할까?


AI는 통계를 기반으로 패턴을 학습한다고 했지요. 많은 사례를 봐야 '공통 패턴'을 찾을 수가 있기 때문에, 학습 데이터는 종류와 양이 모두 중요합니다.


현실 세계는 매우 복잡하고, 예외도 많습니다. 가능한 한 다양한 상황, 다양한 조건에서 데이터를 보여주어야 하지요. 책을 한 권만 읽은 사람이 가장 무섭다는 말, 들어보셨지요? 정보를 다양하게 접하지 못하면 인간 지능도, 인공 지능도 뛰어나기 어렵습니다.

고양이를 인식하는 AI를 떠올려 볼까요?


고양이 사진을 학습할 때, 집에서 얌전하게 앉아있는 고양이 사진만 공부한 AI는 밤에 쓰레기통을 뒤지는 고양이를 잘 알아보지 못할 수 있습니다. 성능이 좋은 AI를 위해서는 밝은 날 / 흐린 날, 집 안 / 야외, 새끼 고양이 / 어른 고양이, 털이 긴 / 짧은 고양이 등 다양한 사진을 잔뜩 입력해야 AI는 '고양이'라는 개념을 더 깊고 정확하게 이해할 수 있습니다.


또, 데이터의 양이 많을수록 AI는 더 미세한 차이까지 포착할 수 있습니다. 아주 작은 특징이나 예외적인 패턴도 여러 번 접하면서, 점점 더 정교하고 안정된 판단을 하게 됩니다. 10장의 사진만 본 AI와, 10만 장의 사진을 본 AI는 정교함에서 큰 차이가 날 수밖에 없겠지요?


그럼, 데이터 라벨링이란 무엇일까?


위에서 고양이 사진을 '잔뜩 입력한다'라고 표현했는데요. AI는 데이터를 단순히 보여준다고 해서 이해하지는 못합니다. 애초에 고양이가 뭔지 모르기 때문이지요. 따라서 데이터마다 '이건 고양이야', '이건 자동차야'처럼 이름표(라벨)를 달아주는 작업이 필요합니다. 이 작업이 바로 데이터 라벨링(Data Labeling)입니다. 영문 발음을 따라 '레이블링'이라고 쓰기도 합니다.

고양이 비유를 들어 계속 사진을 예시로 들었지만, 라벨링은 데이터만큼 종류가 다양합니다. 대표적인 예시를 살펴볼까요?


시맨틱 세그멘테이션 (Semantic Segmentation)
: 사진 속 모든 픽셀에 객체마다 그 범주를 표시합니다. 예를 들어, 도로, 자동차, 사람 등을 픽셀 단위로 색칠해 구분하는 방식입니다.

출처: Towards AI

폴리곤 어노테이션 (Polygon Annotation)
: 사람 손가락, 동물 귀처럼 복잡한 모양의 물체를 선으로 정확히 따라 표시합니다. 경계가 불규칙한 객체에 유용하지요.

출처: ImageAnnotation

바운딩 박스 (Bounding Box)
: 고양이나 사람과 같은 객체를 네모 박스로 감싸고, 무엇인지 라벨을 붙입니다. 객체 탐지의 기본 방식입니다.

출처: PeopleForAI


키포인트 어노테이션 (Keypoint Annotation)
: 사람의 관절이나 얼굴의 이목구비, 동물의 특징 같은 ‘중요한 점’들을 콕콕 찍어 점으로 표시합니다. 포즈 추정 등에 사용할 수 있습니다.

출처: LabelYourData


타임스탬프 (Time-stamp)

: 영상이나 오디오처럼 시간이 흐르는 데이터에서 특정 시점이나 구간을 표시합니다. 예를 들어, '3~6초 구간은 아기 울음소리'처럼요.

출처: encord

텍스트 라벨링(Text Annotation)

: 문장에서 특정 단어나 구절을 표시하거나, 감정, 주제, 의미 등을 태깅하는 방식입니다. 감정 분석이나 요약 등에 쓰이지요.

출처: DagsHub




데이터 종류에 따른 세밀한 라벨링이 있어야 AI는 임무를 완수할 수 있습니다. 이제 가장 기본적인 AI 용어들을 알아봤으니, 다음 글에서는 AI를 친근하게 느끼게 해 준 1등 공신, ChatGPT에 대해 알아보겠습니다.


전문적인 지식까지는 아니어도, AI를 '어느 정도' 이해하고 싶으시다면 다음 주 글도 기대해 주세요!

keyword
이전 03화2. 머신러닝과 딥러닝을 알아보자