학습여정
“제가 학습하고 있는 Coursera Plus의 다양한 강의를 개인적으로 정리하면서, ‘공유의 가치’도 관심이 있어 부족하지만 공유합니다. 함께 발전하길 바랄 뿐입니다.”
AI에게 데이터는 '학습자료'이며,
주로 입력(A)과 출력(B)의 관계로 정의됩니다.
AI는 수많은 A와 B의 쌍을 학습하여,
새로운 A가 주어졌을 때 올바른 B를 예측하거나 생성하는 능력을 키웁니다.
핵심 개념: AI는 입력(A)을 받아 원하는 출력(B)을 만들어내는 '매핑(mapping)'을 학습합니다.
유연성: 무엇을 A(입력)로 삼고 무엇을 B(출력)로 할지는 비즈니스 목표에 따라 달라집니다. (→ DG생각: 다양한 콘셉트의 다양한 모델 등장 이유일 듯)
(예시 1) 주택 가격 예측:
집 크기(A) → 가격(B)
[집 크기, 방 개수](A) → 가격(B)
예산(A) → 구매 가능한 집 크기(B)
(예시 2) 이미지 인식:
이미지(A) → "고양이 유무" 라벨(B)
가치 있는 데이터 세트를 확보하는 방법은 크게 4가지가 있습니다.
수동 라벨링 (Manual Labeling)
사람이 직접 이미지, 텍스트 등의 데이터에 정답(라벨)을 일일이 붙이는 방식입니다.
가장 기본적인 방법이지만, 정확한 데이터 세트를 구축할 수 있습니다.
→ 예: 수많은 사진을 보며 '고양이' 또는 '고양이 아님'으로 분류하기 (→ DG생각: 이런 데이터 라벨링 회사가 많이 생기고 있습니다. 2025년 기준)
사용자 및 기계 행동 관찰 (Observing Behavior)
사용자의 서비스 이용 기록이나 기계의 작동 상태를 데이터로 활용합니다.
→ 예: 전자상거래 사이트에서 사용자의 구매/비구매 행동 기록, 공장 설비의 온도/압력 데이터 수집 (→ DG생각: 구글에선 유튜브 미디어데이터를 학습자료로 한다네요)
웹 다운로드 및 파트너 제공 (Web Download & Partners)
연구나 개발 목적으로 공개된 데이터 세트를 웹에서 다운로드하거나,
협력 관계에 있는 파트너로부터 데이터를 얻는 방법입니다.
→ 예: 자율주행, 의료 영상 등 공개된 데이터셋 활용
데이터의 중요성이 부각되면서 두 가지 흔한 오해가 발생합니다.
오해 1: "일단 데이터를 몇 년간 모으고 나서 AI를 시작하겠다."
문제점: 이는 매우 나쁜 전략입니다. 어떤 데이터가 가치 있는지 모른 채 무작정 모으게 될 수 있습니다.
올바른 접근: 데이터 수집 초기부터 AI 팀을 참여시켜야 합니다. AI 팀은 어떤 데이터가 필요한지, 어떤 방식으로 수집해야 하는지에 대한 피드백을 주어 IT 인프라 구축의 방향을 올바르게 유도할 수 있습니다.
오해 2: "데이터가 아주 많으니, AI 팀이 마법처럼 가치를 만들어낼 것이다."
문제점: 데이터의 양이 가치를 보장하지는 않습니다. 명확한 비즈니스 문제 정의 없이 데이터만으로는 가치를 창출하기 어렵습니다.
올바른 접근: "어떤 문제를 풀고 싶은가?"를 먼저 정의하고, 그에 필요한 가치 있는 데이터가 무엇인지 AI 팀과 함께 논의해야 합니다.
현실의 데이터는 완벽하지 않으며, 이를 이해하고 다루는 것이 중요합니다.
"쓰레기가 들어가면, 쓰레기가 나온다 (Garbage in, Garbage out)"
의미: 데이터의 품질은 AI 모델의 성능을 결정합니다. 데이터가 지저분하면 AI는 잘못된 내용을 학습하게 됩니다.
문제 유형: 잘못된 라벨(ex. 주택 가격이 1달러), 누락된 값(결측치) 등. AI 팀은 이러한 데이터를 '정리(cleaning)'하는 데 많은 시간을 씁니다. (→ DG생각: 일부러 계획단계에서 잘못된 데이터를 학습시켜 인위적으로 가짜정보를 생성할 수도 있겠네요)
데이터의 종류
정형 데이터 (Structured Data): 엑셀 시트처럼 행과 열로 명확하게 구조화된 데이터입니다. (예: 고객 정보, 판매 기록)
비 정형 데이터 (Unstructured Data): 정해진 형태가 없는 데이터로, 주로 사람이 해석하기 쉬운 형태입니다. (예: 이미지, 오디오, 텍스트)
차이점: 두 데이터 유형을 처리하는 AI 기술은 서로 다릅니다. 지도 학습은 양쪽 모두에 효과적일 수 있으며, 최근 생성형 AI는 주로 비 정형 데이터를 다루는 데 큰 발전을 보이고 있습니다.
※본 요약은 ‘공정 이용(fair use)’사용 목적으로, 모든 내용은 Stanford University의 Coursera강의 ‘모두를 위한 AI’를 수강하며 작성한 요약이며, 직접적인 강의 내용 복사, 슬라이드 캡처등은 저작권에 의하여 엄격히 보호됩니다. - 앤드류 응(Andrew Ng)의 강의 by Coursera Plus - "Learning Notes and Summaries by Digitalian”