brunch

매거진 딥러닝 101

You can make anything
by writing

C.S.Lewis

by TUGU Dec 16. 2018

딥러닝의 몇 가지 기초적 키워드

딥러닝 101_Chapter 2

본격적으로 딥 러닝에 대한 수학적, 구조적 개념이나 자세한 내용들을 다루어 보기 전에 우선은 먼저 알아야 할 몇 가지 딥러닝 관련 키워드 들에 대해서 설명해보고자 한다.


Supervised Learning(지도 학습 방식) vs.  Unsupervisded Learning(비지도 학습 방식) 

머신러닝 방식에는 크게 Supevised Learning(지도 학습)과 Unsupervisded Learning(비지도 학습) 방식이 있다. 이 둘의 가장 큰 차이점은 사람이 학습용 데이터 셋에 대해서 사전에 레이블링을 해 주느냐 아니냐의 차이에 있다. 예를 들어 개와 고양이를 분류하는 알고리즘을 딥러닝으로 구현한다고 할 때, 지도 학습 방식의 경우는 학습용 개와 고양이 이미지에 대해서 일일이 개 혹은 고양이라고 사전에 레이블링을 해 준 상태에서 학습을 하는 것이고, 비지도 학습 방식은 각각의 이미지에 대해서 개 혹은 고양이라고 레이블이 주어지지 않은 상태에서 학습을 하는 것이다. 


일단 이번 글에서는 많은 분야에서 활용되는 지도 학습 방식에 대해서 간략히 설명해보고 한다. 아래 대표적인 지도 학습 방식의 여러 가지 사례에 대해서 나열해 놓았다.


Supervised Learning 의 예시


위에 나열된 지도 학습 방식의 예시들을 보도록 하자.

첫 번째, 부동산 가격을 예측하는 시스템에서 집의 가격과 관련된 특징(평수, 방수, 위치) 등이 인풋이 되고, 이에 상응하는 각각의 집의 가격이라는 정답이 매겨진 데이터가 있고 이를 학습시키는 경우이다.

두 번째, 온라인 광고의 경우 User의 정보(성별, 나이, 직업 등등)와 해당 User가 특정 광고를 Click 했는지 안 했는지의 관계도 마찬가지이다. 여기서는 User의 Click 여부가 0,1이라는 Binary 아웃풋으로 라벨링이 되어 있다.

그 외에 개와 고양이의 이미지 분류 문제, 음성을 텍스트로 변환해주는 문제, 번역, 등등등 우리가 흔히 접하게 되는 많은 분야에서 지도 학습 방식이 쓰이고 있다.

 

위에 나열된 모든 예시들 또한 Neural Network 계열의 딥러닝 방식으로 적용이 가능하다.


Standard Neural Net이 여러분이 딥러닝을 공부하다 보면 가장 먼저 보게 되는 모식도이고, 가운데는 이미지 인식 학습분야에서 많이 쓰이는 Convolutional Neural Net, 오른쪽이 Speech Recognition (Siri 같은 것들) 분야에 많이 쓰이는 Recurrent Neural Net이다. 각각에 대해서는 워낙 설명할 양이 방대하므로, 나중에 다른 글에서 추가적으로 얘기해 보도록 하겠다.


Structured Data(정형) & Unstructured Data(비정형)

딥러닝에서 가장 중요한 것은 뭐니 뭐니 해도 데이터다. 데이터 가 없으면 학습할 수 도 없다. 딥러닝이 갈수록 각광을 받는 가장 중요한 이유 중 하나가 이 딥러닝의 중요한 원천인 데이터들이 스마트폰, IOT, 스마트 팩토리, 전기차 등등으로 인하여 기하급수적으로 쌓여가기 때문이다. 


데이터의 형태는 크게 두 가지로 나누어 볼 수 있는데, Structured 데이터(정형)와 Unstructured 데이터(비정형)로 나누어진다. 

위 그림에서 왼쪽과 오른쪽 모두 데이터다. 아 즁 사람 입장에서 더 이해하기 쉽고 직관적인 경우는 오른쪽과 같은 Audio, Image, Text 등 사람의 감각기관이 직접 받아들이고 뇌가 해석하기 용이한 형태들이다. 하지만 컴퓨터 입장에서는 왼쪽의 테이블 형태의 데이터가 오히려 더 받아들이기 쉬운 형태이다. Structured 데이터라는 것은 쉽게 말하면 컴퓨터가 이해하기 쉬운 관점에서, 위 예시처럼 인풋과 아웃풋이 행렬로 일목 요연하게 정리되는 형태를 말하는 것이다.

현실에서는 Structured 데이터뿐만 아니라 Unstructred 데이터 도 많다. 따라서 다양한 분야에 딥러닝을 잘 활용하기 위해서는 두 가지 방식의 데이터를 잘 활용할 줄 알아야 할 것이다. Audio, Image, Text 등의 데이터를 Structured 데이터로 변환시키려면 이를 열 벡터로 환산시키면 된다. 이에 대해서는 다른 글에서 다시 다루어보도록 하겠다.

 

다음 글에서는 왜 최근에 딥러닝이 이렇게 각광받고 유망한 기술이 되게 되었는지 짚어보도록 하겠다.



참조 : 강의 원본 출처 (앤드류 응 교수 딥러닝 강의)

Supervised Learning with a Neural Network (C1 W1 L03)

https://www.youtube.com/watch?v=BYGpKPY9pO0&index=3&list=PLkDaE6sCZn6Ec-XTbcX1uRg2_u4xOEky0

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari