brunch

You can make anything
by writing

C.S.Lewis

by Changhwa Oh Nov 12. 2018

1-2화 : 데이터만 있으면 해결책은 많다

직접 이미지를 분류하기 전에 앞서 데이터를 어디서 구하면 좋을까

우선 본인이 분류하고자 하는 주제를 명확하게 정한다.

예를 들면 음식을 분류할 수 도 있을 것이고 스팸을 분류할 수 도 있을 것이고 카툰풍 여부를 분류할 수 도 있을 것이다.


두 가지 플랫폼을 소개한다.

하나는 일명 캐글 kaggle이다 

https://www.kaggle.com/datasets

캐글은 차후에도 한번 더 깊게 설명할 예정이다.

쉽게 말하면 데이터에 대한 문제를 올려놓고 해결하는 모델을 개발하여 경쟁하는 플랫폼이다.

여기서 데이터에 대한 문제를 올리기 때문에 많은 데이터셋을 구할 수 있다.


다른 하나는 구글 Dataset search이다.

https://toolbox.google.com/datasetsearch

보통 캐글뿐만 아니라 다양한 사이트의 데이터셋을 검색해주기 때문에 용이하다.


딥러닝에서 중요한 건 데이터이다.

데이터를 어떻게 모으느냐 그리고 어떻게 정리하는가에 따라 결과는 크게 달라진다.


흔히 우리 팀에서는 "똥을 넣으면 똥이 나온다고.."

매거진의 이전글 1-1화 : 데이터만 있으면 해결책은 많다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari