직접 이미지를 분류하기 전에 앞서 데이터를 어디서 구하면 좋을까
우선 본인이 분류하고자 하는 주제를 명확하게 정한다.
예를 들면 음식을 분류할 수 도 있을 것이고 스팸을 분류할 수 도 있을 것이고 카툰풍 여부를 분류할 수 도 있을 것이다.
두 가지 플랫폼을 소개한다.
하나는 일명 캐글 kaggle이다
https://www.kaggle.com/datasets
캐글은 차후에도 한번 더 깊게 설명할 예정이다.
쉽게 말하면 데이터에 대한 문제를 올려놓고 해결하는 모델을 개발하여 경쟁하는 플랫폼이다.
여기서 데이터에 대한 문제를 올리기 때문에 많은 데이터셋을 구할 수 있다.
다른 하나는 구글 Dataset search이다.
https://toolbox.google.com/datasetsearch
보통 캐글뿐만 아니라 다양한 사이트의 데이터셋을 검색해주기 때문에 용이하다.
딥러닝에서 중요한 건 데이터이다.
데이터를 어떻게 모으느냐 그리고 어떻게 정리하는가에 따라 결과는 크게 달라진다.
흔히 우리 팀에서는 "똥을 넣으면 똥이 나온다고.."