brunch

You can make anything
by writing

C.S.Lewis

by 이종우 Peter Lee May 04. 2020

[번역] 14일 자가격리 기간동안 학습  데이터과학 P

새 기술을 개발하고 포트폴리오를 강화 위한 2020 년의 프로젝트

https://towardsdatascience.com/14-data-science-projects-to-do-during-your-14-day-quarantine-8bd60d1e55e1


14일 자가격리 기간동안 학습  데이터과학 프로젝트 

Photo by Austin Distel on Unsplash


우선, 나는 모든 간호사, 의사, 식료품 점원, 공무원 및 지역 사회에 봉사하기 위해 생명을 위험에 빠뜨리는 모든 사람들에게 큰 소리를 지르고 싶었습니다.

이것을 당연한 것으로 여기지 마십시오. 이 기술을 배우고 새로운 기술을 배우고 책을 읽고 자신을 향상 시키십시오. 데이터, 데이터 분석 또는 데이터 과학에 관심이있는 사람들을 위해 여가 시간 동안 할 수있는 14 개의 데이터 과학 프로젝트 목록을 제공하고 있습니다!


세 가지 유형의 프로젝트가 있습니다.  


시각화 프로젝트


탐색 적 데이터 분석 (EDA) 프로젝트


예측 모델링


시각화 프로젝트


아마도 가장 빠른 프로젝트는 데이터 시각 화일 것입니다! 다음은 포트폴리오에 추가 할 흥미로운 시각화를 만드는 데 사용할 수있는 흥미로운 데이터 집합입니다.


코로나 바이러스 시각화

난이도 : 쉬움

데이터 세트 링크 :  https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset


Plotly를 사용하여 동적 시각화를 구축하여 코로나 바이러스가 시간이 지남에 따라 전 세계에 어떻게 확산되었는지 보여줍니다! Plotly는 데이터 시각화를 역동적이고 매력적이며 단순하게 만드는 놀라운 라이브러리입니다.위와 같은 시각화를 작성하는 방법을 배우려면 여기 내 자습서를 확인 https://towardsdatascience.com/visualizing-the-coronavirus-pandemic-with-choropleth-maps-7f30fccaecf5 하십시오 .내 친구 잭, 또한 코로나 회복을 예측에 기사를 썼다 https://www.obviously.ai/post/predicting-coronavirus-recovery-with-machine-learning

호주 산불 시각화

난이도 : 쉬움

데이터 세트에 대한 쉬운 링크  : https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland

Taken from Vox


Vox 에서 가져온 검은 여름으로도 알려진 2019-2020 년 산불 시즌은 2019 년 6 월부터 몇 차례의 극심한 산불로  https://en.wikipedia.org/wiki/2019%E2%80%9320_Australian_bushfire_season 구성되었습니다 .

이것은 흥미로운 프로젝트를 만듭니다! Plotly 또는 Matplotlib을 사용하여 데이터 시각화 기술을 활용하여 산불의 규모와 지리적 영향을 보여줍니다.내 친구 인 Jack이 브라질의 산불 패턴을 어떻게 예측했는지 보십시오 !


지구 표면 온도 시각화

데이터세트 난이도 : 쉬운 중간

https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels
            


Photo by William Bossen on Unsplash



기후 변화 반대자가 있습니까? 시간이 지남에 따라 지구 표면 온도가 어떻게 변했는지 보여주는 데이터 시각화를 만듭니다. 선 그래프 또는 다른 애니메이션 Choropleth 맵을 작성하여이를 수행 할 수 있습니다!


보너스 : 50 년 동안 지구의 기온을 예측하는 예측 모델을 만듭니다.


탐색적 데이터 분석 프로젝트

데이터 탐색이라고도하는 EDA (탐사 데이터 분석)는 사용중인 데이터 세트를 더 잘 이해하기 위해 여러 가지 기술을 사용하는 데이터 분석 프로세스의 한 단계입니다.EDA에 대한 자세한 내용은 여기 에서 내 가이드를 확인 https://towardsdatascience.com/an-extensive-guide-to-exploratory-data-analysis-ddd99a03199e 하십시오 !


뉴욕 에어 비앤비 데이터 탐색

난이도 : 보통 

데이터세트 링크 : https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

          

Photo by Oliver Niblett on Unsplash


2008 년부터 게스트와 호스트는 에어 비앤비를 사용해 여행 가능성을 넓히고보다 개인화 된 세상을 경험할 수있는 방법을 제시했습니다. 이 데이터 세트에는 뉴욕의 2019 년 리스팅 정보 및 지리적 정보, 가격, 리뷰 수 등이 포함됩니다.


답변을 시도 할 수있는 몇 가지 질문은 다음과 같습니다.  

어느 호스트가 가장 바쁘고 왜?


다른 지역보다 더 많은 트래픽이 발생하는 지역은 무엇입니까?


가격, 리뷰 수 및 특정 업체 정보가 예약 된 일 수 사이에 관계가 있습니까?


직원 유치 및 성과와 관련된 가장 중요한 요소

난이도 : 쉬움

데이터셋 링크 : https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset


Photo by Campaign Creators on Unsplash


IBM은 다양한 요소가 직원의 인력 감소 및 만족도에 미치는 영향을 이해하는 데 사용할 수있는 합성 데이터 세트를 작성했습니다. 일부 변수에는 교육, 직업 참여, 성과 평가 및 일과 삶의 균형이 포함됩니다.


이 데이터 세트를 살펴보고 실제로 직원 만족도에 영향을 미치는 중요한 변수가 있는지 확인하십시오. 한 걸음 더 나아가서 가장 중요한 변수부터 가장 적은 변수까지 순위를 매길 수 있는지 확인하십시오.


세계 대학 순위

난이도 : 쉬움

데이터 세트에 대한 링크 : https://www.kaggle.com/mylesoneill/world-university-rankings


Photo by Vasily Koloda on Unsplash


당신의 나라가 세계 최고의 대학을 가지고 있다고 생각하십니까? '최고의'대학이라는 것이 무엇을 의미합니까? 이 데이터 세트에는 3 개의 전 세계 대학 순위가 포함됩니다. 이 데이터를 사용하여 다음 질문에 대답 할 수 있는지 확인하십시오.  


최고의 대학은 어느 나라입니까?


세계 랭킹을 결정하는 주요 요인은 무엇입니까?


알코올 및 학업 성공

난이도 : 쉬움 

데이터 세트에 대한 링크 : https://www.kaggle.com/uciml/student-alcohol-consumption


Photo by Kevin Kelly on Unsplash


 알코올은 학생의 성적에 영향을 줍니까? 그렇지 않다면 무엇을합니까? 이 데이터는 중등 학교 수학 및 포르투갈어 과정 학생들의 설문 조사에서 얻은 것입니다. 알코올 소비, 가족 규모, 과외 활동과 같은 몇 가지 변수가 포함되어 있습니다.


이를 사용하여 학교 성과와 다양한 요소 사이의 관계를 탐색하십시오. 보너스로 다른 변수를 기반으로 학생의 최종 성적을 예측할 수 있는지 확인하십시오!


포켓몬 데이터 탐색

난이도 : 쉬움

데이터 세트에 대한 링크 : https://www.kaggle.com/rounakbanik/pokemon

Taken from Pokemon.com


모든 게이머를 위해 7 세대의 모든 802 포켓몬에 대한 정보가 들어있는 데이터 세트가 있습니다. 답변을 시도 할 수있는 몇 가지 질문이 있습니다.  


어느 세대가 가장 강한 포켓몬이 있습니까? 어느 것이 가장 약합니까?


어떤 포켓몬 유형이 가장 강력합니까? 가장 약한?


전설적인 포켓몬을 식별하기 위해 분류기를 만들 수 있습니까?


물리적 특성과 강도 통계 (공격, 방어, 속도 등) 사이에 상관 관계가 있습니까?


기대 수명의 요인

난이도 : 쉬움

데이터 세트에 대한 링크 : https://www.kaggle.com/kumarajarshi/life-expectancy-who


WHO는 시간이 지남에 따라 모든 국가의 건강 상태에 대한 데이터 세트를 작성했으며 기대 수명, 성인 사망률 등에 대한 통계를 포함합니다. 이 데이터 세트를 사용하여 다양한 변수 간의 관계를 탐색하십시오. 평균 수명에 가장 큰 영향을 미치는 것은 무엇입니까? 

이 데이터 세트는 다음 질문에 답변하기 위해 만들어졌습니다.  


초기에 선택된 다양한 예측 요소가 기대 수명에 실제로 영향을 줍니까? 실제로 기대 수명에 영향을 미치는 예측 변수는 무엇입니까?


평균 수명을 향상시키기 위해 기대 수명 가치가 낮은 국가 (<65)가 의료비를 늘려야 하는가?


영아 및 성인 사망률은 기대 수명에 어떤 영향을 줍니까?


평균 수명은 식습관, 생활 습관, 운동, 흡연, 음주 등과 긍정적 또는 부정적인 상관 관계가 있습니까?


학교 생활이 인간의 수명에 미치는 영향은 무엇입니까?


평균 수명은 음주와 긍정적 또는 부정적 관계가 있습니까?


인구 밀도가 높은 국가의 기대 수명이 더 낮은 경향이 있습니까?


예방 접종의 수명이 기대 수명에 미치는 영향은 무엇입니까?

영감을 얻으려면 회귀 로 https://medium.com/swlh/predicting-life-expectancy-w-regression-b794ca457cd4 예상 수명 에 대한 내 기사를 확인하십시오 !


예측 모델링

에너지 소비에 대한 시계열 예측

난이도 : 중간 

데이터 셋 :  https://www.kaggle.com/robikscube/hourly-energy-consumption          


Photo by Matthew Henry on Unsplash


이 데이터 세트는 PJM 웹 사이트의 전력 소비 데이터로 구성됩니다. PJM은 미국의 지역 전송 조직입니다. 이 데이터 세트를 사용하여 에너지 소비를 예측하기 위해 시계열 모델을 구축 할 수 있는지 확인하십시오. 그 외에도 하루 중 시간, 휴일 에너지 사용량 및 장기 추세를 찾을 수 있는지 확인하십시오!


대출 예측 

예측난이도 : 쉬움

 데이터 세트에 대한 링크 : https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/


Photo by Dmitry Demidko on Unsplash


 Analytics Vidhya에서 가져온이 데이터 세트는 승인되었거나 승인되지 않은 과거 대출에서 615 행과 13 열로 표시됩니다. 대출 승인 여부를 예측하는 모델을 작성할 수 있는지 확인하십시오.


중고차 가격 견적

난이도 : 보통 

 데이터 세트  연결  :    https://www.kaggle.com/austinreese/craigslist-carstrucks-data        


Photo by Parker Gibbs on Unsplash


Craigslist는 세계에서 가장 많이 판매되는 중고차 컬렉션입니다. 이 데이터 세트는 Craigslist의 스크랩 된 데이터로 구성되며 몇 개월마다 업데이트됩니다. 이 데이터 세트를 사용하여 자동차 목록의 가격이 너무 비싸지 않은지 예측하는 데이터 세트를 작성할 수 있는지 확인하십시오.중고차 가격을 예측하는 내 모델을 확인https://towardsdatascience.com/a-machine-learning-project-predicting-used-car-prices-efbc4d2a4998 하십시오 !


신용 카드 사기 감지

난이도 : 중간

데이터 셋 링크 : https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets

Photo by rupixen.com on Unsplash


이 데이터 집합은 284,807 건 중 492 건의 사기로 이틀 동안 발생한 거래를 나타냅니다. 데이터 세트의 불균형은 긍정적 인 클래스 (사기)가 모든 거래의 0.172 %를 차지합니다. 불균형 데이터 세트로 작업하고 신용 카드 사기 탐지 모델을 구축하는 방법에 대해 알아보십시오.


피부암 이미지 감지

난이도 : 고급

데이터 세트 링크 : https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000

            

Photo by Allie Smith on Unsplash


 10,000 개가 넘는 이미지로 신경 네트워크를 구축하여 피부암을 감지 할 수 있는지 확인하십시오. 이것은 확실히 가장 어려운 프로젝트이며 신경망과 이미지 인식에 대한 광범위한 지식이 필요합니다. 팁 : 멈췄다면 다른 사용자가 만든 커널을 참조하십시오!


읽어 주셔서 감사합니다!


1. 당신이 내 일을 좋아하고 나를 지원하고 싶다면 ...나를 지원하는 가장 좋은 방법은  https://medium.com/@terenceshin에서 나를 팔로우하는 것입니다. 


2. 트위터 https://twitter.com/terence_shin 에서 나를 팔로우 하는 첫 번째 사람이 되십시오 . 나는 여기에 많은 업데이트와 흥미로운 것들을 게시 할 것입니다! 


3. 또한, 내 새에 가입하는 최초의 하나가 될 YouTube 채널 여기 (https://www.youtube.com/channel/UCmy1ox7bo7zsLlDo8pOEEhA?view_as=subscriber 에서 나를 팔로우 하십시오 .


4. Linkedin : https://www.linkedin.com/in/terenceshin/


5. 내 이메일 목록 에 가입 https://forms.gle/UGdTom9G6aFGHzPD9 확인하십시오 .


6. 내 웹사이트 https://terenceshin.com/

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari