EDA 및 데이터분석 예측 방법 결정하기
[프롬프팅]
(Missing Values 이미지 탑재)
위 내용 결측치 처리 어떻게 하는게 좋을까?
[프롬프팅]
y_retire 빈칸은 현재 재직자로 가정하고 y_birth 결측치는 제거해야 할 것 같은데?
1900년생이 있는데, 이는 현실적으로 불가능한 값입니다 1900년생이라면 입사 시점에 40~80세였다는 의미가 됩니다.
[프롬프팅]
아니 1900년도생이 입사해서 1965년에 퇴사할수도 있지
[프롬프트]
2010년말 기준 직원수 세우기.
입사연도 2010년을 포함한 이전 연도 모두 포함.
퇴직연도는 2011년 이후 년도, 비어있는 칸은 모두 포함.
[프롬프트]
2010년에서 태어난 년도를 빼서 age열을 새로 만들어줘.
[프롬프트]
남자와 여자로 분리한 데이터프레임을 df2010_m, df2010_f로 저장해줘.
[프롬프트]
남자 연령별 인원수는 df2010_mp에, 여자 연령별 인원수는 df2010_fp로 저장해줘.
[프롬프트]
남성별, 여성별 연령에 따른 인원수를 계산한 테이블을 합쳐줘
[프롬프트]
동일한 방법으로 2020년 데이터도 만들어줘.
[프롬프트]
2010, 2020과 동일한 방법으로 2016, 2017, 2018, 2019, 2020 테이블을 성별로 나눠서 저장하고 데이터프레임명은 숫자만 다르게 해줘.
[프롬프트]
이제 age, 2016, 2017, 2018, 2019, 2020 열을 합쳐서 남자, 여자를 각각 df_year_mt, df_year_pt에 넣어줘
[프롬프트]
2021년 데이터 이동평균법으로 구해줘. 대신 2021년 부터는 예측데이터니까 이전 년도 보다 한칸씩 아래로 이동해야돼
[프롬프팅]
동일한 방식으로 2030년까지 구해줘.
이상석. (2023). 데이터 드리븐 리포트. 한빛미디어