brunch

[가설검정] 젊은 당뇨와 인구 관련성 분석

by 노다해

건강검진데이터를 주고 가설검정 실습하는 과제였다.

그런데 하다보니 인구 수/밀도 분석을 더 열심히 했다.


인구 수/밀도는 내가 궁금해서 따로 다운받았다.

공공데이터는 웬만해서는 국가에서 관리하고 라벨처리 해서 공개하기 떄문에 구하기는 쉽다.

궁금한 데이터가 있다면 구글에 검색해보시길 추천한다.


나의 큰 그림은 '최근 젊은 당뇨가 급증하고 있다'에서부터 시작하는 것 이었다.

하지만 번거롭게 느껴져서 그냥 주어진 2022년도 데이터만 분석하는데에 만족했다.

두 비율을 검정할 때에는 Z 검정을 써야한다고 ChatGPT가 알려줬다.


내가 분석하고 싶은 내용을 알려주면

어떤 검정법을 쓰면 되는지, 어떤 함수를 쓰면 되는지,

시각화는 어떻게 하면 되는지까지 ChatGPT가 모두 다 알려준다.


이제 와서 생각해보면 조금 다르게 접근했다면 건강데이터만으로도

충분히 지금까지 배운 내용 잘 활용해서 재미난 분석을 해볼 수 있었을 것 같다.


지금 떠오르는 아이디어는,


(1) 모집단을 전국으로 잡고, 지역별 평균이 모집단에서 얼마나 벗어나는지 검정해보기


(2) 지역별 평균 차이가 유의미한지 분산분석 해보고, 지역별 차이 사후검정 해보기


마지막으로는 귀찮아서 하지 않았던,


(3) 젊은 당뇨 비율의 시계열 분석

이미 밝혀진 가설이기는 해도, 어느 정도의 상관관계가 있는지 정량적으로 확인해보는 재미

+ 의료계에서는 이 정도 되면 관계 있다고 보는구나 등 확인해보는 재미도 있었겠고

가절 검정의 배경부터 밝히고 들어가면 앞단이 좀 더 탄탄해지기도 하겠다.




---------------------------


[멘토 피드백]

1. 배경지식을 검증하기 어려울/번거로울 때는 공신력 있는 기사나 보고서 인용 추천

ex. 최근 젊은 당뇨가 증가하고 있다, 최근 황혼/신혼 이혼이 증가하고 있다, 최근 결혼하는 커플이 줄어들고 있다.


2. 비교 대상을 명확/극명하게

ex. 유난히 높은(충남)/낮은(제주) 지역을 비교

ex. 20-30대 vs. 그 밖의 나이대


3. 데이터 특성을 고려하여 라벨 부여

ex. '담배를 전혀 피우지 않는다 - 과거에는 피웠으나 지금은 피우지 않는다 - 과거에는 피우지 않았으나 지금은 피운다 - 오랫동안 피웠다' 처럼 순차적인 특징이 있다면 1-2-3-4와 같이 수치 라벨링 ok


4. 유효한 결정계수 기준은 도메인 마다 다르니, 논문이나 보고서 참고



+ 역시 대학원에서 디펜스하던 짬바가...

+ 회귀분석에서 데이터가 정규성 만족해야하는 점 잘 캐치 �


---------------------------



1. 분석 목적

본 분석은 최근 증가하고 있는 젊은 당뇨 환자의 지역별 분포와 인구적 특성(인구 수 및 인구 밀도) 간의 관련성을 탐색하고자 하였다. 특히 대도시일수록 젊은 당뇨 비율이 높을 것이라는 가설을 바탕으로 선형 회귀 분석을 통해 인과적 단서를 도출하고자 하였다.


2. 가설 설정

귀무가설(H₀): 인구(또는 인구 밀도)에 따라 도시별 젊은 당뇨 비율은 유의미한 상관관계가 없다.

대립가설(H₁): 인구(또는 인구 밀도)에 따라 도시별 젊은 당뇨 비율에 유의미한 상관관계가 있다.


가설 수립 배경

대도시일수록 사무직 인구 비중이 높고, 이로 인해 운동 부족, 스트레스, 불규칙한 생활습관이 심화될 수 있다. 이러한 요인들은 젊은 당뇨 발생 위험 요인으로 잘 알려져 있다. 이에 따라 인구 규모가 클수록 젊은 당뇨 비율이 높을 가능성을 가정하였다.


용어 정의

젊은 당뇨

당뇨에는 제 1형 당뇨와 제 2형 당뇨가 있다. 제 1형 당뇨는 인슐린 생성이 거의 안 되는 자가면역 질환으로 유전적, 환경적 요인과 연관이 있다. 보통 소아청소년기에 발병한다. 제 2형 당뇨는 생활습관 등으로 일시적으로 인슐린의 기능이 저하되어 발병한다. 보통 40대 이후에 발병하던 제 2형 당뇨가 최근 20 ~ 30대에서 급증하고 있으며, 이러한 사례를 젊은 당뇨라 칭한다.


당뇨 판정 기준

당뇨병을 판정 하는 기준은 여러가지가 있지만, 대표적으로 공복혈당을 꼽을 수 있다. 일반적으로 공복혈당이 126 mg/mL 이상인 경우 당뇨병 가능성을 의심하며, 보통 2회 이상의 검사로 진단을 확정한다. 본 분석 보고서에서는 공복 혈당 126 mg/mL 이상을 당뇨로 분류 한다.


한계

사무직 인구에 대한 직접적인 데이터 부재

인구 수와 실질 근무 인구(통근자 포함)의 차이

환경·소득 수준 등의 잠재적 교란 변수 미통제


3. 데이터 출처

건강검진 데이터: 국민건강보험공단 2022년도 건강검진자료 (공공데이터포털)

인구 및 밀도 데이터: 통계청 2022년도 기준 (지표누리)


4. 분석 결과 요약


(1) 인구 수 vs 젊은 당뇨 비율

1_YoungDiabetes_Population.png?type=w966

인구 수는 천 명 단위

회귀식: y = 1.96 − 1.19×10⁻⁵·Population

R² = 0.010, p = 0.701 → 유의미하지 않음

정규성 검정 (Shapiro-Wilk): p = 0.000 → 정규성 불만족


(2) 인구 밀도 vs 젊은 당뇨 비율

2_YoungDiebetes_Density.png?type=w966

회귀식: y = 2.01 − 4.43×10⁻⁵·Density

R² = 0.167, p = 0.104 → 유의수준 0.1에 근접하나 통계적으로 유의하지 않음




(3) 로그 변환 결과

인구 수 및 밀도의 분포 정규화는 성공적 (p > 0.3)

그러나 설명력(R²)은 여전히 낮음 → 다른 변수 필요성 시사


1) 로그 인구 수 vs 젊은 당뇨 비율

3_YoungDiebetes_LogPopulation.png?type=w966

로그 변환 후에도 p = 0.485, 정규성은 개선되었으나 설명력은 여전히 낮음


2) 로그 인구 밀도 vs 젊은 당뇨 비율

4_YoungDiebetes_LogDensity.png?type=w966

로그 변환 후에도 p = 0.108, R² ≒ 0.16 유지


5. 각 도시의 인구 수와 인구 밀도 순위 변화

Rank_Population_Density.png?type=w966

동일한 도시라도 상대적인 위치 변화가 큼을 보여줌

경기도는 인구 1위이지만 밀도는 하위권

광역시인 광주와 대전이 인구 수에서는 하위권이지만, 밀도에서는 상위권

따라서 대도시 여부를 판단하는데에는 인구 수보다 인구 밀도가 적합


6. 결론 및 제언

본 분석에서는 인구 규모나 인구 밀도 모두 젊은 당뇨 비율에 유의미한 설명력을 가지지 않는 것으로 나타남

다만 밀도와의 관계는 약한 음적 상관이 포착되어 향후 도시 환경 요인(예: 공원 접근성, 걷기 인프라)이나 직업군 비율, 생활 패턴 데이터 등을 추가하여 다변량 회귀 또는 군집 분석을 수행할 필요가 있음

정규성 확보를 위한 로그 변환은 효과적이었으므로, 향후 모형 설계 시 변환 고려 바람






keyword
매거진의 이전글[잡설] 데이터 분석 직무에 대해서 - 2