혹시 독자님은 자신의 키가 평균에서 얼마나 벗어나 있는지 궁금해본 적 있나요? 아니면 시험 성적이 전체 학생 중 상위 몇 %에 위치하는지 궁금했던 적이요? 이런 질문들의 답을 찾기 위해 우리가 사용하는 것이 바로 정규분포입니다.
정규분포는 통계학에서 가장 중요하고, 가장 아름답고, 그리고 가장 신비로운 개념입니다. 왜냐하면 자연 속의 거의 모든 현상이 이 분포를 따르기 때문입니다. 인간의 키, 체중, 지능지수, 시험 성적, 제품의 무게, 측정 오차, 주식 수익률... 심지어 별의 밝기까지도요.
18세기 독일의 수학자 가우스가 발견한 이 분포는 처음엔 단순한 호기심에서 시작되었습니다. 천문학 데이터를 분석하던 중, 측정 오차들이 특정한 패턴을 따른다는 것을 발견한 것이죠. 그 패턴은 마치 종 모양의 곡선이었습니다. 가우스는 이것이 우연이 아니라 자연의 법칙이라는 것을 깨달았고, 이를 수식으로 표현했습니다.
그 수식이 바로 우리가 오늘 파헤쳐 볼 정규분포의 확률밀도함수(PDF)입니다:
이 공식을 처음 보면 마치 외계인의 언어처럼 느껴질 수 있습니다. 하지만 이 공식의 각 부분을 천천히 뜯어보면, 그 안에 숨겨진 자연의 지혜가 드러나기 시작합니다.
먼저 이 공식을 네 부분으로 나누어 생각해 봅시다.
첫 번째: 1/(σ√(2π)) - "높이 조절기"
이 부분은 마치 요리의 소금 한 꼬집처럼 보일지 모르지만, 실은 가장 중요한 역할을 합니다. 바로 정규화(Normalization)라는 작업입니다.
생각해 보세요. 확률은 항상 0에서 1 사이의 값이어야 하고, 모든 확률을 더하면 1이 되어야 합니다. 그런데 우리가 그래프를 그렸을 때 곡선 아래의 면적이 정확히 1이 되려면? 높이를 적절히 조절해야 합니다. 표준편차(σ)가 크면 곡선이 넓게 퍼지므로 높이를 낮춰야 하고, 표준편차가 작으면 곡선이 좁으므로 높이를 높여야 하는 거죠. 바로 이 역할을 하는 것이 1/(σ√(2π))입니다.
두 번째: e - "자연의 숨결"
e는 약 2.71828... 인 오일러 수입니다. 이 신비로운 숫자는 자연에서 일어나는 거의 모든 성장과 감소 현상에 나타납니다. 박테리아의 증식, 방사능의 붕괴, 심지어 나무의 가지가 뻗어나가는 패턴까지도 e를 포함한 지수함수를 따릅니다.
정규분포에서 e가 나타나는 이유도 비슷합니다. 자연에서 일어나는 오류나 변동은 중심에서 멀어질수록 지수적으로 감소합니다. 즉, 평균에 가까운 값들은 매우 흔하고, 평균에서 멀어질수록 급격히 드물어진다는 뜻입니다. 이것이 바로 e^(-x²) 형태의 함수가 필요한 이유입니다.
세 번째: π - "원의 신비"
원주율 π는 왜 정규분포에 나타날까요? 이것은 정말 아름다운 수학적 사실입니다.
2차원 평면에서 정규분포를 다루려면, 본질적으로 원의 면적을 계산해야 합니다. 정규분포의 공식을 유도할 때, 수학자들은 극좌표(polar coordinates)라는 기법을 사용하는데, 이것이 원과 관련되어 있기 때문입니다. 결과적으로 √(2π)라는 항이 나타나게 되는 것이죠. 이것은 마치 우주의 다양한 현상들이 모두 연결되어 있다는 것을 보여주는 증거 같습니다.
네 번째: (x-μ) ²/(2σ²) - "거리의 제곱"
이 부분은 가장 직관적입니다. (x-μ)는 데이터가 평균(μ)에서 얼마나 떨어져 있는지를 나타냅니다. 그리고 이를 제곱하는 이유는 무엇일까요?
첫째, 거리는 항상 양수여야 합니다. 평균보다 크든 작든 같은 정도로 취급해야 하기 때문입니다.
둘째, 제곱함으로써 평균에서 멀어질수록 더 빠르게 확률이 감소하게 됩니다. 즉, 극단적인 값들은 매우 드물다는 자연의 법칙을 수식으로 표현한 것입니다.
셋째, σ²(분산)으로 나누는 이유는 표준편차의 영향을 고려하기 위함입니다. 표준편차가 크면 같은 거리도 덜 극단적으로 취급하고, 표준편차가 작으면 더 극단적으로 취급합니다.
더 관심이 있으시면
Gaussian Integral - GeeksforGeeks
https://youtu.be/cy8 r7 WSuT1 I? si=Ufoy4 pLEvM3 sl5 Lt
이제 우리는 흥미로운 질문에 도달합니다: "이 곡선 아래의 면적이 정말 1일까?"
정규분포의 가장 아름다운 특징은 바로 이것입니다. 이 곡선 아래의 전체 면적은 항상 정확히 1입니다. 이것은 우연이 아니라, 처음부터 그렇게 설계된 것입니다.
그리고 더 신기한 것은, 만약 우리가 곡선 아래에서 특정 구간의 면적을 계산하면, 그것이 바로 그 구간에 데이터가 들어갈 확률이라는 것입니다.
예를 들어, 평균이 170cm이고 표준편차가 5cm인 한국 남성의 키 분포를 생각해 봅시다. 만약 우리가 165cm에서 175cm 사이의 면적을 계산하면, 그 값이 바로 한국 남성의 키가 165cm에서 175cm 사이일 확률입니다.
이것이 바로 확률밀도함수(PDF)라는 이름이 붙은 이유입니다. 높이 자체가 확률이 아니라, 면적이 확률을 나타내기 때문입니다.
이제 우리는 또 다른 개념을 만나게 됩니다: 누적분포함수(CDF)입니다.
CDF는 PDF를 적분한 것입니다. 즉, "X가 특정 값 이하일 확률"을 나타냅니다.
PDF가 "이 지점에서의 확률밀도는 얼마인가?"라는 질문에 답한다면, CDF는 "X가 이 값 이하일 확률은 얼마인가?"라는 질문에 답합니다.
그래프로 보면, PDF는 종 모양의 곡선이고, CDF는 S자 모양의 곡선입니다. PDF의 곡선이 가파를수록 CDF의 기울기가 급해지고, PDF의 곡선이 완만할수록 CDF의 기울기도 완만해집니다.
이 두 함수는 동전의 앞뒷면처럼 같은 정보를 다른 방식으로 표현한 것입니다.
정규분포를 이해하는 것은 단순한 수학 공부가 아닙니다. 이것은 세상을 보는 새로운 방식입니다.
당신이 어떤 현상을 관찰할 때, 그 현상이 정규분포를 따른다면, 당신은 그 현상의 미래를 예측할 수 있습니다. 당신은 극단적인 값이 얼마나 드물 것인지, 평균 근처의 값들이 얼마나 흔할 것인지를 알 수 있습니다.
또한 정규분포는 통계학의 기초입니다. 신뢰구간, 가설검정, 회귀분석 등 거의 모든 통계 기법이 정규분포를 가정하고 있습니다. 따라서 정규분포를 이해하지 못하면, 통계의 진정한 의미를 알 수 없습니다.
정규분포의 공식은 처음엔 복잡해 보일 수 있습니다. 하지만 각 부분을 하나씩 이해하다 보면, 당신은 자연이 얼마나 우아하고 체계적인지를 깨닫게 될 것입니다.
e, π, σ, μ... 이 모든 것들이 완벽하게 조화를 이루어, 우리 주변의 거의 모든 현상을 설명하는 하나의 곡선을 만들어냅니다.
이것이 바로 정규분포의 비밀이자, 자연의 언어입니다.
이제 Python 코드를 통해 이 아름다운 공식을 직접 만나보세요. 당신은 수식 속의 각 부분이 그래프에서 어떻게 작동하는지 눈으로 확인할 수 있을 것입니다. 그리고 그 순간, 정규분포는 더 이상 추상적인 공식이 아니라, 살아 숨 쉬는 자연의 법칙으로 느껴질 것입니다.