데이터로 미래를 예측하다
만약에요. 데이터만 보고도 미래를 어느 정도 내다볼 수 있다면 어떨까요? 좀 솔깃하지 않으세요?
우리는 항상 미래가 궁금하잖아요.
과거의 데이터를 잘만 활용하면 미래를 위한 나침반처럼 쓸 수 있지 않을까?
이런 생각 다들 한 번쯤 해 보셨을 텐데요.
이 질문에 대한 답이 '회귀 분석'의 핵심이라고 할 수 있습니다.
여러 데이터, 그러니까 변수들 사이의 관계를 수학적으로 분석해서 어떤 숫자값을 예측하는 것. 이것이 바로 '회귀 분석'입니다.
회귀 분석은 "이건 고양이, 저건 개" 이렇게 딱딱 나누는 분류와는 달라요.
회귀 분석은 "내일 기온이 몇 도쯤 될까" 라든지, "이 아파트 얼마 정도 할까" 처럼 구체적인 숫자를 예측하는 데 집중하는 거죠.
다음 차이를 보세요.
"운동을 더 많이 하면 건강에 좋다"
"주 3시간 운동을 늘리면 콜레스테롤이 5포인트 감소할 수 있다"
그냥 막연하게 생각하는 것과 구체적인 수치로 예측하는 것은 완전히 다르죠.
막연함을 구체적인 숫자로 바꾸는 것. 이게 바로 회귀 분석의 진짜 힘입니다.
가장 기본부터 시작해 볼까요? 이름은 단순하지만 생각보다 아주 강력한 예측 모델, '단순 선형 회귀'입니다.
'단순 선형 회기'의 핵심 아이디어는 세상의 복잡한 관계를 일단 가장 기본적인 직선 하나로 그려보자는 거죠.
한 가지가 변할 때 다른 한 가지가 얼마나 착실하게 따라 변하는지, 그 관계를 깔끔하게 선 하나로 요약해 버리는 겁니다.
가장 클래식한 예시로, 공부시간과 시험점수.
공부시간 x가 늘어날수록 시험점수 y도 오를 거잖아요.
이 관계를 우리가 중학교 때 배운 "y = ax + b" 라는 아주 간단한 직선 방정식으로 표현하는 거예요.
여기서 a값 즉, 기울기가 뭐겠어요?
바로 공부시간을 한 시간 더 투입했을 때 점수가 얼마나 오르는지를 보여 주는 거죠.
관계를 파악하는 아주 직관적인 출발점이에요.
그런데 잠깐만요. 현실이 진짜 이렇게 간단할까요?
절대 아니죠.
시험 점수가 어떻게 딱 공부시간에만 비례하겠어요? "어제 잠은 잘 잤는지", "컨디션은 어떤지", 아니면 뭐 "그 과목을 원래 좋아했는지" 까지
영향을 미치는 요인들이 사실 훨씬 더 많잖아요.
바로 그 지점에서 우리는 한 단계 더 나아가야 해요. 더 현실을 잘 설명하는 더 강력한 모델, '다중 회귀'로요.
'단순 선형 회귀' 대 여러 변수를 동시에 고려하는 '다중 회귀'의 차이는 아주 명확하죠.
단순 선형 회귀가 입력값 딱 하나만 보고 결과를 예측했다면,
다중 회귀는 여러 개의 입력값을 동시에 막 저글링하면서 하나의 결과를 예측해내는 거예요. 당연히 현실 세계의 그 복잡한 면모를 훨씬 더 잘 담아낼 수 있겠죠?
집값을 예측한다고 한번 상상해 보세요.
단순히 "전용 면수"만 보나요? 아니잖아요. "건물이 얼마나 낡았는지", "지하철역까지는 걸어서 몇 분인지", "주변에 좋은 학교는 있는지", 심지어 "동네 범죄율" 같은 것까지 전부 다 가격에 영향을 주죠.
다중 회귀는 바로 이 모든 걸 한꺼번에 고려해서 계산하는 겁니다.
바로 이 지점에서 다중 회귀의 진짜 슈퍼파워가 나옵니다.
그냥 예측을 더 정확하게 하는 걸 넘어서요, 각각의 요인들이 결과에 얼마나 큰 영향을 미치는지, 그 영향력의 크기를 따로따로 분리해서 볼 수 있게 해 줘요.
이게 무슨 말이냐면
다른 조건이 다 똑같다고 가정했을 때 "지하철역이 100m 가까워지면 집값이 정확히 얼마가 오를까?",
이런 걸 계산할 수 있게 된다는 뜻이에요. 엄청나죠.
보시는 것처럼 회귀 분석은 정말 우리 삶 아주 깊숙한 곳까지 들어와 있어요.
기업에서는 "광고를 얼마나 해야 매출이 오를지" 예측하고,
정부는 "금리를 바꾸면 경제가 어떻게 될지" 분석하죠.
심지어 우리가 매일 아침 확인하는 "일기예보"조차 수많은 데이터들을 넣고 돌린 회귀 모델의 결과물인 셈입니다.
기업에서는 이걸 정말 유용하게 씁니다. 일종에 가상 실험을 해 보는 거죠, "만약에 우리가 이렇게 하면 결과가 어떻게 될까" 하고요.
예를 들어 볼게요. 과거 데이터를 싹 분석한 모델을 돌려 보니까 "온라인 광고 예산을 10% 늘리면 전체 매출이 한 3% 정도 오르겠구나" 하는 예측이 나오는 거예요. 이걸 바탕으로 어디에 돈을 쓰는 게 가장 효율적인지 그런 전략을 짤 수 있게 되는 거죠.
하지만 이렇게 강력한 도구라고 해서 만능은 아닙니다. 여기에도 분명한 한계가 있고 아주 조심해야 할 점들이 있어요. 이제 예측이라는 것의 본질적인 한계에 대해 짚어 보겠습니다.
데이터를 다루는 사람이라면 이건 정말 머릿속에 새겨둬야 합니다. 바로 '
상관관계는 인과관계가 아니다
'라는 황금률이죠.
두 가지가 같이 움직인다고 해서 하나가 다른 하나의 원인이라고 단정하면 절대 안 된다는 뜻이에요.
회귀 분석은 둘 사이에 관계가 있다는 것까지만 보여주지, 둘 중 누가 원인이라고 증명해 주진 않거든요.
아주 유명한 예시가 있죠.
여름이 되면요, 아이스크림 판매량이 늘어나요. 그리고 신기하게도 상어 공격 횟수도 같이 늘어납니다.
그럼 뭐예요? 아이스크림을 많이 먹으면 상어한테 물리는 걸까요?
말도 안 되죠. 정답은 더운 날씨라는 숨겨진 제3의 요인이죠.
날이 더우니까 사람들이 아이스크림도 많이 사 먹고, 바다에도 많이 들어가니까 두 가지가 그냥 같이 늘어나는 것뿐이에요.
이것 말고도 조심해야 할 함정들이 몇 개 더 있어요.
첫째, 모델은 모든 관계가 그냥 쭉 뻗은 직선이라고 너무 단순하게 생각할 수 있다는 것. 현실은 훨씬 꼬불꼬불한데 말이죠.
둘째, 애초에 집어넣는 데이터 자체가 한쪽으로 치우쳐 있다면 당연히 결과도 편향되게 나오겠죠.
그리고 마지막으로 과거 데이터에 기가 막히게 잘 맞았던 모델이라고 해서 미래까지 완벽하게 예측해 줄 거라는 보장은 어디에도 없습니다.
그럼 이 모든 걸 종합해 봤을 때 회귀 분석의 진짜 가치는 도대체 뭘까요?
회귀 분석은 미래를 딱 보여주는 마법의 수정 구슬 같은 게 절대 아닙니다.
미래를 100% 맞추는 건 불가능하죠.
하지만 이건 우리가 가진 정보를 최대한 활용해서 더 합리적인 판단을 내리도록 도와주는,
뭐랄까 짙은 안개 속을 항해할 때 길을 알려주는 아주 똑똑한 내비게이션 시스템 같은 거예요.
그러니까 핵심은 바로 이거예요. 모든 불확실성을 완벽하게 없애주지 못해요. 하지만 데이터를 증거로 삼아서
우리가 어제보다 더 나은 판단을 내릴 수 있도록 도와주는 것.
그것이야말로 회귀 분석이 우리에게 주는 진짜 선물이라고 할 수 있겠죠.
마지막으로 여러분께 이런 질문을 던져보고 싶습니다.
회귀 분석은 기본적으로 "과거의 패턴이 미래에도 반복될 것이다" 라는 가정 위에서 작동합니다. 그런데
만약에 과거에는 단 한 번도 없었던 정말 완전히 새로운 사건이 터진다면 그때는 어떻게 될까요?
전 세계를 멈추게 한 팬데믹이나
세상을 뒤바꾸는 새로운 기술 같은 그런 블랙스완 앞에서
과연 데이터 모델들은 어떻게 반응할까요?
결국 중요한 건,
데이터 기반 예측의 힘을 믿고 활용하되 동시에 그 명확한 한계를 이해하고
'이게 정말 맞을까?'라고 끊임없이 비판적으로 질문하는 자세. 그것이야말로 우리가 이 불확실한 미래를 헤쳐 나가는 가장 현명한 방법이 아닐까 싶습니다.