MTBF와 생존 확률: 숫자 이면에 숨겨진 의미

빙산 위의 숫자, 그 아래의 분포

by 현우민

주니어 시스템 안전 엔지니어 시절 나는 노트북 화면에 커다란 숫자 하나를 띄워놓고 한참을 바라보고 있었다.
“MTBF = 10,000시간.”


처음 이 숫자를 본 사람들은 대부분 이렇게 생각한다.

“아, 이 장비는 평균 10,000시간은 고장 없이 버티겠구나.”

마치 보증서에 찍힌 약속 같고, 과학이 보증하는 수명처럼 느껴진다.


하지만 나는 잘 알고 있었다. 이 숫자는 진실의 일부분일 뿐이라는 것을.


Note: MTBF(Mean Time Between Failures, 평균고장간격)는 기계가 고장과 고장 사이에 얼마나 오래 숨을 고르며 버틸 수 있는지를 보여주는 숫자다. 흔히 “수명”처럼 오해되지만, 사실은 장비의 라이프스타일을 엿볼 수 있는 통계적 평균치일 뿐이다. 어떤 장비는 이 시간보다 훨씬 일찍 멈춰버리고, 어떤 장비는 뜻밖에 오래 버티기도 한다. 그래서 MTBF는 마치 기계의 ‘인생 평균값’ 같은 개념인데, 평균값이라는 이름 아래 개별 장비들의 수많은 굴곡진 삶이 숨겨져 있다는 점이 흥미롭다.



raw?se=2025-08-24T09%3A34%3A26Z&sp=r&sv=2024-08-04&sr=b&scid=1b3f684d-1924-5f5c-bf34-8827ce84c0fe&skoid=c953efd6-2ae8-41b4-a6d6-34b1475ac07c&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2025-08-24T07%3A06%3A48Z&ske=2025-08-25T07%3A06%3A48Z&sks=b&skv=2024-08-04&sig=BTGVFcv4MEQZ1rFVJMGpRBg9uCIDAsl0h61vXctjE3o%3D

지수 분포(Exponential distribution)라는 가장 단순한 신뢰성 모델이 있다. 많은 장비의 MTBF 계산에 이 모델이 전제되어 있다. 그런데 놀랍게도, 이 분포에 따르면 MTBF 시점까지 살아남는 장비는 고작 37%에 불과하다.


다시 말해, 10,000시간의 MTBF를 가진 장비 100대가 있다면, 그 시간에 도달하기 전 이미 63대는 고장이 난다는 뜻이다.

MTBF는 ‘평균 고장 간격’이지, ‘보장 수명’이 아니기 때문이다.


사람이 태어나면 유년기, 청년기, 노년기를 겪듯이, 장비도 비슷한 수명 곡선을 가진다. 이를 가장 잘 설명하는 것이 Weibull 분포다. 시간에 따라 고장률이 변하는 상황에 적합하며, 부품의 수명 주기 세 단계를 모두 모델링할 수 있다는 것이 큰 장점이 있다.

초기(β<1): 출고 후 바로 고장 나는 초기 불량(Infant Mortality) 구간. 이 시기엔 MTBF 시점까지 생존할 확률이 훨씬 더 낮다.

중기(β=1): 안정적인 운용 단계. 이때는 지수 분포와 같아져 MTBF 생존 확률은 37%다.

후기(β>1): 노후·마모(Wear-out) 구간. 이미 오래 버틴 장비이므로 MTBF까지 생존할 확률은 오히려 더 높아진다.

그래서 MTBF는 장비의 어느 시점을 보고 있느냐에 따라 완전히 다른 의미를 띤다.


또 다른 수명 모델인 로그정규(Log-Normal) 분포에서는 이야기가 더 복잡하다. 로그정규분포는 비선형적이며 시간이 지날수록 고장률이 증가하는 마모 메커니즘을 표현하는 데 적합하다. 하지만, 분포의 퍼짐(표준편차 σ)이 커질수록, MTBF는 실제 중앙값보다 훨씬 오른쪽으로 밀려난다. 분포가 비대칭으로 길게 늘어나면 MTBF는 점점 ‘낙관적 수치’로 변해가게 되며, MTBF에서의 생존 확률은 급격히 낮아진다.


즉, MTBF라는 숫자만 보면 ‘오래가는 것처럼’ 착각할 수 있지만, 실제로는 훨씬 일찍 고장이 날 가능성이 크다.


그런데 왜 MTBF를 여전히 이렇게 많이 쓸까?

그럼에도 불구하고 MTBF는 RAM(Reliability, Availability, Maintainability) 분석에서 핵심 지표로 자리 잡고 있다. 그 이유는 간단하다.

표준화된 하나의 수치로 시스템 신뢰도를 표현할 수 있다는 편리함

복잡한 계산을 하지 않아도 시스템의 전반적 거동을 빠르게 파악할 수 있는 장점


단, 올바른 해석 맥락 속에서만 의미가 있다.



MTBF만 믿는 사람들

나는 회의실에서 여러 번 같은 장면을 목격했다.
화려한 프레젠테이션 속, 누군가는 자신 있게 외친다.
“우리 장비의 MTBF는 20,000시간입니다!”
그러면 사람들은 고개를 끄덕이며 안도한다.


하지만 속으로 중얼거리게 된다.
“그건 빙산의 일각일 뿐입니다. MTBF 뒤에 숨어 있는 분포를 보지 않으면,
이 숫자는 오히려 착각을 불러일으킵니다.”


MTBF는 분명 유용하다. 시스템 가용도 계산, 유지보수 계획, 부품별 신뢰성 할당 등에서 편리한 지표다. 하지만 그것만으로는 충분하지 않다.


중요한 건 MTBF가 아니라, “이 숫자를 만들어낸 신뢰성 분포는 무엇인가?”라는 질문이다.

MTBF만으로는 보증수명을 말할 수 없다.

MTBF만으로는 예방정비 주기를 정할 수 없다.

MTBF만으로는 고객의 체감 신뢰성을 설명할 수 없다.


나는 다시 노트북 화면의 숫자를 봤다.
“MTBF = 10,000시간.”


이제 이 숫자는 나에게 단순한 평균값이 아니다.
그 뒤에 숨어 있는 수많은 곡선들, 생존 확률의 기복, 마모의 그림자가 함께 보인다.


MTBF는 종착지가 아니다.
그저 긴 여정의 한 좌표일 뿐이다.


그리고 그는 알았다.
이 숫자를 올바르게 해석하는 순간, 우리는 단순히 장비의 수명을 아는 것을 넘어 —
안전하고 신뢰할 수 있는 시스템을 설계할 힘을 얻게 된다는 것을.



결론: MTBF는 빙산의 일각일 뿐

MTBF는 신뢰성 분석에서 유용한 지표이지만, 그것만으로 시스템의 진짜 수명을 설명하기에는 부족하다.

많은 경우, 시스템은 MTBF에 도달하기 전 고장 날 가능성이 더 크다.

특히 지수 분포나 로그정규 분포에서는 그 차이가 극명하게 드러난다.

따라서 다음에 어떤 장비의 MTBF 수치를 마주한다면, 꼭 이렇게 물어봐야 한다.

“이 숫자의 뒤에 숨은 신뢰성 분포는 무엇인가?”

작가의 이전글안전은 언제 돈이 되는가