각론 1. 인프라

UPS, 리튬 이온 배터리 그리고 구조적 한계

by Yameh

1. 화재 발생과 1차 피해

2025년 9월 26일 오후 8시 20분경, 국가정보자원관리원 대전센터 5층 전산실에서 화재가 발생했다.

공식적으로는 무정전전원장치(UPS)에 연결된 리튬이온 배터리를 지하 전용 구역으로 이전·교체하는 과정에서 불꽃이 발생했고, 그 불이 배터리 모듈로 확산한 것으로 설명되고 있다.

이 화재로 리튬이온 배터리 팩 384개가 전소했고 전산실 내부 온도는 약 160℃까지 치솟았다. 큰 불길이 잡히기까지 약 10시간이 걸렸고, 완전 진화까지는 약 22시간이 소요된 것으로 전해졌다.


이 화재는 단일 장비의 고장으로 끝나지 않았다.

정부24 일부 기능, 모바일 신분증 일부 기능, 우체국 금융을 포함한 대국민 서비스와, 정부 내부의 다수 업무 시스템이 동시에 멈췄다. 초기에는 장애 시스템 수가 647개로 발표됐지만 이후 관제 시스템(nTOPS)의 일부 정보가 복원되면서 709개로 재집계되었다.

대전 본원 5층 7-1 전산실에서 운용되던 G-드라이브(G-Drive)의 저장 장치들은 전소했고, 그 안에 보관돼 있던 일부 행정 자료와 업무 산출물은 사실상 복구 불능으로 확인됐다.


2. “같은 상면” 구조: 서버와 배터리가 붙어 있었다

이 정도 규모의 행정 서비스 중단은 단순히 “서버가 꺼졌다”는 수준의 문제가 아니다.

대전센터의 전산실은 업무 서비스가 실제로 돌아가는 서버, 스토리지, 네트워크 장비가 위치한 상면과 UPS 리튬이온 배터리 랙이 같은 공간에 공존하는 구조로 운용되고 있었던 것으로 파악된다.

보도에 따르면 UPS 배터리 랙과 서버 장비 사이의 이격은 약 60cm 수준이었다. 다시 말해, 전력 안정성을 위한 고밀도 에너지 저장 장치가, 실제 서비스를 수행하는 IT 장비와 사실상 한 존에서 운용되고 있었다.


이 물리 배치는 국가정보자원관리원 대전센터라는 시설이 어떤 출발점을 가졌는지와 직결된다.

대전센터는 처음부터 국가 전산 업무 전용으로 설계된 최신 데이터센터가 아니라, 과거 KT가 전화국 또는 연구시설로 사용하던 건물을 2005년 무렵 정부가 리모델링해 통합전산센터로 전환한 것으로 알려져 있다.

이 구조적 기원 때문에 전력 공급 계통(UPS, 배터리 등)과 서버존을 완전히 분리하는 별도 방화 구획, 전원실·배터리실과 IT 상면 사이의 독립 설계, 배연 및 차단 구조 등 현대적인 데이터센터에서 전제로 하는 기본 안전 요건이 충분히 반영되지 못했다는 지적은 반복적으로 나와 있었다.

이후에 건립된 광주, 대구 센터는 전산 전용 건물 모델에 가까운 구조를 갖추고 있다는 평가가 있으나, 대전센터는 개조형 시설의 한계를 그대로 안고 있었다.


이 한계는 화재의 결과를 결정했다.

UPS 쪽에서 불이 나면 바로 옆에서 돌아가던 실제 서비스 시스템이 동시에 정지하는 구조였다는 점, 즉 “전원 보호 장치가 무너지는 순간 전체 서비스가 같이 무너질 수 있다”는 단일 실패 지점(SPOF, Single Point of Failure)이 그대로 남아 있었다는 점이 확인된 것이다.

실제로 화재 이후 해당 상면과 그 상면에서 운용되던 다수의 시스템이 동시에 멈춰섰고, 복구 과정은 개별 장비 단위로의 회수·청소·이전·재기동 같은 수작업 위주로 갈 수밖에 없었다.

이 방식은 복구 속도를 구조적으로 제한한다.


3. 리튬이온 배터리와 열 폭주

이 화재는 UPS에 사용된 리튬이온 배터리에서 시작된 것으로 설명된다.

사고 당시 CCTV와 내부 보고 내용에 따르면 특정 배터리 팩 상부에서 불꽃이 발생한 직후, 불길이 인접 모듈로 빠르게 전이되는 모습이 관찰되었다고 전해졌다.

이는 리튬이온 배터리에서 반복적으로 문제로 지적되는 열 폭주(thermal runaway) 시나리오와 일치한다는 분석이 나왔다.


리튬이온 배터리에서 열 폭주가 일어나는 과정은 비교적 명확하다.

셀 내부 단락이나 노후로 인한 내부저항 상승, 외부 충격, 과충전 등으로 셀 내부에서 국소 발열이 시작된다. 이 발열은 전해질 분해를 유발하고, 가연성 가스와 열이 급격히 축적된다. 일정 수준 이상으로 열과 압력이 높아지면 셀 하우징이 파손되고, 불꽃과 고온 가스가 인접 셀로 전달된다. 인접 셀은 같은 과정을 반복하며 랙 전체, 경우에 따라 룸 단위까지 연쇄 확산한다.

이 메커니즘은 외부 산소를 차단하더라도 내부 화학 반응 자체가 열을 계속 발생시키기 때문에, 단시간에 수백 ℃에서 최대 약 1000℃에 근접할 정도까지 온도가 치솟을 수 있다고 지적돼 왔다.


이 때문에 리튬이온 배터리 화재는 일반 전산실에 설치된 가스계 소화설비(이산화탄소, 할론 대체 약제 등)만으로는 충분히 진압하기 어렵다. 가스를 분사해 산소를 빼도 셀 내부의 화학 반응이 자체적으로 열을 계속 방출하기 때문이다. 실제 현장 대응은 발화한 모듈이나 랙을 통째로 분리해 외부로 반출하고, 수조 등에 넣어 장시간 냉각시키는 방식으로 이루어진다. 대전센터 화재 당시에도 전소된 배터리 모듈 일부를 외부로 반출해 침수 냉각하는 조치가 취해졌다는 설명이 있다.


4. 수명 관리 부재: “점검 이상 없음”과 계속 운용

대전센터에서 운용 중이던 UPS 리튬이온 배터리는 2014년에 도입된 장비로 알려졌다. 리튬이온 UPS 배터리는 통상 약 10년 안팎의 성능보증기간을 가진다고 알려져 있지만, 이 장비는 도입 후 약 11년이 지난 상태였다. 그럼에도 2025년 6월 정기 점검에서는 “이상 없음” 판정이 내려진 것으로 전해진다.

이 사실은 “내용연한 도래 시 교체”라는 수명 기반 관리 체계보다 “점검 결과 이상 없음이므로 계속 운용 가능”이라는 판단이 현실에서 우선 적용됐음을 보여준다.

배터리의 건강 상태(State of Health), 내부저항, 온도 이력 등 핵심 지표를 기반으로 한 교체 트리거가 강제되지 않고, 점검 결과를 이유로 수명을 연장하는 관행이 유지된 셈이다.

열 폭주 위험은 노후 셀에서 커지는데, 이 위험은 사전에 수치화·격리되지 않은 채 실제 서비스 존 옆에서 누적되고 있었다.


5. 국내외 선행 경고 사례

이 문제는 이번에 처음 나타난 것이 아니다.

2022년 10월 15일 경기도 성남시 분당구 판교의 SK C&C 데이터센터 지하 UPS·배터리 계통에서 화재가 발생했다. 이 시설은 카카오 등 대규모 인터넷 서비스 인프라를 수용하고 있었고, 화재로 인해 카카오톡을 포함한 다수의 서비스가 사실상 전국 단위로 장애를 겪었다. 신고 이후 약 8시간 만에 진화가 이뤄졌지만, 카카오톡 메시지 송수신 정상화는 진화 후 약 2시간 뒤에야 가능했고 전체 서비스 정상화까지는 약 5일이 걸렸다. 이 사건 이후 정부와 업계는 1) UPS·배터리 룸과 서버존의 분리, 2) 배터리 랙 간 최소 이격 거리 확보, 3) 배터리 관리 시스템(BMS)의 상시 감시, 4) 랙 단위 차단 및 초기 소화·냉각 절차 마련 등을 개선 방향으로 제시했다.

이때부터 리튬이온 UPS 배터리는 전원 안정성을 위한 설비가 아니라 고위험 에너지 저장 장치로 분류되기 시작했다.


2021년 3월 10일에는 프랑스 스트라스부르 소재 OVHcloud 데이터센터 단지에서 화재가 발생해 SBG2 건물이 전소하고 인접 건물(SBG1 일부)까지 피해가 번졌다. 프랑스 산업위험조사기관은 초기 발화 지점으로 UPS 등 전력 인프라 구역을 지목했고, 자동 소화 설비 부재, 가연성 자재 사용, 자연 환기 구조 등 설계 취약점이 화재 확산을 가속했다고 분석했다.

OVHcloud는 화재 직후 고객들에게 즉시 재해복구(DR) 계획 발동을 안내하고, 프랑스 및 유럽 내 다른 데이터센터 리전으로 워크로드를 재배치했다. 약 한 달 후 회사는 공개 클라우드 VM의 약 80%, 베어메탈 호스팅의 약 25%를 복구했다고 밝혔다. 즉, 시설 하나를 잃었지만 다른 리전으로 곧바로 업무를 넘길 수 있는 구조가 준비돼 있었다는 의미다.


대전센터의 경우도 발화 지점은 UPS 리튬이온 배터리 계통이었다. 이후 국가 대민 서비스와 내부 행정 서비스가 동시에 중단됐고 일부는 복구 불능 판정을 받았다.

하지만 대전센터와 달리 OVHcloud나 카카오 사례에서는 화재 직후 “서비스를 어디로 넘길 것인지”가 비교적 명확했고 즉시 가동 가능한 대체 리전이나 인프라가 실제로 동작했다.

대전센터는 공주 DR센터 등 예비 인프라가 존재했지만, 그 시설은 즉각적인 운영 거점(액티브-액티브 또는 액티브-스탠바이 수준)으로 전환되지 못했다.

이 차이는 결국 복구 속도의 차이로 이어졌고, 대전센터의 복구율은 사고 후 수 주가 지나도 약 절반 수준에 머물렀다.


6. 이격 거리: 60cm와 90cm의 차이

UPS 리튬이온 배터리 랙과 실제 서비스 서버 장비 사이 이격은 약 60cm 수준이었다.

이 수치는 설비를 “편하게 배치했다”는 의미가 아니라, 화재 전파 지연 능력과 직결된다.


미국의 NFPA 855(“Standard for the Installation of Stationary Energy Storage Systems”)는 리튬이온 기반 에너지저장장치(ESS)를 건물 내부에 설치할 때, 원칙적으로 장치 간 최소 이격 거리를 약 3피트, 즉 약 0.9m 이상으로 둘 것을 요구한다.

이 최소 이격은 한 장치에서 열 폭주가 발생했을 때 바로 옆 장치로 화재가 연쇄적으로 번지지 않도록 하기 위한 안전 간격으로 본다. NFPA 855은 이 3피트(약 0.9m)를 기본값으로 제시하고 있으며, 그보다 더 좁게 설치하려면 제조사 또는 사업자가 대규모 화재 전파 시험(UL 9540A 등)을 통해 인접 전파가 억제된다는 것을 입증하고 관할 소방·규제기관의 승인을 받아야 한다고 규정한다.

즉, 미국에서는 배터리 장치들끼리조차 기본 간격이 약 0.9m이며, 그 간격을 줄일 경우, 엄격한 시험과 인허가가 필요하다.


이를 대전센터 상황에 대입하면, 배터리 장치 간이 아니라 “배터리와 실제 서비스 서버 사이”의 간격이 약 0.6m였다는 점이 문제로 부각된다.

즉, 미국 기준에서라면 배터리 대 배터리조차 기본적으로 약 0.9m 이상 띄워두는 것을 출발점으로 삼는 반면, 대전센터에서는 배터리와 서비스 장비가 그보다 촘촘하게 배치돼 있었다는 의미다. 이 차이는 단순한 설비 구성상의 선택이 아니라, 화재가 발생했을 때 인접 장비로 바로 전이될 수 있는 위험 경로를 상시로 열어둔 상태였다는 것을 정량적으로 보여준다.


7. 법적 지위와 관리 체계의 한계

물리적 설계의 문제와 별개로, 국가 전산센터에 대한 안전 관리의 강제력 자체도 충분히 확보돼 있었다고 보기 어렵다.


국가정보자원관리원 대전·광주·대구 센터는 국가 행정 서비스의 핵심 인프라임에도 불구하고 소방안전 특별관리 대상이나 사회기반시설급 재난관리 대상과 같은 최상위 관리 목록에 포함돼 있지 않았다는 지적이 있었다.

실제로 대전 본원의 일부 전산실 구역(2~5층 등)은 “보안 구역”이라는 이유로 소방의 정밀 점검 대상에서 제외된 적이 있었다는 사실이 국회와 소방 당국을 통해 확인됐다.

이는 공항 터미널, 발전 설비, 대규모 통신 관로 등의 경우 강제 점검과 개선 명령이 제도화돼 있는 반면, 국가 행정망을 실질적으로 지탱하는 공공 데이터센터는 그만큼의 강제력이 확보되지 않았다는 뜻이다.


공주 DR센터 역시 이와 유사한 간극을 보여준다.

공주 DR센터는 EMP(전자기 펄스), 화생방, 지진 등의 물리적 위협에도 버틸 수 있는 고방호 시설, 이른바 벙커형 인프라로 설명돼 왔다.

그러나 이 시설은 사고 시점까지 주센터와 실시간으로 동작하는 세컨더리 운영 거점(액티브-액티브 또는 액티브-스탠바이)으로 운용되지는 못했고, 실제 화재 이후에도 즉시 서비스가 이관되지는 않았다.

다시 말해, “물리적으로는 버티는 시설”은 있었지만 “논리적으로 바로 업무를 넘길 시설”은 준비돼 있지 않았다. 이 구도는 결국 복구 속도와 복구 범위의 한계를 그대로 드러냈다.


8. 사고 이후 필요한 전환

이 사건은 UPS나 배터리 장비의 개별 결함 문제가 아니라, 공공 전산 인프라의 구조적 부채가 한 번에 노출된 사례라고 보는 것이 정확하다.

첫째로, UPS와 리튬이온 배터리를 서버 장비와 같은 상면에서 운용하는 구조는 중단돼야 한다.

전력 존과 서버 존은 방화 구획 단위로 분리되어야 하고, 전력 존에는 리튬이온 배터리 전용 감지·차단·소화·냉각 절차가 상시 탑재돼야 한다. 미국 NFPA 855는 리튬이온 에너지저장장치 설치 시 원칙적으로 약 0.9m(3피트)의 이격 거리를 요구하고 있고, 이보다 좁히려면 UL 9540A 등 열 폭주 전파 시험 데이터를 근거로 관할기관 승인을 받아야 한다.

대한민국의 공공 데이터센터 역시 이 수준의 안전 기준을 전제로 설계돼야 한다.


둘째로, 리튬이온 배터리의 수명 관리는 “점검 이상 없음” 중심에서 “내용연한 도래 시 교체” 중심으로 바뀌어야 한다.

배터리의 수명과 건강 상태(SoH, State of Health), 내부저항, 온도 이력 등은 주기적으로 수집·기록되어야 하고, 일정 임계 지점에 도달하면 교체가 자동으로 트리거되는 구조가 필요하다.

대전센터의 경우 도입 후 약 11년이 지난 UPS 배터리가 여전히 운용 중이었고, 그 상태에서 화재가 발생했다. 이런 방식은 더 이상 유지돼서는 안 된다.


셋째로, 공공 전산센터는 기존 건물 리모델링 방식에서 벗어나 전용 데이터센터 구조로 전환돼야 한다.

방화 구획, 내화 구조, 전력실 격리, 연기·분진 차단 공조, 냉각 라인의 이중화, 전원 이중화, 존 단위 모듈성 등은 현대 데이터센터의 기본 요건이다.

이번 화재 이후 대전센터 전산실 내부에는 고열과 그을음, 분진이 항온항습기와 장비 내부까지 침투해 장비에 다시 전원을 넣기 전 분해·세척부터 해야 했고, 이 작업이 복구 속도를 결정적으로 지연시켰다.

존 단위로 격리하고 다른 존을 우선 복구할 수 있는 구조가 없으면, 복구는 물리적으로 느려질 수밖에 없다.


넷째로, 국가정보자원관리원 대전·광주·대구 센터와 같은 시설은 법적으로 상향된 지위를 가져야 한다.

현재처럼 소방안전 특별관리 대상이나 사회기반시설급 재난관리 대상에 포함되지 않은 상태에서는 강제 점검과 개선 명령이 체계화되지 못한다. “보안 구역”을 이유로 소방 정밀 점검이 실제로 배제되는 구조는 더 이상 유지되기 어렵다.

이 시설들은 전력, 통신 백본, 공항 관제와 유사한 국가 기반 인프라로 분류돼야 하고, 그 수준의 강제 점검과 개선 명령 체계가 필요하다.


9. 결론

UPS와 리튬이온 배터리는 단순한 보조 전원 장비가 아니다. 이 장비는 설계와 배치 방식에 따라 국가 시스템 전체를 중단시킬 수 있는 단일 실패 지점이 될 수 있다.

기존의 개조형 건물 구조, 서버존과 배터리존의 공존, 수명 만료 직전 배터리의 운용 연장, 약 60cm 수준의 근접 배치, 방화 구획과 전용 냉각·소화 체계의 부재는 모두 하나의 문제로 수렴한다.

국가 핵심 전산망을 아직도 “행정 지원용 전산 설비” 정도로 다루고 있다는 점이다.


민간 대형 데이터센터에서는 이미 UPS와 리튬이온 배터리를 고위험 에너지저장장치(ESS)로 간주하고 NFPA 855 수준의 최소 이격 거리(약 0.9m), UL 9540A 기반 화재 전파 시험, 전용 배터리 룸, 랙 단위 차단·냉각 절차를 상시 설계 요건으로 끌어올리는 흐름이 자리 잡았다.

반면 공공 핵심 전산 인프라는 같은 수준의 강제력, 예산, 운용 속도를 확보하지 못한 상태였다.

이번 화재는 그 격차가 단순한 기술 차이가 아니라 곧바로 행정 서비스의 정지와 국민 서비스의 중단으로 이어질 수 있다는 사실을 드러냈다.

이 사건은 장비 한 대의 고장이 아니라, 누적된 기술적 부채가 한 번에 폭발한 사례다.


이제 UPS, 리튬이온 배터리, 전력 구획 설계, 배터리 수명주기 관리, 이격 거리, 방화 구획, 전용 데이터센터 건물, 법적 관리 지위까지를 “국가 기능 지속성(continuity of government)”의 범주로 다루어야 한다.

이 수준으로 재정의하지 않으면 같은 유형의 사고는 또 반복된다.

이전 01화국가정보자원관리원 UPS 화재 포스트모템 - 총론