서버 데드락: 네트워크 장애

[보안 트러블슈팅 - 4]

by 공음

(문제)

출근을 시작하면서 부터 수많은 전화가 몰려왔다. 특정 망의 네트워크 접속이 불가하다는 내용이었다.

해당 망은 무선 AP를 사용한 WLAN 환경이다. 테스트에서 네트워크를 끊고 다시 접속하려고 하니, 사용자 SSID 인증과정도 없이 실패했다.

동글이의 문제이거나 개별 PC들의 문제라고 하기엔 특정 건물의 모든 PC의 네트워크 장애가 발생했다는 것이다. 그래서 다른 건물의 사용자에게 전화를 걸어 물어보니, 네트워크 이상이 없다는 답변을 받았다. 따라서 특정 건물에서만 네트워크 장애가 있음을 확신지었다.


(분석)

특정 망 서버가 다운됐을 수도 있다고 생각해 서버실에 출입해 살펴보았다. 인증서버와 컨트롤러 모두 잘 살아있는 것을 확인했다.

그리고 상태는 어떤지 확인하기 위해 콘솔PC로 원격 접속하여 네트워크 명령어들을 입력해보았다. *특정 명령어를 통해 AP 사용자들의 SSID 리스트를 얻을 수 있어야하는데, 한 서버에서 오류를 보였다. 다른 서버에서는 해당 명령어가 잘 작동하는 것을 보아, 해당 서버에서 장애가 있음을 알아냈다.


(해결)

유지보수 업체의 도움을 받아 Main 서버에서 DeadLock이 발생했다는 걸 알게되었다. 사용자 인증과정에서, Controller to Auth서버로 데이터를 전송하는 서비스 데몬의 장애임을 확인했다. Sub 서버로 서비스를 작업하여 DeadLock을 풀어냈고, Main 서버의 안정성을 위해 재부팅을 해주었다.


(이해)

'인증서버 - 컨트롤러 - AP 단말기 - 네트워크 단말기' 구조로 되어있다. 지난 트러블 슈팅을 비롯하여 이를 살펴보면, 위 구조에서 컨트롤러로부터 각 네트워크 단말기기 정보가 인증서버와 NAC 정책서버로 전달된다는 것을 알 수 있었다.


*보안 상의 이유로 특정 명령어를 생략하였고, 허구의 내용을 섞어 작성했음을 밝힙니다.


작가의 이전글무선 AP통신과 NAC 정책서버