brunch

You can make anything
by writing

C.S.Lewis

by 이현호 Jul 22. 2024

크라우드스트라이크 사태가 시사하는 것

전 세계 컴퓨터는 어쩌다가 동시에 마비되었나?

2024년 7월 19일에 Y2K 버그를 연상시키는 사상 초유의 이슈가 터졌습니다.


전 세계의 수많은 서비스가 동시에 마비되어 버린 것입니다.


항공사, 병원, 은행 등 지역과 업종을 가리지 않고, 수많은 IT 서비스들이 블루스크린이 뜨면서 마비가 되었고, 이로 인해 엄청나게 많은 사람들이 불편을 겪었습니다.


비행기가 뜨지 못하고 은행 업무가 마비되고 많은 회사들이 업무를 중단할 수밖에 없었습니다.




영화에서나 나올 법한 이런 사태에 사람들이 가장 공포를 느낀 건, 어떻게 전 세계의 수많은 서비스가 동시다발적으로 마비될 수 있었나 하는 점입니다.


이에 대해 클라우드에 대한 이해가 부족한 사람들은, 클라우드(Cloud) 때문에 이런 동시다발적 이슈가 터진 게 아닌가 의심합니다.


이슈가 터진 많은 서비스들이 클라우드 서비스, 특히 MS의 클라우드 서비스인 '애저(Azure)'에서 돌아가고 있었기 때문입니다.


하지만, 이번 이슈는 클라우드와 상관없이 OS 단계에서 일어난 것입니다.  크라우드스트라이크(CrowdStrike) 회사의 보안프로그램이 일괄 업데이트되면서 윈도(Windows) OS와 충돌했고, 이로 인해 윈도 OS에 크라우드스트라이크 보안 솔루션을 쓴 서버에서 이슈가 발생한 것이죠.


애저 클라우드를 쓰는 서비스뿐 아니라 아마존 클라우드(AWS), 구글 클라우드(GCP) 그리고 자체 서버를 쓰는 경우에도 모두 발생했습니다.


사실 워낙 전 세계의 많은 서비스들이 클라우드 상에서 돌아가다 보니, 클라우드 서비스가 일괄 업데이트를 하는 경우는 절대 없습니다.


철저히 테스트를 돌리고, 업데이트도 아주 느리게 순차적으로 해서, 이슈가 발생해도 최소한의 서비스만 영향을 받도록, 체계적인 업데이트 시스템으로 돌아갑니다.


윈도 OS 자체 업데이트도 여러 단계로 돌아가기에 전 세계 윈도 OS가 동시에 업데이트 오류를 일으키는 경우도 없습니다.


사실, 크라우드스트라이크의 보안 솔루션도 정규 업데이트는 이런 식으로 순차적 업데이트를 한다고 합니다.


문제는 이번에 이슈를 일으킨 크라우드스트라이크 업데이트는 정규 업데이트가 아닌, 비정규 정의 업데이트라고 하는데, 이런 경우 이슈를 일으킬 가능성이 적어서, 크라우드스트라이크에서 일괄 업데이트를 해왔던 거 같습니다.


그런데 그런 정의 업데이트가 OS와 충돌해 버려 엄청난 사달이 난 것이죠.  예전에 한국에서도 알약사태라는 비슷한 경우가 있었다고 합니다.




여기서 놀라운 건, 어떻게 MS 제품도 아닌 타사의 일개 보안 솔루션이 수많은 윈도 OS를 동시에 먹통이 되게 하였나 하는 점입니다.  이에 대해 윈도 자체가 구조적으로 문제가 있는 게 아니냐는 얘기도 많습니다.


사실, OS의 커널에 영향을 줘서 윈도를 먹통 시킬 수 있는 프로그램은 그리 많지 않습니다.  드라이버 등 하드웨어와 관련된 프로그램과 바이러스 같은 프로그램을 막기 위한 보안프로그램들이 여기에 들어갑니다.


드라이버는 특정 하드웨어에만 돌아가는 프로그램이라, 이슈가 생겨도 특정 하드웨어를 쓰는 경우에만 문제가 생기고, 일반적으로 하드웨어 회사들의 철저한 테스트를 거친 후에 업데이트가 되어서, 큰 이슈가 발생하는 경우는 드뭅니다.


그럼에도 윈도 OS는 수많은 다양한 회사의 하드웨어를 제공하기에, 하드웨어와 드라이버까지 모두 자사가 만드는 애플의 OS에 비해 더 드라이버 이슈가 많은 건 사실입니다.


그런데 보안 프로그램의 경우, 인기가 많으면 수많은 컴퓨터에 다 깔리게 되고, 또 보안 프로그램은 업데이트도 자주 합니다.  그 이유는 바이러스나 랜섬웨어 등 해킹 프로그램이 매일 계속 나오기 때문에, 보안 프로그램들이 새로운 위협을 막기 위해 계속 업데이트를 해줘야 하기 때문입니다.


그렇다 보니 보안 프로그램 자체에 치명적인 버그가 생기면, 수많은 컴퓨터에 동시에 문제를 일으킬 수 있습니다.  


마치 경찰이나 검찰처럼 국민의 보안을 책임지는 단체가 자기들만의 권력을 남용하여 크게 부패하게 된다면, 오히려 국민들에게 범죄단체보다도 더 큰 위협이 되는 상황과 비슷합니다.




그래서 보안프로그램의 신뢰는 너무나도 중요하고, 크라우드스트라이크 회사는 시총이 100조 원에 달하는 엄청 큰 보안회사로 이미 신뢰가 두터운 회사였습니다.


하지만, 이런 회사조차 이런 사태를 미연에 방지하지 못했다는 것은 우리에게 시사하는 바가 큽니다.


제 생각엔 보안프로그램은 사소한 업데이트라도 자체 업데이트 엔진이 아닌 윈도 업데이트를 통해서만 업데이트하도록 해야 할거 같지만, 이마저도 쉬운 문제는 아닌 거 같습니다.


사실 업데이트를 수동으로 설정해서, 유저가 직접 업데이트하게 하면 이번과 같은 이슈는 방지할 수 있어서 편하지만, 보안 솔루션은 새로운 위협을 빨리 막는 게 우선이기에, 수동 업데이트는 위협의 노출을 증가시키게 됩니다.


결국 새로운 위협을 빨리 막으면서도, 확실한 테스트를 하고 배포해야 하는 전통적인 트레이드오프(Trade-off) 문제는 보안 솔루션의 핵심 문제 중 하나인데, 인공지능이 대세인 지금까지도 뾰족한 해결책이 없었다는 건, 정말 아이러니합니다.


이번 사태로 제가 느끼는 건, 세상이 아무리 빨리 돌아가고 발전해도, 결국 가장 중요한 건 기본에 충실해야 하고, 기본적인 문제라도 간과하지 말아야 한다는 점입니다.


또한, 이번 사태가 클라우드로 인한 것은 아니지만, 클라우드의 장점을 살려서 이번과 같은 사태를 방지할 수 있는 방어막 역할을 강화하는 기회로 삼아야 한다고 생각합니다.

작가의 이전글 나파밸리 와이너리 여행
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari