brunch

You can make anything
by writing

C.S.Lewis

by 카카오스타일 Jul 18. 2023

카카오스타일 서비스의 안정성을 지키는 사람들

[이달의 카터뷰] SRE팀 편

이달의 카터뷰는 각자의 자리에서 치열하게 성장하고 있는 카카오스타일 크루들의 일과 삶에 대한 이야기를 소개하는 인터뷰 시리즈입니다. 이번 카터뷰의 주인공은 카카오스타일 서비스의 안정성을 책임지며 신뢰성을 지켜나가는 SRE팀이 함께했습니다. 데이터베이스(DB)부터 서버 안정성, 사이트 신뢰성까지 더 안정적으로 서비스가 운영될 수 있도록 보이지 않는 곳에서 끊임없이 도전하고 있는 SRE팀을 소개합니다!

안녕하세요 레오, 헤니 네사! 
카카오스타일에서 무슨 일을 하고 계신지 소개해주세요!


레오 : 안녕하세요! SRE팀 리더 레오입니다. SRE가 생소한 분들이 많을 텐데요. SRE는 ‘사이트 신뢰성 엔지니어’라는 뜻으로, 쉽게 말해 카카오스타일 서비스에 장애가 나지 않도록 여러 도구를 개발하고 관리하는 역할을 하고 있어요. 이를 위해 저희 팀은 서버 인프라 자원, 배포 솔루션 등을 관리하는 데브옵스(**DevOps, 개발(Development)과 운영(Operations)의 합성어로 개발팀과 운영팀이 협업하여 전체 사이클을 관리하는 방식으로 개발이 완료된 시스템은 운영팀에서 배포 및 운영하는 것)뿐만 아니라 화이트 해커, DB 엔지니어로 구성되어 신뢰성 있는 환경 제공을 위한 모든 것들을 하고 있다고 봐주시면 돼요.

저는 요즘 핀옵스(**FinOps: Financial과 DevOps가 합쳐진 말로 클라우드 환경에서 재무와 개발, 운영을 긴밀히 결합하여 클라우드 비용을 최적화하고 관리, 통제할 수 있도록 하는 것) 관련 업무를 중점적으로 담당하고 있는데요. 우리의 인프라 자원 비용을 어떻게 효율화할 수 있을지 고민하면서 기술적으로 많은 구조 개선을 해오고 있습니다.


헤니 : 안녕하세요! 저는 SRE팀의 헤니입니다! 저는 자동화를 위한 여러 툴을 개발하고, 쿠버네티스(Kubernetes)라는 인프라를 관리하는 시스템도 함께 담당하고 있어요.


네사 : 안녕하세요! SRE팀 네사입니다! 사실 SRE 자체가 특정 영역이 정해져 있는 것이 아니다 보니, 헤니와 같은 SRE로서 인프라를 포함한 전반적인 사이트 신뢰성을 위한 다양한 업무를 하고 있어요. 그 중 저는 간단한 툴 개발부터 쿠버네티스 운영, AWS 인프라 관련 자원 관리 등을 담당하고 있습니다.


각자 카카오스타일 SRE팀에 합류한 에피소드가 있을까요?

헤니 : 저와 레오는 사실 DB팀이었지만, 조직 개편에 따라 업무 분장에도 변화가 생기면서 SRE 업무까지 담당하게 되었는데요. 인프라와 DB는 연관성이 있고 저희 모두 다양한 경력을 갖고 있다 보니 SRE 업무를 바로 시작하는 데에 어려움이 적었고, 오히려 좋은 기회였다고 생각해요.


레오 : 헤니 말을 들으니 그때가 생각이 나네요! SRE 업무를 하려면 AWS에 대해 잘 알아야 하는데요. 헤니는 AWS 회사에서의 경험이 있고, 저도 예전부터 사용하면서 얻은 이해도가 있어서 "같이 한번 해 보자!"고 할 수 있었어요. 다행히 그 시점에 저희가 DB팀에서 작업하고 있던 디비옵스(DbOps)툴이 반영된 시점이라 많은 것들이 자동화가 된 상태였어요. 그래서 SRE 업무와 팀을 꾸려 나가는 데 집중할 수 있었죠.


네사 : 저는 AWS에서 운영 보단 컨설팅에 집중한 업무들을 했었는데요. 직접 운영하면서 제대로 알고 싶은 목마름이 항상 있었기 때문에 카카오스타일 SRE팀에서 일할 수 있는 것이 저에겐 굉장히 간절했고, 입사가 결정되었을 때 매우(!!) 기뻤답니다. 입사 후 역시나 너무 만족하면서 다니고 있어요!


그럼 합류하신 후 느낀 SRE팀만의 장점은 무엇이라고 생각하시나요?

헤니 : 저희 팀에는 다양한 경력을 가진 크루들이 모여 있어요. 예를 들어 저는 개발, DB, 솔루션즈 아키텍트(**고객사들에 클라우드 전략을 소개하고 클라우드 전환 업무를 지원하는 역할)에 경험이 있고, 네사는 인프라, 보안 관련 경력이 있고, 레오는 DB관련 스페셜리스트이고요. 이렇게 각자가 지닌 경험의 교집합보단 합집합이 커서 시너지를 낼 수 있는 동료들이 있기 때문에 일을 할 때 많은 도움이 돼요. 새로운 지식을 얻는 것도, 기술적인 문제를 해결해 나가는 과정에서도 배울 점이 참 많다는 것이 가장 큰 장점입니다!


레오 : 사실 저희 팀 장점은 100개가 넘는데요! (웃음) 그중 꼭 하나만 꼽아야 한다면 SRE나 데브옵스(DevOps)가 갖는 다양한 영역 중 실질적으로 필요하다고 생각하는 분야에 대해 깊게 파고들면서 적용해볼 수 있다는 점이에요. 그리고 근거와 방향성이 합리적이라면 프로덕션(제품)까지 확장할 수 있어요. 이렇게 할 수 있는건 회사의 조직 문화와도 연관이 있다고 생각하는데요. 딱딱한 조직 환경이 아니고 서로 의견을 내는 것이 어렵지 않고 편한 환경이기 때문에 이런 적용과 확장이 가능한 것 같아요. 그리고 사이먼(CTO)도 많은 서포트를 해주기 때문에 누구나 가질 수 있는 기회라 생각해요.


네사 : SRE는 진짜 제대로 하려면 아무나 할 수 있는 일이 아니라고 생각해요. 저 역시 매일 매일 챌린지를 겪으며 조금씩 성장하고 있어요. 쉽지 않은 일이지만 계속해서 성장을 느낄 수 있는 게 카카오스타일 SRE만의 강점이자 매력이고, 제가 하는 일에 대한 자부심이기도 해요. 언제 어디서 사이트 신뢰성 문제가 발생할지 모르기 때문에 다양한 도메인에 대한 이해와 함께 작은 것도 빠짐없이 챙길 수 있는 사람들이 모여 있는 곳이 저희 팀이라고 생각합니다!

아! 특히 카카오스타일은 올인원(all-in-one) 클라우드를 사용하고 있기 때문에 클라우드 사용에 있어 유연하고 새로운 도전에 있어 절대 닫혀 있지 않은 구조예요. 또 계속 변하고 발전하는 기술 트렌드를 좇는 움직임이 굉장히 빨라요. 이 정도 규모의 회사에서 그런 속도를 내기 쉽지 않다고 생각하는데 카카오스타일에서는 가능하더라고요.


레오 : 네사 말대로 하나의 클라우드에 집중하는 것이 얼마나 중요한지 조금 더 설명해드리면, 클라우드 종류를 만약 4~5개 사용하면 고려해야 할 가짓수는 n배로 늘어나요. 그러면 결국 선택과 집중을 못하게 되고, 속도는 당연히 떨어지고 관리 포인트는 증가하게 되는 것이죠. 그런 점에서 저희는 AWS를 정말 잘 쓰고 있다고 자부해요. AWS 엔지니어분들도 카카오스타일은 "완전히(fully)" 잘 쓰고 있단 이야기를 많이 하시고요.


SRE팀에서 일하면서 가장 기억에 남는 일은 무엇인가요?

네사 : 서비스를 운영하는 엔지니어의 입장에서는 아이러니하게도 장애를 해결한 순간이 기억에 가장 많이 남아요. 괴롭지만 그럼에도 장애가 발생했을 때 효과적으로 빠르게 대처하는 과정 자체가 노하우와 레슨 런을 얻고 성장할 수 있는 경험이라 그런 것 같아요. 

그리고 저희 팀은 지식 교류가 정말 많이 이뤄지는데요. 레오와 헤니를 포함한 저희 팀원들 모두가 제가 지금까지 걸어온 커리어 패스와 다르기 때문에 서로 부족한 부분을 알려주고 해결해 나가면서 같이 성장하고 있다고 생각해요!


레오 : 저에게 지난 카카오스타일에서의 2년은 밀도 있게 경험하고 성장할 수 있었던 시간이었어요. 특히 DB(데이터베이스) 업무를 자동화할 수 있는 디비옵스(DbOps)툴을 만들었을 때 직접 써본 개발자 크루들에게 좋은 피드백을 굉장히 많이 받아서 기억에 많이 남아요.

현재 저희가 사용하고 있는 쿠버네티스라는 도구 또한 끊임없는 개선과 튜닝을 통해 점차 사용성을 높여 나갔는데요. 이를 통해 얻은 스킬과 스케일업(scale-up)을 통한 성장이 있었기 때문에 기억에 많이 남아요. 여담으로 헤니와 네사처럼 같이 일하는 동료 크루가 열심히 하는 모습을 보면 스스로 동기부여가 되기도 합니다. (웃음)


헤니 : 저는 비용 측면에서 도전을 겪었을 때 성취감을 많이 느껴서 기억에 남아요. 가장 기본적으로 존재 가치를 보여줄 기회이기도 하고, 직접 개선해야 할 부분을 찾고 고민한 후 실행하면서 재미와 뿌듯함을 동시에 느꼈어요. 실제로 비용을 많이 줄이기도 했고요!


일을 하면서 도전 과제가 주어졌을 때 우선순위를 어떻게 결정하는지 궁금해요!

헤니 : 저는 일의 중요성을 기준으로 업무의 가성비를 고려하고, 회사에 얼마나 임팩트를 줄 수 있을지 고민해서 정해요. 하지만 SRE팀의 업무 특성상 예외적으로 발생하는 일들도 꽤 많기 때문에 그런 것들도 함께 놓치지 않고 처리하려고 해요.


레오 : 저는 선택과 집중이 매우 중요하다고 생각해요. 하나에 집중하면 다른 것을 포기하더라도 집중한 것은 꼭 성공시키려고 노력하는 편이에요. 성공하지 못한 것에 대한 아쉬움이 팀과 조직에도 영향을 준다고 생각하기 때문에 프로젝트를 시작하면 집중할 수 있는 환경을 최대한 만들고 있어요. 특히 저희 업무는 운영 업무가 워낙 많아서 프로젝트에 방해가 되지 않도록 리더로서 고민을 많이 했던 것 같아요.

그리고 저희 팀이 다양하게 활용할 수 있는 기술 도구들이 많아서 하고 싶은 일들도 자연스레 많은데요. 사실 모든 것을 하는 것이 불가능하기도 하고, 기술 트렌드 속도에 마냥 맞춰가는 것이 아니라 우리의 비즈니스 목표와 얼마나 부합하는지 등 신중하면서도 유연한 의사 결정을 통해서 최대한 합리적으로 결정을 내리고 있어요.


네사 : 장애를 다루는 것이 저희 본연의 역할이기 때문에 서비스 장애 위험도가 높은 것을 업무 중 우선순위로 삼고 있어요. 그리고 비즈니스 목적에 맞춰 비용 관련된 업무들에도 우선순위를 두는 편이에요.


세 분의 케미만 봐도 팀 분위기가 정말 좋을 것 같은데,
어떻게 이런 팀 분위기를 만들 수 있었나요?

네사 : 맞아요! 저희 셋뿐만 아니라 팀 전체가 일하는 성향이 다 다른데도 팀 케미가 정말 좋아요. 서로가 부족한 것을 잘 채워줄 수 있는 사람들로 구성되어 있달까요. 예를 들어 적극적으로 추진하는 팀원이 있다면, 조금은 뒤에서 다른 팀원이 미처 놓친 부분들을 챙기며 안정적으로 만드는 일을 하는 팀원도 있는 거죠. 이런 성향이 어느 한쪽으로 몰리지 않았고 고루 분포되어 협업도 잘 이루어지는 것 같아요.



헤니 : 네사 말에 100% 공감합니다. (웃음) 저의 부족한 부분은 팀원들이 채워주고, 제가 잘하는 부분은 반대로 다른 팀원에게 도움을 주려고 해요. 사실 제가 일할 때 하나가 결정되면 공격적으로 달려가는 타입인데 옆에서 레오가 ‘이런 것도 생각해볼 수 있지 않을까?’라고 하면서 제가 놓치는 부분들을 서포트해줘서 좋아요!


레오 : 조금 다른 이야기이기는 하지만, 저는 일과 생활이 완벽히 분리되기는 사실 어렵다고 생각해요. 일상생활에서 스트레스를 받거나 무슨 일이 있으면 일에도 영향을 미치고, 반대로 회사에서 스트레스를 받으면 가정에도 영향이 있더라고요. 그래서 저는 팀원들의 이야기를 많이 들으려 하고, 일 뿐만 아니라 각자의 일상은 어떠한지 파악해서 협업이나 팀 업무에도 지장을 주지 않도록 하고 있어요.

그리고 저희 팀에는 주니어분들도 꽤 계시는데 어떻게 하면 각자의 연차에 맞게 효율적으로 일할 수 있을지 커뮤니케이션 도구 등 직접 도움을 줄 수 있는 부분에 대해서도 고민을 많이 해요.


SRE 엔지니어로 성장하려면 어떤 역량을 키워야 할까요?


헤니 : 이건 정말 정답이 없는 것 같아요. 저희 팀에 모여있는 팀원들만 봐도 알 수 있듯이 각자의 주된 분야가 다르지만, 다른 분야들에도 지식과 관심이 기본적으로 있거든요. 클라우드 서비스에 대한 이해를 바탕으로 여러 가지 분야 중 자기가 관심 있는 것들을 발전시키는 분들이 많아서 SRE 엔지니어가 되려면 필수적으로 공부해야 하는 특정 분야가 없다고 생각해요. 저도 여전히 성장하기 위해 다른 엔지니어분들이 쓰거나 공유하는 글들을 읽으면서 트렌드를 파악하고 깊게 파보기도 하면서 각 분야를 꼬리 물듯 공부하며 알아가고 있어요.


레오 : 맞아요. 본인이 가장 잘하는 부분이 있으면서도 경계를 만들지 않고 SRE 영역의 다른 분야도 어느 정도 알고 있어야 해요. SRE의 영역이 굉장히 넓고 다양하기 때문에 모든 것을 잘하는 것보단 전체 흐름을 알면서 본인이 특화된 것을 뾰족하게 이끌고 확장해 가는 역량이 필요해요. 장애를 내지 않고 복원을 빠르게 하는 것이 중요한 직무이다 보니 책임감도 중요합니다!


네사 : 3명이 모두 똑같은 답변을 할 수밖에 없는 질문 같은데요. 한 마디로 자기만의 스페셜리스트를 가지고 있는 “제너럴리스트”면 좋을 것 같아요. 거기에 클라우드에 대한 관심과 경험, 책임감, 그리고 모르는 것에 대한 호기심과 수용성도 중요한 부분이라고 생각해요. 저도 계속해서 모든 것에 관심을 두고 저보다 더 잘 아는 사람과 이야기를 나누면서 많은 것들을 흡수하려고 해요.

헤니 : 사실 가장 쉬운 방법은 각 기업의 SRE 엔지니어 채용 공고를 읽어보는 것을 권장드려요. 어떤 일을 하는지, 어떤 역량이 필요한지 정말 자세히 적혀있기 때문에 많은 도움이 되실 거에요!


올해 SRE 팀에서 좀 더 집중해서 하고자 하는 부분은 무엇인가요?
(왼쪽부터) 레오, 헤니, 네사

레오 : 작년에는 재무 관점에서 인프라 자원에 대한 비용을 줄이고 효율적인 운영을 위한 노력을 많이 했어요. 이런 고민의 과정을 외부에 발표하기도 하면서 *비용 효율화가 일회성에 그치지 않도록 CMDB(*Configuration Management Database, 구성 관리 데이터베이스로 기업의 IT 환경을 구성하는 모든 하드웨어와 소프트웨어 자산에 대한 정보를 저장하는 ‘데이터 저장소’)를 제대로 구축하려고 생각하고 있어요.

CMDB는 현재 카카오스타일이 쓰는 인프라를 한눈에 볼 수 있도록 해주는 도구인데요. 이 도구가 있으면 인프라 전반에서 낭비되고 있거나 규정에 맞지 않는 것들을 컨트롤할 수 있고, 블랙위크와 같은 큰 프로모션이 있을 때 스케일링 컨트롤도 가능해요. 결론적으로 최적화된 배포를 통해 비용 효율화로 연결되게 만드는 것이기 때문에 이 도구가 완성되면 작년부터 해왔던 저희의 노력이 완성되는 그림을 기대하고 있어요.


네사 : 저는 노옵스(NoOps, 클라우드 컴퓨팅처럼 IT 환경이 자동화되고 기반 플랫폼에서 완전히 추상화되어 관리할 인력이 필요 없는 개념)를 지향하는 것이 올해 저희 팀의 목표라고 생각하고 업무를 하고 있어요.


헤니 : 저도 노옵스가 저희 모두가 궁극적으로 지향해야 하는 목표라고 생각해요. 사실 노옵스를 지향한다고 오퍼레이션 업무가 없어지지는 않지만, 계속 줄여나가기 위한 노력을 하는 거죠.


레오 : 그리고 저는 리더로서 올해는 팀원들이 여러 분야를 더욱 많이 경험해볼 수 있도록 지원할 생각이에요. 작년에는 각자 맡은 분야 안에서 책임감 있게 잘 해냈다면, 올해는 정해진 분야 외에도 다양한 프로젝트를 경험함으로써 함께 성장하고 더욱 케미를 발휘하는 팀으로 성장시키고 싶어요.


그럼 이제 삶과 관련된 질문을 몇 가지 드려볼게요.
세 분의 삶에서 가장 중요하게 생각하는 가치는 무엇인가요?


네사 : 전 제가 좋은 동료 그리고 같이 일할 때 믿을 수 있는 동료로 기억되는 것이 굉장히 중요해요. ‘네사는 참 착해’라는 말보단 ‘네사는 믿고 일하지!’라는 말을 들었을 때 제게 더 큰 의미가 있는 것 같아요.


레오 : 저는 원래 주변을 잘 살피는 타입이에요. 그래서 제 주변에 좋은 사람만 있었으면 하는 바람이 있어요. 그렇지 않으면 저 스스로 관계에서 오는 스트레스를 심하게 받는 편이라 좋은 사람들과 함께 있고, 부정적인 영향을 주는 사람은 멀리하는 것이 저한테는 중요한 부분인 것 같아요. 그리고 저 또한 제 주변 사람들에게 좋은 사람으로 남아서 먼 미래에 제가 은퇴를 했을 때도 종종 사석에서 만나고 싶은 사람이 되고 싶어요.


헤니 : 전 누군가와 신뢰를 주고받는 것 자체가 제 삶의 중요한 가치예요. 그래서 이런 신뢰를 깨고 싶지 않은 마음이 늘 크게 자리 잡고 있어요. 예를 들어 제가 아내와 서로의 부모님을 신뢰하고 또 그분들의 신뢰를 받는 기분이 참 행복하고 좋거든요. 업무적인 부분에서도 동료들에게 신뢰받기 위해 노력을 많이 하는 것 같아요. 때로는 상대방에게 냉철한 조언도 해주면서 신뢰를 형성하기도 하는 미움받을 용기도 가득한 사람입니다! (웃음)

카카오스타일이 내 삶에 어떤 영향을 주었나요?


헤니 : 저에게는 아주 큰 영향을 주었다고 단언할 수 있는데요! 제 아내가 최근에 카카오스타일에 입사했거든요. 매일 아내랑 출퇴근을 같이하고, 또 이야기하면서 공감대가 형성되다 보니 색다른 즐거움을 느낄 수 있어서 참 좋더라고요.


네사 : 카카오스타일에 합류하면서 당시 제 커리어에 대한 목마름을 해소할 수 있었기 때문에 저에게는 좋은 기회를 준 곳이라 생각해요. 그리고 오래전부터 지그재그 헤비 유저(!!)였거든요. 지금 입고 있는 옷들도 전부 지그재그에서 구매한 것들이에요! (웃음) 제가 직접 사용하는 서비스를 운영하고 싶다고 생각했었는데, 실제로 해보니 더 애정을 갖고 일하게 되는 것 같아요.


레오 : 카카오스타일은 저의 성장기가 담긴 곳이에요. 업무적으로나 인간적으로도 스스로 많이 성장할 수 있었고, 예전이나 지금이나 카카오스타일에는 저희 팀뿐만 아니라 협업하는 크루들 모두 좋은 분들이 많아요. 그렇다 보니 인간관계에 크게 신경 쓸 일도 없었고, 제가 하고 싶은 일, 해야 하는 일에만 집중하면서 더 성장할 수 있었다고 생각해요.


이제 마지막으로 카터뷰의 시그니처 질문입니다.
레오, 헤니, 네사의 나다움은 무엇인가요?

헤니: 저의 나다움은 ‘탐험가’에 비유할 수 있어요. 새로운 것을 탐험하는 기분은 늘 저를 설레게 하기 때문에 해외여행을 계획할 때도 정보가 많지 않은 곳을 선호하고, 국내 여행도 텐트를 들고 자전거를 타고 다니는 등, 탐험하는 기분을 내는 것을 좋아합니다.

저는 DBA, 백엔드 엔지니어, SRE 등 다양한 직무를 경험하면서 업무적으로도 여러 일을 탐험하고 있다고 생각해요. 누군가는 이런 저를 보며 피곤하지 않냐고 걱정하기도 하겠지만, 탐험가처럼 다양한 일에 도전하고 그 일을 즐기는 성향이 제게는 열심히 살아가게 되는 큰 동기부여가 된답니다.


네사 : 저는 ‘온앤오프’ 스타일의 사람이에요. 일할 때와 일상 생활에서의 저는 180도 다른 모습인데요. MBTI로 비유하자면 전 일할 때 J의 성향을 띄는 사람이지만, 일상 생활에서는 계획을 세우지 않는 사람이거든요.

저의 모든 계획성을 긁어 모아 업무 시간에 전부 사용하고 있기 때문에 남은 제 삶은 즉흥적으로 흘러가는 것 같기도 해요. (웃음) 덕분에 삶이 적절한 밸런스를 맞춰가며 유지되고 있는 것 같아요.





레오 : 저는 ‘일을 되게 만드는 사람’이라고 생각해요. 그래서 저는 어떤 미션이 주어지게 되면, 주어진 상황에서 최대의 성과를 내기 위해 우선순위를 결정하고 성공적인 결과물을 위해 최선의 노력을 다합니다.

주어진 일을 성공적으로 해내고, 좋은 결과물이 만들어졌을 때 저뿐만 아니라 팀 모두가 보람을 느낄 수 있다고 생각하기 때문이에요.



웃음이 끊이지 않았던 즐겁고 유쾌한 이달의 카터뷰였습니다. 카카오스타일 서비스에 대한 책임감과 애정을 가지고 여러 방면에서 신뢰성과 안정성을 지켜주는 SRE팀의 이야기를 들으니 정말 든든한 시간이었어요. 카카오스타일 SRE팀에서 함께 할 다양한 직군을 채용 중이니 아래 링크를 참고해주세요! 


DB 엔지니어 채용 공고

https://career.kakaostyle.com/o/78225


(DevOps) 인프라 엔지니어 채용 공고

https://career.kakaostyle.com/o/84029


(DevOps) SRE 개발 채용 공고

https://career.kakaostyle.com/o/84028

매거진의 이전글 유저의, 유저에 의한, 유저를 위한

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari