17년차 빅데이터 엔지니어, 미래
데이터가 너무 크니까 빠르게 처리하기 어렵기 때문에 빠른 시간에 효율적으로 처리하는 기술이 빅데이터라고 이름이 붙은 거예요. 매일 데이터를 봐야 되는데 빠르게 처리를 해서 볼 수 있게 제공을 해줘야 되잖아요. 그런 거에 대한 기술 분야거든요.
여행의 이유가 뭘까 항상 궁금했고 저는 느낀게 여행 다니면서 사람들의 모습을 많이 볼 수 있잖아요. 꼭 어디를 갔다가 중요한 게 아니라 지금 나랑 다른 곳에 갔다, 내가 지금 가진 고정관념을 조금 버릴 수 있다. 그런 게 여행의 이유 같더라고요.
데이터 분석가라는 정의가 모호한게 세가지를 다 갖춰야 해요. 엔지니어적인 성향, 데이터 분석하는 성향, 도메인에 대한 이해까지 완벽하게 갖춘 사람은 없다라고 봐요. 그중에 어느 쪽이 더 발달했냐로 되는 거죠.
아이티백 미래님 모셨습니다.
안녕하세요. 빅데이터 엔지니어랑 데이터 분석가의 중간쯤에서 17년 차 일하고 있는 미래입니다.
어쩌다가 IT 업계에서 일을 시작하게 되셨어요?
저는 처음에 석사를 다녔는데 그때 네트웍을 전공을 했었어요. 근데 시작할 때는 되게 재미있어 보이는 거예요. 네트웍이라는 분야를 몰랐기 때문에 근데 막상 해보니까 정말 재미가 없더라고요. 네트워크 분야는 프로토콜이 정해져 있고 그러니까 규칙이 있고 그 규칙을 지켜야 되는 그런 업무니까 그 전공이 너무 재미가 없어서 그냥 회사를 가야겠다 공부는 그만해야겠다 싶어서 취업을 할 때는 재미있으려면 그 당시 생각은 이렇게 코딩만 하면 재미가 없고 뭔가 눈에 보이는 물건이 있어야겠다 그런 생각을 했었어요. 그래서 물건을 만드는 그런 기업으로 가자. 그래서 그때 처음 회사는 S 전자의 휴대폰을 만드는 쪽으로 갔었어요. 그건 물건이 딱 나오니까
거기서 물건을 만든 건 아니죠?
휴대폰에 들어간 소프트웨어 그러니까 결국은 어떤 모델을 개발을 하게 되는 거니까 실제로는 매번 기계를 가지고 테스트를 하고 눈에 보이는 무언가를 하는 거죠.
내가 개발한 것이 눈에 보이는 물건에 들어가기 때문에 그게 물건이라고 표현하신 거죠?
맞아요. 눈에 보이는 무언가가 있었으면 좋겠는 거예요. 네트워크는 사실 규약이고 눈에 보이는 그런 게 없다 보니 재미가 없나 보다 싶어서 그래서 처음에는 되게 좋았죠. 이렇게 이런 게 출시가 되고 이러니까 그런데 또 제조업체 쪽은 좀 힘든 게 데드라인이 굉장히 철저해야 돼요. 왜냐하면 하드웨어는 공장을 딱 세팅을 해놓기 때문에 무조건 그때 그것이 나와야 돼요. 근데 보통은 모든 것의 개발은 하드웨어가 먼저 시작 단계 있고 뒤에 소프트웨어가 채워지는데 하드웨어가 지연을 시키면 쪼이는 것은 소프트웨어더라고요. 항상 모든 일정의 데드라인은 소프트웨어가 힘들게 맞추는 거예요. 그래서 이 분야를 계속하면 계속 이렇게 압박 받으며 살아야 되는구나를 깨닫고 회사 생활이 점점 재미가 없어질 때 IT 회사를 신입으로 처음 들어간 지인의 친구를 만났어요. 근데 그 친구가 저도 알던 애였는데 걔가 IT 회사 다니는데 너무 재밌다는 거예요. 로그를 보는 일을 하는데 집에 가기 싫다는 거예요. 퇴근하기가 싫다는 거예요. 왜냐하면 너무 재미있어서. 너무 신선한 충격을 받고 IT 분야는 내가 몰랐는데 그렇게 재밌다니까 해보고 싶다 그런 생각을 해서 알아봤고 그 친구가 했던 분야가 그 당시에는 이름이 어떻게 보면 없었던 거죠. 지금은 그게 빅데이터 엔지니어지만 그 당시에는 마땅히 이름도 없고 이걸 하는 사람도 없고 그러니까 해본 사람도 없고 그러니까 그냥 회사에서도 할 수 있을 것 같은 사람을 뽑아서 쓰자 이런 쪽이었기 때문에 저는 결이 완전 다른 회사지만 무사히 들어간 거죠. 그 팀에
S 전자에서는 어떤 일을 하셨어요?
휴대폰에 들어가는 소프트웨어를 하는데 휴대폰마다 그 당시에는 기능이 되게 다양하잖아요. 설정 화면도 있고 플레이어 화면도 있고 그런 것에 대해서 이미 어느 정도의 부분은 있지만 각 기기마다도 다르니까 그 부분에 소스 같은 거를 고쳐야 되는 거죠. 오류가 발생하는 거를 버그를 제보받으면 그거를 재현해서 오류가 안나는 예외 처리를 하고 계속해서 그러니까 데드라인이 다가오면 그런 걸 찾아주는 부서에서 하루에만 몇 백 개씩 버그를 올리는 거죠. 그러면 소프트웨어 하시는 분들은 그 몇 백 개의 버그가 사라질 때까지 계속 해야 되는 거죠. 그래야 출시를 하니까. 그걸 무한 반복하는 그러니까 어떻게 보면 게임처럼 느끼면 재밌을 수도 있을 것 같기는 해요. 미션이 뭐 100개 쌓였다. 누군가는 재미있을 수 있 수 있는데 저는 압박감이 크더라구요.
S 전자에서 하셨던 일이 임베디드 엔지니어하고는 다른 건가요?
네네 맞아요. 임베디드 엔지니어 하시는 분들도 있잖아요. 그건 조금 더 앞단인 거죠. 지금 어떻게 보면 앱 개발하는 거랑 비슷한 것 같아요. 앱에 들어가는 애플리케이션 개발하시는 분과 어떻게 보면 제가 그 당시에 했던 일이 비슷한 거죠. 저는 좀 더 상위단의 소프트웨어를 한 거죠.
그럼 임베디드 엔지니어는 뭐 하는거예요?
좀 더 하드웨어랑 밀접하게 관련돼 있는 부분을 코드를 고치는 거예요. 그래서 하드웨어 단에서 예를 들어 조명이 부품이 있다고 해서 바로 조명이 켜지는 게 아니잖아요. 그거랑 연결하는 로우 레벨 단에 소프트웨어를 하시는 분이 임베디드 엔지니어 쪽에 좀 가깝죠.
석사를 네트워크로 하셨다고 했어요. 학사는 뭘 하셨어요?
학사는 컴퓨터 공학과 나왔어요.
거기는 왜 가셨어요?
고등학교 때 갑자기 수학이 너무 재밌더라고요. 그전에도 공부는 곧잘 하긴 했지만 고등학교 가서 근데 갑자기 너무 재밌는 거예요. 수학이랑 과학이랑 이런 게 너무 재밌었어요. 제가 집이 좀 시골인데 중학교 때는 그냥 적당히 공부해도 시골이기 때문에 한 반에서 2등 정도 하기 쉬웠어요. 예를 들어 근데 저는 1등 할 마음이 없었거든요. 왜냐하면 1등 하려면 되게 열심히 해야 되는데
열심히 안 했는데 2등 했어요?
고등학교는 비평준화라서 공부를 잘하는 고등학교를 갔어요. 가기 전에는 모집하려고 선생님들이 오거든요. 공부를 그래도 잘한다는 애들을 자기 학교에 많이 모집하려고, 거기는 조금 경쟁이 있는 곳이었거든요. 그러면 저한테 너는 가면 한 전교 100등 정도 할 거야 이런 얘기를 하셨단 말이에요. 근데 그 말을 들으니까 ‘나 그럴 생각이 없는데?’ 오기가 생기는 거예요. 그래서 고등학교를 갔는데 그 당시에도 선행 같은 거 다 많이 해오잖아요. 근데 저는 하나도 안 했었거든요
그 당시가 몇 년이에요? 90년대 중후반?
그렇죠 네 맞아요. 정확합니다. 그 당시에는 애들도 다들 많이 선행을 해 왔더라고요. 그 학교는 근데 저는 선행을 안 해 가서 처음에 공부 잘 하는 애들 모으는 반이 있었는데 못 들어갔어요. 왜냐면 난 공부를 안 하고 왔으니까 중학생이 고등학교 문제를 어떻게 풀어. 그랬는데 학교에서 선생님이 가르쳐주는 게 너무 잘 가르쳐주는 거예요. 제 생각에는 그냥 학교 수업만으로 너무 재밌더라고요. 그래서 너무 재밌어서 수학 과학이 너무 재미있어서 뭐를 하면 얘가 더 재미있을까 생각했을 때 제가 중학교 때 게임도 좋아하고 약간 이것저것 되게 많이 좋아했어요. 책도 좋아하지만 책도 진짜 많이 읽었고 책을 다 읽고 나니 만화책도 너무 재밌어서 만화책도 엄청 보고 저희 집이 조금 내버려 두는 스타일이라 제가 그렇게 뭔가에 미친 듯이 빠져도 별로 터치가 없으셨거든요. 그래서 그 당시에 아실지 모르지만 천리안, 이런 인터넷 통신이 막 시작하고 할 때 너무 재미있어서 전화 요금이 10만 원이 나오고 근데도 엄마가 안 혼내시더라고요. 앞으로 조심해라 그냥 그렇게만 하시고 근데 컴퓨터로 하는 게 다 재미있고 그 당시에 게임 만드는 것도 유행했어요. 그런 것도 해보고 하다 보니까 컴퓨터로 하는 건 왠지 재밌을 것 같아 약간 재미 추구인가 봐요. 그래서 컴퓨터 공학과를 가면 내가 재밌는 거 할 것 같아 그렇게 해서 컴퓨터 공학과를 가야지 하고 마음을 정했고 다행히
재밌었어요?
1학년 때는 후회를 했죠. 너무 어렵더라고요. 뭔가 새로운 세상이 그러니까 새로운 언어를 배우는 기분이었어요. 그러니까 새로운 언어긴 하죠. 그런데 내가 한 번도 소통해 보지 못한 언어로 갑자기 무언가를 하라고 하니까 너무 어렵더라고요. 또 저희가 다녔던 학교가 뭘 가르쳐준다기보다 알아서 해오게 시키는 학교라 그냥 뭘 배운 것도 없는 것 같은데 갑자기 예를 들어 헬로우 월드를 찍으래 어디다가 난 이런 상태인데 갑자기 헬로우 월드를 찍으래 막 그래서 진짜
다른 친구들은 다 찍던가요?
좀 잘하는 애들이 있더라고요. 안타깝게도 제가 딱 갔는데 너무 충격적인 게 저희 과에 여자가 저밖에 없었어요. 한 번도 그래본 적이 없는데 최초로 여학생 한 명이 들어온 해가 제가 된 거예요.
그전에는 많았던 거예요. 없었던 거예요?
그래도 5명 정도는 있는데 저희가 되게 소수정예로 뽑아서 35명 정도였어요. 컴퓨터 공학과 정원이 그중에 한 5명 정도 보통 그래도 여기는 여학생이 많은 거다. 그랬는데 제 때 한 명 들어왔는데 사실 동기들이 이름이 여자 이름이 되게 많았어요. 선배들이 되게 기대할 때 수연이 지연이 이러면서 막 여학생 너무 많겠다 하고 기대했는데 딱 들어왔는데 다 남자야 그게 선배들이 야 수연이 누구야 지연이 누구야 다 누구야 막 이러면서 이름 보고 다 되게 기대했다가 한 명이라 되게 선배들도 충격받고 뭔가 어려움을 편하게 말할 대상이 없더라고요. 대학 갔더니 다 남자밖에 없어서 너무 힘들더라고요. 적응 그게 생존이어서 1학년 때는 이 학교를 계속 다녀야 되나 이런 고민을 많이 하고 그래서 그때는 약간 그래 그럼 내가 좋아할 걸 하자 해보고 싶었던 거 그래서 동아리 활동을 굉장히 많이 했어요.
어떤 동아리요?
평소에 못 해 봤던 거 좀 해보는 거 좋아해서 저는 캠핑 가고 여행 가고 이런 거 너무 하고 싶었거든요. 근데 마침 고적답사 동아리가 있었어요. 근데 역사도 되게 좋아하고 근데 거기는 가면 1박 2일로 가서 텐트를 치고 자고 좀 그렇게 했어요. 그러니까 내가 원했던 역사도 공부하면서 캠핑도 할 수 있는 그런 거를 많이 다녀서 고적답사 동아리도 하면서 되게 여행을 진짜 많이 갔고 그러니까 좀 힘들게 텐트도 직접 다 가져가야 돼요. 그런 거 다니고 그리고 그다음에 사물놀이도 저는 그걸 배워보고 싶은 거예요. 악기를 배워 보고 싶은거예요.
컴공을 전공하셨는데 학사 졸업했는데 그다음에는 석사까지 해야 되겠다라는 생각은 왜 하신 거예요?
사실 2학년, 3학년 가면서 3학년 때부터 공부가 좀 재미있었어요. 그전까지 이해가 안 가다가 3학년쯤 되니까 이제 이 분야가 무엇인지 좀 이해도 가고 거기에서도 재미를 찾고 하니까 아는 게 너무 없다라는 게 또 생겨서 좀 더 뭔가 내가 뭔가 그런 얘기했거든요. 학부 때 내가 다 아는 것 같다가 석사를 하면 하나도 모르니까 깨닫고 박사를 해야 이제 좀 뭔가 그래서 처음에는 박사까지도 생각해 볼까 이런 생각도 했었죠. 그런데 과가 많으니까 어떤 분야를 내가 공부할까 이렇게 했을 때 어떻게 보면 제일 재미있어 보이는 거 선택한 거죠. 그 당시에 네트웍이 뭔가 전망도 밝을 것 같고
계기가 있었어요?
그 당시에는 무선 네트워크 이런 분야가 많이 뜨고 있기도 해가지고 그런 분야가 전망도 밝지 않을까 이런 생각을 하면서
개발자분들 아이티백에 나와서 이야기 나눴을 때 그분들도 대학에서 컴공 전공했는데 뭐 가르쳐 주냐고 그랬더니 옛날 기술을 가르쳐 준다라고 표현을 하셨어요. 근데 미래님은 90년대 끝 학번이면 그때는 IT나 컴공이라는 게 미래 지향적이었을 것 같은데
그때 똑같은 말을 했을 것 같아요. 정말 옛날 걸 가르친다라고
미래님 기준으로 옛날 기술을 가르쳐준다고 하면
그러니까 원론적인 걸 가르쳐줘요. 예를 들어 머신 뭔가 이렇게 기계어 그러니까 0과 1로만 됐었던 기계어 이런 것부터 얘기해 주고 그다음에 알고리즘이라는 건 사실 그냥 알고리즘은 사실 뭔가 순서도 같은 거다라고 더 쉽게 생각하면 그렇게 하면 되는 그거는 지금이나 옛날이나 다시 똑같죠. 그런 것도 똑같고 그러니까 결국은 지금이나 그때나 배우는 건 제 생각엔 거의 똑같을 것 같아요.
이론적인 걸 가르친다고 보면 돼나요?
맞아요. 그게 이론적인 그러니까 이론에서 내가 이거를 실전과 스스로 연결을 하기가 어렵잖아요. 그러니까 재미를 찾기가 굉장히 어려운 거죠.
그런 개념이면 사실 경영학도 1학년 들어가면 경영학 원론을 가르치잖아요.
맞아요. 그런 개념이에요.
그럼 옛날 걸 가르친다고 표현하기엔 좀 잘못된 접근 아닌가요?
근데 교수님들마다도 그거를 실제 요즘 트렌드와의 접목 정리를 해 주시면 들을 때 이게 여기와 연결고리가 있구나 알았을 텐데 저도 학부 때 그런 걸 공부할 때는 그 연결고리를 스스로까지 못 만들었어요. 아마 지금처럼 AI가 있었으면 그걸 스스로 찾아보고 되게 재밌어 했을 것 같거든요. 되게 아쉬워요. 옛날에 AI가 있었으면 공부 더 재미있게 했을 텐데
컴공이 좋아서 갔다가 대학 갔다가 실망한 친구들이 있을 수 있잖아요. 그 친구들에게 줄 수 있는 팁이 있을까요?
그걸 배울 때 이게 대체 그러면 지금 핫한 거에 어떻게 연결되는지를 한번 AI한테도 물어봤으면 좋겠어요. 저는 당시에 응용 선형 대수라는 과목을 정말 싫어했거든요. 수학인데 그게 벡터에 대한 계산을 하고 어쩌고저쩌고는 되게 싫어했어요. 이걸 꼭 필수로 해야 되는 걸까 그랬는데 요즘 AI 시대잖아요. 다 이걸로 생긴 거더라고요. 그래서 그게 다 연결되는 거였는데 근데 벡터로 된 거를 다 압축해서 AI에서 빠르게 요즘에 활용하고 그런 걸 하는데 그때는 그 연결고리에 대해서 하나도 생각을 안 해봤기 때문에 이걸 어디다 써먹는다고 내가 배울까 그랬었었어요.
응용 선형 대수라는 걸 AI에 쓴다고 한들 재미있어질 과목인가요?
그래도 조금 그런 것 같아요. 의미가 있다 생각하면 조금이라도 더 애정이 가요.
S 전자에는 어느 정도 있으셨어요?
3년 정도 다녔어요. 3년 조금 넘게 다니고 이직을 해서
S 전자에서 너무 일이 재미없을 때 지인의 친구 만나셨다고 했잖아요. 그 친구도 내 친구긴 했는데 왜 지인의 친구라고 하셨는지 궁금했거든요.
근데 그게 걔가 그러니까 제가 동기가 다 남자밖에 없다 근데 걔는 또 다른 과 애였거든요. 나랑 친한 베프인 이 동기 남자애랑 또 걔도 나름 되게 친한 앤데 그러니까 나도 아는 사이지만 또 뭔가 우리나라는 사실 다 친구라고 부르는데 원래라면 아는 사이가 더 맞죠. 그러니까 영어로는 구별이 돼 있고
그러니까 친구는 아니고 아는 사이?
그렇죠. 아는 사이 근데 그렇죠. 좀 애매한 사이. 친분은 꽤 있으나 나한테 그렇게까지 그런 자기의 직업이 재미있고 이런 얘기까지 할 사이는 아닌
지인의 친구가 IT에 있어서 ‘내가 하는 일이 좋고 재밌다’라고 그 했던 게 그때는 이름이 없었지만 지금은 빅데이터 엔지니어라고
그렇죠. 이게 몇 년 전에 이름이 생긴 것 같아요. 그전에는 그래서 무얼 한다고 대답해야 되나 이런
지인의 친구는 미래님에게 ‘난 무슨 일을 하는데 너무 재밌어’ 이렇게 얘기해 준 거예요?
그러니까 많은 서비스에 있는 많은 로그를 수집하고 그거 가지고 데이터를 집계를 해서 결국 서비스가 활용할 수 있게 이 수치 값을 주는 그런 일을 하는 팀인데 거기에서 숨겨진 의미를 찾는 게 너무 재밌다 그런 얘기를 해줬죠.
나도 저걸 해볼 수 있겠는데 그런 생각을 어떻게 하게 되셨어요?
그 친구도 전자과를 나와서 컴퓨터 관련된 일을 하고 있고 나는 전혀 다른 분야잖아요. 그런데 다행히 아까 얘기한 것처럼 이 분야를 한 사람이 어차피 없으니 그러니까 할 수 있을 것 같은 사람을 근데 또 그 팀도 고민인 게 이 분야를 한 사람이 없고 우리 팀이 이런 거를 새로운 걸 해보러 오세요를 모집을 할 때 어려움이 있는 거죠. 어떻게 보면 설명이 어렵잖아요. 그러다 보니 이렇게 지인의 추천을 조금 반겨줬었어요. 그 당시에는 얘는 이런 분야에 관심이 있는 것 같고 할 수도 있을 능력도 있는 것 같다 이런 추천을 좀 반겨줘서 다행히 그래서 소개받아서 따로 얘기도 해보고 리더 위에 리더가 되실 분이에요. 따로 상의도 해보고 그러면 한번 원서를 써봐라 해서 그 뒤에 경력 공채로 들어오게 됐죠.
그때는 빅데이터 엔지니어라는 직무 이름이 없었기 때문에 그냥 개발자?
어떻게 보면은 그렇죠. 그냥 개발자죠.
근데 데이터를 보는 개발자?
그쵸. 저희 팀이 데이터를 로그를 수집부터 결국은 저장하고 거기에서 이 데이터가 너무 많으면 사실 빠르게 뽑는 게 굉장히 어렵거든요. 사실 빅데이터라는 이름이 붙은 게 데이터의 앞에 빅자가 붙은 거잖아요. 그러니까 데이터가 너무 크니까 얘를 빠르게 처리하기 어렵기 때문에 얘를 빠른 시간에 효율적으로 처리하는 기술이 바로 빅데이터라고 그냥 이름이 붙은 거예요. 쉽게 생각하면 그러니까 사실 작은 데이터가 아니고 큰 데이터라는 게 어떻게 보면 여기서 키거든요. 왜냐하면 열흘 걸리면 데이터가 나와요. 할 순 없잖아요. 우리는 매일매일 데이터를 봐야 되는데 그러면 얘를 빠르게 처리를 해서 하루 만에 그다음 날 사람들이 볼 수 있게 이렇게 제공을 해줘야 되잖아요. 그러니까 그런 거에 대한 기술 분야거든요.
그런 거는 어떤 기술을 쓰는 거예요?
그 당시에 처음 나온 게 혹시 들어보셨을텐데 하둡이라고 그게 어떻게 보면 정말 초기에 딱 그때쯤에 막 시작되고 그러니까 하둡이라는 말을 사실 거의 다들 모르고 하둡 1.0을 그 팀에서 처음으로 설치해서 테스트해보고 이랬던 팀에 들어가게 된거죠.
하둡이라는 거는 개발 언어라고 생각하면 될까요? 아니면 프레임워크?
프레임워크이라고 보시는 게 맞을 것 같아요. 그러니까 그 당시에는 컴퓨터한테 우리가 1+1 이런 걸 시켰을 때 계산법이라는 게 있잖아요. 근데 얘는 조금 생각의 전환을 한 게 그렇게 해서는 빠르게 계산을 못한다. 혼자한테 다 맡겨서는 사람들에게 나눠주는 거예요. 김 씨는 너가 다 세, 여기에 나씨는 너가 다 세. 이런 식으로 하나씩 분산을 해 주면 얘 입장에서는 무조건 들어오는 거 카운트만 하면 되니까 좀 빨리 할 수 있는 거예요. 그런데 이거를 이렇게 나눠주는 걸 누군가를 하는 거죠. 이걸 셔플이라고요. 셔플이라는 게 이렇게 나눠주는 거예요. 너는 이것만 하게 쟤는 이것만 하게. 그게 있고 그다음에 이걸 또 다 계산한 걸 취합을 해서 어떻게 보면 데이터를 만들어내는 거죠. 이게 어떻게 보면 빅데이터의 가장 초기 개념 기본 개념인 거예요. 그래서 이렇게 나눠서 일을 잘 시켜야 되는 게 중요하잖아요. 그러니까 데이터를 코드를 잘 짠다는 게 이 메커니즘을 내가 잘 활용해서 굉장히 오래 걸릴 것도 이렇게 분산하고 쪼개면 더 빨리 나올 수 있어 이런 거가 재미있더라고요.
본래 열흘 걸리던 거였는데 내가 이렇게 했더니 하루 만에 돼 그렇게 되나요?
예를 들어 한 4시간 걸리던 걸 1시간 안에 나오게 돌린다거나 이러면 되게 기분이 좋은 거죠.
그거를 다 머릿속으로 상상해 보는 거예요?
상상을 좀 많이 해 봐요. 지금도 뭔가 코딩 할 때도 어떻게 보면은 하둡은 정말 초기니까 지금은 굉장히 좋아진 게 많이 나왔어요. 스파크나 이런 거를 이렇게 나눠주는 걸 옛날에는 내가 예를 들어 다 짜야 됐어. 내가 나눠주는 데도 짜고 다 했으면 요즘은 그런 거를 그냥 한 줄 적으면 얘가 그 역할 다 해줘. 예를 들어 넌 뭐 해 뭐 해 이렇게 적기만 그러니까 단어 하나만 적으면 될 수준으로 예를 들어 줄었어요. 그랬을 때도 머릿속으로 상상은 똑같이 해야 되는 거죠. 얘는 이렇게 나눠서 시키고 저렇게 나눠서 시켜야 빠르겠다 이런 생각을 해보고 또 해보는 거죠.
똑같은 걸 하는데 나는 얘를 1시간을 줄였는데 옆에 있는 엔지니어는 30분으로 줄일 수도 있겠네요?
그럼요. 그쵸. 맞아요. 근데 이게 또 애매한 게 저희가 이런 플랫폼을 쓰고 있는 환경에서는 이게 최선이었는데 갑자기 더 좋은 플랫폼이 나올 수도 있고 얘도 버전업을 하잖아요. 그래서 계속 바뀌어요. 근데 이 분야에 어떻게 보면 힘들 수 있는 점은 진짜 급격히 계속 지금 요즘에 하루가 멀다하고 AI가 나오듯이 급격히 계속 나오니까 계속 새로운 플랫폼은 쏟아지고 저희는 상용 이런 걸 쓰는 게 아니니까 계속 새로운 게 나오면 이건 괜찮나 저건 괜찮나 이렇게 또 계속 생각을 해야 되고 이 당시에 얘가 베스트였지만 지금은 또 1년만 지나도 아닐 수 있으니까 또 계속 바꿔줘야 되고 이런 또 피곤함이 있을 수 있죠.
석사를 네트워크로 해서 눈에 보이는 물건을 하고 싶어라고 해서 S 전자 가셨다고 하셨잖아요. 근데 빅데이터도 눈에 안 보이는 건 개념상 같은 거 아니에요?
네트워크는 약간 너무 규칙이 정해져 있다. 그게 되게 답답한 포인트인데 지금 이거는 내가 하면 뭔가 조금 더 빨라질 수 있고 내가 조금 자율성을 넣을 수 있는 많은 것 같아요. 그러니까 이 분야가 조금 자유도가 높아요. 그러니까 플랫폼도 너무 많은데 저희 팀에서는 예를 들어 DB만 해도 이것도 써볼 수 있고 저것도 써볼 수 있고 근데 그것도 보면 어디서는 프레스도라는 이게 너무 좋아요. 어디서는 클릭 하우스가 너무 좋아요. 어디서 이렇게 서로 자기가 되게 좋다고 하거든요. 근데 그 이유가 저장한 데이터가 달라서에요. 이런 데이터에서는 얘가 최적의 성적을 낼 수 있고 이런 데이터 또 이렇게 있으니 우리가 지금 만들어야 될 데이터에서 최적인 거를 또 찾아야 되고 그러니까 이게 어떻게 보면 자유도가 굉장히 높은데 그게 어떻게 보면 또 재미있더라고요. 그런 면에서 자유도가 높다
빅데이터 엔지니어가 생각해야 하는 포인트가 데이터의 수량, 유형 그거에 속도를 빠르게 하는 게 핵심이라고 하니까 속도를 빠르게 하기 위한 기술, 프레임워크 그러니까 생각해야 되는 포인트들이 뭐가 있는 걸까요?
지금 말한 게 어떻게 보면 엔지니어적으로 고민해야 될 포인트고 제가 처음에 저는 빅데이터 엔지니어와 데이터 분석과 중간에 있는 것 같다라고 했잖아요. 그러니까 약간 엔지니어적인 거는 저한테는 조금 재미가 조금 덜한 편이고 저는 오히려 아까 말한 대로 나는 2시간 걸릴 걸 1시간으로 줄이고 이런 분석 쪽이 더 재미있긴 하더라고요. 거기에서 의미를 찾고 하는 게 그래서 어떻게 보면 저희 팀이 다 같이 하고 있지만 조금 더 딥하게 이런 플랫폼 성능을 테스트하고 이런 거 좋아하시는 분들은 그 위주로 좀 더 많이 하시고 저는 그걸 조금 더 활용하는 쪽에 많이 하는 거죠.
그동안 이해했던 데이터 분석가는 데이터들 중에서 어떤 것들을 추출해내서 거기서 인사이트를 발견하는 사람을 데이터 분석가라고 생각했는데
맞아요. 그렇게 봐도 돼요. 데이터 분석가라는 정의가 그래서 굉장히 좀 모호한 게 세 가지를 다 갖춰야 돼요. 지금 말한 엔지니어적인 성향도 어느 정도 있어야 되고 데이터 분석하는 성향도 있어야 되고 그리고 또 하나 핵심이 도메인에 대한 이해 세 가지가 있는데 이 세 가지를 완벽하게 삼각형을 갖춘 사람은 없다라고 봐요. 그런데 그중에 하나가 어느 쪽이 더 발달했냐로 되는 거죠. 저 같은 경우는 약간 엔지니어적인 성향이랑 어떻게 보면 분석적 성향도 좀 있는 거고 그리고 그 인사이트 찾는 것도 어느 정도 있는 거고 그거를 저도 어떻게 보면 약간 엔지니어 쪽에 가까운 분석가인 거죠. 완전 데이터 분석에 치중하시는 분과 또 결이 좀 다르긴 하죠. 통계학과 나오시고 데이터 마이닝 하시고 하는 분들이 보는 관점이라 또 다를 수 있기는 해요.
어떤 특정한 도메인 혹은 특정한 서비스하고 관련된 데이터만 주로 보시고 거기서 인사이트를 찾으시는 거예요?
저희 팀이 모든 서비스에 그런 거를 다 보다 보니 데이터 요청이 굉장히 많이 와요. 예를 들어 갑자기 지표가 되게 떨어졌어 그러면 그 원인을 서비스에서도 나름 찾으려고 하지만 어려운 경우가 많아 많거든요. 그러면은 보통 저희 팀으로 그런 역할이 다 와요. 예를 들어 11월에 갑자기 스포츠라는 서비스에서 갑자기 지표가 확 떨어졌어 원인을 정확하게 분석을 못하겠 있는데 왜 그러냐 뭐 이런 게 오면 저희가 그런 거를 좀 분석을 해 주는 거죠. 11월에 이번에는 야구와 축구 시즌이 동시에 끝나면서 같이 지표가 떨어졌다. 작년 같은 경우는 야구가 끝나더라도 축구는 아직 시즌이 이어지고 있어서 감소폭이 작았으라 이런 역량이라든가 왜 스포츠가 떨어졌는데 갑자기 뉴스까지 떨어졌느냐 이런 의문이 있으면 스포츠와 뉴스가 어떤 관계가 있는지 그런 거를 분석을 해서 스포츠와 뉴스를 동시에 보는 사용자가 있었으면 스포츠 보러 왔다가 뉴스도 보는 사용자들이 감소가 크다 이런 거를 찾아주기도 하고
미래님이 계신 곳은 서비스 자체 데이터 분석팀이 없는 모든 서비스를 총괄하는 데이터 분석 맞아요?
보통은 서비스가 자체 데이터 분석 팀이 거의 없다가 요즘에는 점점 생기는 추세예요. 왜냐하면 데이터가 너무 많아지고 있고 그래서 큰 서비스들은 보통은 자체 데이터 분석하시는 분들 충원을 이제 했고 네 하지만 많은 곳은 사실 없고요. 그리고 그 자체 충원한 곳도 어떻게 보면 또 이 자기 서비스 거만 보게 되면 못 찾는 경우도 많거든요. 그러니까 저희 팀은 모든 서비스 걸 다 가지고 있으니까 연결고리를 좀 볼 수 있다 보니 약간 또 서로 있더라도 보는 영역이 조금은 다른 것 같아요.
데이터는 엄청 많은데 거기서 내가 어떤 부분을 파야 원인을 찾을 수 있다라는 거를 생각을 해야 되잖아요. 그것도 뭔가 직감에 의한 건가요 아니면 가설에 의한 건가요?
경험이 쌓여서인 것도 같고 제가 그런 걸 고민하는 거 되게 재미있어 하는 편인 것 같아요. 이게 왜 그럴까 이런 거 있잖아요. 그러니까 같이 이렇게 팀에 같이 와도 보통은 난 이거 보면 될 것 같아를 제가 조금은 더 빨리 항상 먼저 아이디어를 많이 제시를 하는 편이더라고요. 그리고 내가 보고 싶었던 아니면은 미리 이건 이래서 일 것 같은데를 미리 또 생각나서 또 진짜 데이터를 해보니까 그게 맞네라고 이렇게 보이는 경우도 많고
한 회사에 너무 오래 있어서 그런 거 아니에요?
그렇죠. 어떻게 보면 맞아요. 제가 봐도 엔지니어링 쪽에 치중하시는 분은 이런 부분을 전혀 못하세요. 그러니까 평소에 그러니까 저는 그런 데 관심이 많아서 또 있는 것 같고 그게 결국은 마지막 하나의 삼각형인 도메인 지식 그러니까 고인물의 어떻게 보면 도메인 지식 그게 큰 거죠.
호기심이라고 할게요.
맞아요. 호기심 그렇죠
인프라를 만드는 데이터 엔지니어의 영역이랑 데이터 분석가의 영역 중에 어떤 게 더 재미있으세요?
저는 좀 분석 쪽이 더 재미있는 것 같아요. 플랫폼 쪽 하시는 분이 보면 항상 느끼지만 대단하다 싶은 게 이게 오픈 소스다 보니 완벽한 애가 아니에요. 그래서 이렇게 설치를 해서 버그가 없다고 말할 수가 없어요. 그러니까 이유를 알 수 없이 얘가 이상해져요. 예를 들어 이유를 알 수 없이 메모리 릭이 발생하고 갑자기 뭔가 되게 느려지고 이런 일이 발생을 해요. 전 그게 되게 답답하더라고요.
이유를 알 수 없어서요?
이유를 알 수 없어요. 그거는 정말 알 수 없는 뭔가가 있고 몇 달 뒤에 누군가가 그 버그를 찾아서 뭔가 제보해서 고치거나 이런 일이 생기는 거죠. 오픈 소스라는 게 누군가가 이렇게 고통스러워하다가 누군가 또 그거를 고쳐서 전 세계 중 누군가가 해주면 다른 사람들은 감사합니다 하고 쓰는 거죠.
오픈 소스를 써야만 하는 상황이어서 그걸 쓰는 건가요?
지금 빅데이터 쪽 분야는 다 오픈 소스 가깝다고 생각하시면
왜 그런 거예요? 상용 프로그램이 없어서인 걸까요?
그쵸. 그리고 상용을 하려면 뭔가 예를 들어 많이 쓰시는 게 생각하면 mySQL이라든가 그런 DB는 어떻게 보면 거기가 한계가 있어요. 저장할 수 있는 예를 들어 그게 뭔가 상용이면 퀄리티를 보장할 그런 한계가 보통은 좀 있죠. 그렇죠 그런 성능을 보장하거나 관리를 해 줄 수 있는 그런데 빅데이터 쪽은 100대 붙이고 200대 붙이고 이렇게 해서 나는 막 쓰려는 쪽이 강하다 보니
요즘에 개발자들 채용 공고 보면 대용량 데이터 처리 경험 이런 거를 필요한 능력으로 치잖아요. 그랬을 때 대용량이라는 게 저는 어느 정도를 의미하는지 늘 궁금하거든요.
그거의 기준이 얼마일까가 되게 애매한 부분인데 데이터가 1테라만 있었을 땐 잘 돌아가는 게 데이터가 갑자기 어느 날 100테라가 갑자기 들어올 수 있잖아요. 우리 서비스가 발전해서 그럴 때 장애가 없어야 될 거 아니에요. 그런 경험이 있는 사람은 데이터가 이렇게 갑자기 트래픽이 폭등했을 때도 이슈 없게 잘 분산되게 미리 잘 세팅을 해놓고 이런 걸 할 수 있다는 거죠. 그러니까 장애가 안 생기게 요즘에는 되게 이런 기술들이 좋아져서 요즘에도 저희도 쓰는 서버들도 다 뭔가 트래픽이 갑자기 늘어나면 자동으로 파드가 할당돼서 자동으로 이 트래픽을 분산해서 받을 수 있게 해주고 이런 기술들이 굉장히 발달되어 있거든요. 그러니까 이런 경험이 있는 사람이면 이런 생각을 할 거 아니에요 이 정도 데이터면 보통 서버를 몇 대는 준비해 놨다가 혹시나 비상 시에는 또 비상시에 대응 플랜을 짤 수 있다. 제 생각에는 그런 생각을 할 수 있냐인 것 같아요. 실제로 그 사람이 그거를 다뤄보지 못했더라도 그런 식으로 데이터가 늘어났을 때의 어떻게 할 수 있는가에 대한 지식을 공부를 해놓으면 그것만으로도 취업은 가능할 것 같아요. 왜냐하면 대화를 해보면 알거든요. 이런 사람이 이런 부분까지 관심을 가져서 생각을 해봤느냐
그거를 꼭 정말 해본 경험이 없더라도 어떤 개념이 있는 거고 그 개념에 맞는 정답이라고 해야 될까요? 그런 것들이 있는 거잖아요. 분산 처리를 할 수 있는 프로세스 그거를 공부하면 되는 건가요?
공부하면 되기도 하고 사실 관심이 있으면 요즘엔 AWS라고 아마존에서도 제공하는 그런 거를 어떻게 보면 약간 돈은 들 수 있지만 조금 돈을 써서 내가 데이터 같은 걸 활용해서 해볼 수도 있기는 하죠. 유튜브나 이런 데도 해볼 수 있는 그런 강의도 많을 것 같아요.
해볼 수 있다는 거는 실제로 대용량 데이터가 없더라도 그냥 분산 프로세스를 만들어보는 행위를 할 수 있다는 말씀인거죠?
그리고 데이터도 요즘에 국가에서도 제공하는 데이터들이 좀 있기 때문에 어떻게 보면 그런 거 가지고도 테스트해 볼 수 있게 국가에서도 많이 제공을 해요. 그리고 그런 것도 많이 하더라고요. 이런 데이터 가지고 한번 공모전처럼 그런 것처럼 그런 걸 또 해볼 수도 있기는 하죠.
신입이나 주니어들이 대용량 데이터를 처리해 본 경험을 모든 서비스가 다 할 수 있는 게 아닌데 채용 공고에 그런 정보가 있으니까 그거에 대해서 내가 이걸 어떻게 해야 되지 하고 고민을 많이 개발자들 특히 하는 것 같아서
맞아요. 근데 사실 관심을 가지면 해볼 수 있는 부분이 굉장히 많은데 저도 예전에 면접 같은 거 볼 때 보면 생각보다 데이터에 관심이 있다고 해서 그러면 무엇을 해봤냐고 물었을 때 특별히 해본 게 없더라고요. 그런 경우가 되게 많아서 예를 들어 저한테 이런 거를 상담하고 했던 사람한테는 저는 보통 첫번째 구글 애널리티스라고 있어요. 그게 무료로 데모 버전 같은 거 다 볼 수 있거든요. 최소한 그걸 들어가서 거기 있는 지표가 무엇인지 개념이라도 이해를 하고 있고 한 번 다운로드 해보고 사실 그거조차 한 번도 안 해본 사람도 되게 많고 그러니까 데이터에 대해서 그런 거를 구글 애널리틱스는 이걸 어떻게 로그를 수집해서 이 지표를 줄까에 대한 호기심을 좀 가져보고 거기에 하물며 무료 자격증 그래서 되게 간단하고 어떻게 보면 관심 있어서 그걸 해봤다라고 얘기할 수 있는 포인트가 될 수 있잖아요. 그런 거라도 한번 해보라고 했었을 때 이런 게 면접 볼 때 도움이 됐었다라는 팁을 들은 적은 있었습니다.
잘했다고 생각하는 일이 중요한 결정을 스스로 하는 것이라고 하셨어요. 그러면서 진학, 취업, 이직, 결혼, 육아 등 남의 말을 듣기보단 스스로 생각하고 판단하고 행동한 것이라고 하셨어요.
맞아요. 결론은 내 마음대로 다 해 그렇죠 맞아요. 아니 저희 부모님이 거의 터치가 없댔잖아요. 그렇게 터치 안 받고 크다 보니까 누가 터치하는 게 너무 싫더라고요.
부모님 외에 터치하는 분들이 좀 있어요?
아니 그렇다기보단 왜 그런 거 있잖아요. 대학 다닐 때도 뭐 예를 들어 선배들이 아니야 이 분야는 전망이 없어 지금이라도 의대를 가 뭐 예를 들어 이런 선배들도 있고 아니면 S 전자에서는 또 약간 여자가 다니기에 안 좋았어요. 그 당시 분위기가 뭐 여자 직원들은 임신하면 출산하면 이런 얘기를 과감 없이 그냥 되게 그런 걸 대놓고 하는 그게 되게 심했고 그런 거 듣는 거 되게 싫어하나 봐요.
지금 아이를 키우시잖아요. 약간 방임하시는 편인가요?
방임이라기보다 그냥 애가 원하면 해주고 아니다 싶으면 아니다라고 하면 또 그렇구나 의견 존중해 주고 그냥 그러는 거죠. 크게 크게는 터치 안 하고 그래도 이렇게 이런 바운더리 안에서 조금 자율성을 보장해 주자라고 노력하는
본인이 부모님으로부터 그런 구속을 안 받았는데 나는 내 자식을 하면 그거는 좀 나쁘죠
맞아요. 그러니까 대신에 뭔가 네가 한 결과에 대한 책임을 항상 져야 된다. 이런 생각을 항상 주입 결과는 스스로 책임져라. 나중에 엄마 아빠를 원망하면 안 된다. 오히려 나를 그때 왜 더 안 잡았냐 이런 얘기를 하면 안 된다 이런 거 미리미리 교육을 해.
살면서 잘했다고 생각한 일이 여행?
그렇죠. 보통 20대 때 여행을 좀 많이 다녔는데 지금 생각하면 진짜 잘한 것 같아요. 되게 사람이 추억을 많이 쌓고 살아야 될 것 같아요. 요즘에 그런 생각을 많이 해요. 추억을 많이 쌓고 살아야 된다. 고등학교 때 베프랑 방학 때 중국을 갔었는데 그때만해도 중국 여행을 거의 안 가던 그런 시절에 그냥 배낭 여행으로 진짜 배낭을 메고 그러니까 되게 로망이 한 2002년이었던 것 같아요. 배낭을 메고 이제 중국을 그때 실크로드를 이렇게 횡단을 해보자 그냥 그런데 준비를 하나도 안 하고 그냥 갔어요.
미국 횡단도 있었을 거고 되게 넓은 땅덩이가 많은데 중국의 실크로드를 횡단해야겠다라고 생각한 이유가 있었어요?
그때 제 친구가 중국어 배웠댔잖아요. 갑자기 중국에 좀 꽂혔었어요. 그 당시에 그냥 뭔가 약간 중국의 한의학 이런 거에도 좀 꽂히고 갑자기 그냥 중국어 공부한 거예요. 진짜로 중국어랑 상관없는 국가인데 그래서 그래서 그냥 걔도 어떻게 보면 첫 해외여행이고 저도 이렇게 한 달씩 길게 가본 적은 없었는데 한번 가볼까 해서 봤는데 우리는 뭔가 마음의 각오를 하고 갔거든요. 그때는 흉흉한 소문이 너무 많아서 긴장을 하고 마음의 준비를 하고 갔는데 막상 생각보다 되게 좋으신 분들도 많이 만나고 그때는 휴대폰도 없으니까 어떻게 보면 더 날것의 여행을 했었거든요. 근데 얘가 저랑 같이 그렇게 여행 다녔던 게 지금도 얘도 그렇게 베스트 여행으로 뽑더라고요. 저랑 같이 다녔던 게. 여행을 많이 다니고 깨달은 게 결론은 여행을 다닌 이유가 뭘까를 많이 생각했어요. 그래서 책도 있잖아요. 김영하의 <여행의 이유> 저는 그 책 되게 좋아하는데 대체 여행의 이유가 뭘까 되게 항상 궁금했고 저는 느낀 게 그냥 여행 다니면서 사람들의 모습을 되게 많이 볼 수 있잖아요. 관찰할 수 있고 사실 되게 다르게 살고 그러니까 제가 그냥 생각하는 건 사람마다 같은 상황에도 다른 생각할 수 있고 다른 게 이렇게 행동할 수 있고 이런 거를 배우는 것 같다고 되게 많이 느꼈어요. 그러니까 꼭 어디를 갔다가 중요한 게 아니라 지금 나랑 다른 곳에 갔다, 내가 지금 가진 고정관념을 조금 버릴 수 있다. 그런 게 여행의 이유 같더라고요. 사실 책도 좋아하는 게 그런 것 같아요. 책 통해서 내가 평소 가졌던 그런 고정관념과 또 다른 생각을 할 수 있고 이런 관점으로도 생각할 수 있구나. 저는 그런 걸 발견할 때 너무 재밌거든요. 그래서 여행도 요즘은 꼭 어디를 횡단하고 이런 목표를 거의 세우지 않아요. 그냥 가서 여긴 또 사람이 어떻게 사나 되게 소박하게 그냥 보고 오고 이런 게 즐겁더라고요. <사람 풍경>이라는 책이 있거든요. 그 책도 되게 좋아하는 책인데 그 책에서 작가도 하시는 말이 사람들의 풍경이잖아요. 그러니까 그런 걸 그런 관점으로 되게 여행 다니면서 보고 쓰신 거거든요.
여행을 가신다면 어떤 사람들은 쇼핑을 좋아하고 어떤 사람은 맛집 찾아다니고 어떤 사람은 풍경 지나다니고 이러는데 미래님은 주로 어떤 장소에 가세요?
저는 유적지 있고 이런 거 원래 좋아했다가 요즘 들어서는 자연이 있고 이런 데가 좋아서 사실은 그런 위주로 많이 가는데 근데 그런 거 보면 생각하는 거죠. 왜 여기는 이런 게 발달했을까 그러니까 똑같은 상황에도 우리는 이렇게 발전했는데 여기는 왜 또 이런 방향으로 이런 성향으로 사람들이 성격이 형성됐을까 이런 거 생각하는 게 되게 재밌는 것 같아요. 그런 거를 그러니까 어떻게 보면 비슷한데 왜 이렇게 다르지 이런 거 생각해 보는 거 그냥 재밌는 거
오늘 차 한잔 함께 했는데 소감이 궁금합니다.
처음에 적을 때 너무 할 말이 없을 것 같아 이런 생각을 하며 걱정하고 왔는데 되게 재미있게 이것저것 얘기하고 내 직업이 무엇일까를 고민을 사실 안 하잖아요. 근데 이번 기회에 조금 아 내가 어떤 일을 하는 사람이구나 생각해 볼 수 있는 기회가 돼서 정말 좋았습니다.
CREDIT
글 오잉
인터뷰 오잉, 찌니, 써니
인터뷰 전문 듣기