취업 특강 후 A/S 해드립니다
[브런치레터 13호 2025. 5. 30]
열흘이나 지났네요. 5/20 구로G타워에서 작은 취업 특강을 했습니다. 주제는 데이터 엔지니어링(DE)이었습니다. 온라인과 오프라인으로 참석해 주신 분들을 위한 저의 마음은 이러했습니다.
어린왕자의 생텍쥐페리가 한 말인데, 저 대양의 바다로 나가게 하기 위해서는 두 가지 방법이 있습니다. 그들에게 나무를 모아 오라고 시키고, 못질을 알려주고, 돛 다는 법을 알려주는 것입니다. 그렇게 배를 만드는 법을 알려주면 바다로 떠날 수 있습니다. 그다음 방법은 심플합니다.
"Teach them to yearn(그들이 바다를 동경하게 하라.)"
어떻게(How) 그리고 무엇으로(What) 바다를 갈 수 있을지 모르지만, 그저 그 드 넓은 대양의 바다를 동경할 수 있도록 돕는 것입니다. 고작 2시간의 짧은 시간일지하도 제 이야기에 귀 기울여 주신 분들께 드리고 싶었던 메시지입니다. 조금이나마 생텍쥐페리 선생의 메시지를 흉내내보았습니다.
어떻게 데이터를 다루고 무엇으로 데이터를 다룰 수 있는 방법을 알려드리기보다 여러분들의 머릿속에 그 어떤 이미지를 하나씩 남겨드리고 싶었습니다.
부디, 제가 전해드린 이야기 이후에 모두의 머릿속에 작은 이미지가 흐릿하더라도 남겨있다면 저는 정말 기쁠 것입니다.
감사하게도 몇몇 분들께서 이야기가 끝나고 며칠 후에 질문을 남겨주셨습니다. 일종의 A/S인 셈이죠. 일정에 쫓겨서 답변드리지 못하다가 더 이상 미룰 수 없어 이렇게 레터링으로 남겨봅니다. 총 다섯 가지 질문에 대해 A/S드립니다.
[첫 번째]
DE 관련 신입, 인턴을 지원하고 싶은데, 어떤 프로젝트를 진행해야 하고, 포트폴리오와 이력서에 어떤 점을 부각해야 하나요?
제조, 물류 관련 프러덕트를 진행하고 싶은데, 어떻게 시작할 수 있을까요? 크몽밖에 없는 걸까요?
요즈음 DE에서 사용하는 라이브러리나 특정 트렌드 기술이 있을까요?
지난 시간에 말씀드렸듯이, 현실적으로 DE 직무로 신입으로 지원하는 것은 한계가 있을 것입니다. 현실적으로 TO가 있을지 의문인 것도 사실입니다. 'DE 관련'으로 인턴도 없을 것 같습니다. 왜냐하면, 신입사원이나 인턴으로 DE 업무를 처리하기에는 프로젝트나 업무가 매우 빠르고 긴급하게 흘러가기 때문에, 단기로 외주 엔지니어링을 하거나 경력자가 맡고 있을 것이기 때문입니다.
과정 자체에서 'DE or DS'를 나누기 때문에, 둘 중 하나라는 선택지만 있는 것 아닌가? 란 생각을 하신다면, 조금 더 넓게 보셔도 좋을 것 같습니다. 두 개의 구분으로 나누기엔 분야가 너무나 세세하게 나뉘어 있고 기업마다 원하는 포지션도 다양하니까요. 기업들의 JD(Job Description)를 한 번 살펴보면 생각보다 폭이 넓다고 말씀드린 부분에 공감하실 것입니다.
어떤 프로젝트가 좋고 나쁜이 있기보다는 그 프로젝트를 정말 깊이 있게 파고들었는가가 중요합니다. 즉, 어떤 프로젝트인지가 아니라 어디까지 파고들었는가가 핵심입니다. 본인이 누구보다 자신 있게 진행한 프로젝트 하나가 중요합니다. 그 프로젝트로 적어도 1~2시간은 이야기를 나눌 수 있다면, 그 프로젝트의 깊이만큼이나 본인에게 도움이 될 것이라고 확신합니다. 이력서는 따로 말씀드리지 않아도 될 것 같습니다. 왜냐하면, 포트폴리오가 좋을수록 이력서에는 쓸 것이 너무 많아서 골라야 할 테니까요.
제조/물류 로봇 관련 프로덕트를 진행하는 건 정말 쉽지 않습니다. 왜냐하면, 현업에서도 실험 단계이기 때문입니다. 여러분이 건드려볼 수 있는 기회는 극히 제한될 것입니다. 그나마, 제가 제안드리고 싶은 것은 실제 물류 관련 프로덕트를 실물로 진행하지 말고 버추얼로 대신하는 것은 굉장한 큰 이점이라고 생각합니다. 즉, 실제 물류 대신 가상의 물류 프로덕트로 대체하는 것입니다.
이것 자체가 당신의 창의력에 가산점이 될 것이고, 이 가상의 시뮬레이션 물류 프로덕트로 프로젝트를 진행할 수 있습니다. 웃긴 말이지만, 당신의 뇌를 속이는 거죠. 이건 시뮬레이션 가상이지만, 진짜 물류 혹은 실제 하는 프로덕트다. 이걸 진짜라고 가정하고 이것으로부터 어떤 데이터를 얻고 어떻게 데이터 파이프라인을 구축할 수 있을까?
이렇게 접근하면 불가능하진 않은 것 같습니다.
[두 번째]
오늘 강의 정말 감사드립니다. 제 상황이 비전공자에 공대 출신입니다.(기계는 아니고 화공입니다) 오늘 강사님 강의를 통해 제조업에 가야겠다는 결심을 하게 되었습니다.
제가 궁금한 점은 그럼 저희 이어드림스쿨에서 진로를 ds보다는 de를 먼저 배우는 것을 추천하신다고 생각하면 되겠죠?? 물론 나중에는 다 해야겠지만 시작을 de로 할지 ds로 할지 고민입니다. 저는 지금까지 막연히 de는 코딩 부분이 크다고 알고 있어서 ds로 해야겠다고 생각하고 있었습니다. 오늘 강의해 주신 것처럼 강사님처럼 되고 싶으면 저의 커리어 방향을 어떻게 해야 할지 문의드립니다. 감사합니다 ^^
감사를 표현해 주셔서 제가 더 감사합니다. DS와 DE의 선택은 사실 그렇게 중요하지 않다고 생각합니다. DS를 하고 DE를 하던 DE를 하고 DS를 하던 Whatever? DE는 코딩이 크고 DS는 덜하다는 것도 옳지 않은 것 같습니다. DE는 백엔드와 친하기에 코딩이 더 주요한 것이 틀린 것은 아닌 것 같습니다.
그렇지만, '코딩'이 자체만으로 위에서 언급한 DS/DS/프론트엔드/백엔드의 구분이 그렇게 중요하진 않은 것 같습니다. 이것은 마치 좋은 붓으로 어떤 이는 수채화를 어떤 이는 서예를 또 어떤 이는 난을 치는 것이지 수채화던 서예든 난이던, 자신의 흥미와 관심사─취향까지 포함한─문제이지 않을까요?
다시 한번 말씀드리지만, 아마 이미 결정하셨을 수도 있겠죠. 제가 답변이 늦어서 말이죠. 이 점은 미안하게 생각합니다. 그렇지만 당신이 DE를 선택하건 DS를 선택했건 '그게 크게 중요하지 않을 것'이라고 말씀 남기고 싶습니다. DS를 하던 DE를 하던 그것으로 배운 것을 어떻게 써먹는가? 혹은 그것에서 무엇을 배웠는가 가 아마도 100배 더 중요할 것이라고 확신합니다.
이렇게 감사할 줄 아는 마음과 고마움을 표현하는 질문자님은 분명히 좋은 태도와 선함이 있으시리라 믿습니다. 그 어디에 있건 분명히 원하시는 바를 이루실 거라 믿습니다.
마지막으로, 아주 짧게, 커리어 방향은 없는 게 좋은 전략입니다. 어차피 방향이 있어도 그 방향으로 가지 않을 거라고 전제를 해두시는 게 당신에게 이로울 것입니다. 분명 하루에 한 발은 내딛되 그게 꼭 내가 원하는 방향이 아님을 받아들이시고, '하루에 한 발을 내딛었음' 이것에 집중을 해보시는 것을 권해드립니다. 제 방법도 그러합니다. 어딘지는 모르겠지만, 하루에 한 발자국은 어디로든 내딛었다면 저는 만족합니다.
[세 번째]
당연히 정답은 없고 진리의 사바사임을 잘 알고 있습니다만,
그래도 이제 방향을 잡고 나가야 할 교육생들을 위해 최대한 구체적인 정보와 경험을 공유해 주시면 감사하겠습니다.
1. DE에게 필요한 핵심 스킬과 언어, 스택, 역량, 프레임워크/솔루션은 어떤 것들이 있나요?
2. 그리고 위 기술들은 어디에 어떻게 쓰이나요?
3. 그리고 산업/도메인별로 어떤 차이가 있나요?
4. 데이터엔지니어는 빅데이터 파이프라인 아키텍처 설계, 시스템 구축을 함에 있어서,
자바/스칼라 언어가 가장 기본으로 알고 있습니다.(커뮤니티, 성능, 베이스 등)
반면 저희는 파이썬을 기반으로 spark, kafka, elastic stack을 배울 예정인데요.
파이썬 베이스 데이터 엔지니어는 현업에서 얼마나 수요가 있는지 궁금합니다.
5. 자료구조/알고리즘/디자인패턴/운영체제/인공지능 까지 해야 할 공부가 참 많습니다.
이 중 특히 실무에 많이 쓰인다거나, 취업에 꼭 보는 역량이 있다면 조언 부탁드립니다.
1), 2), 3) "네이버 클라우드에서 일하는 후의 답변으로 대신하겠습니다"
당장 취업에 필요한 필수 스킬은 Python + SQL + 클라우드 기본기입니다. Python으로 CSV 파일 읽어서 전처리하고 DB에 넣는 작업, SQL로 복잡한 조인과 집계 쿼리 작성하는 것, AWS EC2 인스턴스 띄워서 기본 설정하는 정도만 할 수 있어도 신입 DE로는 충분합니다.
실제 현업에서 매일 사용하는 기술은 생각보다 제한적입니다. 대부분의 DE들이 80% 시간을 Python 스크립트 작성, SQL 쿼리 튜닝, Airflow DAG 수정에 보냅니다. Spark나 Kafka 같은 고급 기술은 대규모 데이터를 다루는 회사가 아니면 실제로 쓸 일이 많지 않아요.
회사 규모별로 요구 스킬이 완전히 다릅니다. 스타트업은 Django/Flask로 간단한 데이터 API 만드는 것부터 AWS RDS 관리까지 풀스택으로 해야 하고, 대기업은 이미 구축된 Hadoop 클러스터에서 Spark 작업만 돌리면 됩니다. 본인이 어떤 회사를 목표로 하는지에 따라 학습 방향이 달라져야 해요.
4) Java/Scala인지 Python인지는 두 번째 질문에서 코딩에 대한 대답과 같습니다. 순서의 차이일 뿐입니다. 네이버 클라우드에서 일하는 후배와 나눈 이야기에서도 동일합니다. 어떤 언어를 배웠다고 크게 유리하지도 불리하지도 않다는 말입니다.
5) 우선, 알고리즘에 대한 수요는 점차 줄어들 것 같습니다. 실제로 알고리즘 센트릭-AI에서 데이터 센트릭-AI로 트렌드가 바뀌고 있는 것을 보면요. 그리고, 알고리즘 문제 해결에 초점을 둔 빅테크의 코딩 테스트도 변화가 올 것으로 보입니다. AI 때문에요. 알고리즘 쪽은 소히 1% 천재 개발자분들이 잘해주시면, 저와 같은 범인(凡夫)은 잘 가져다 쓰기에 집중할 것 같습니다. 실무에 가장 많이 쓰이는 건 '케이스 바이 케이스'이기 때문에 도움이 되진 않겠지만, 확실한 방향성이 '인공지능'인 것은 명확한 것 같습니다.
한국 대학에서도 인공지능 교수님을 모시지 못할 만큼 공급은 부족한 것 같습니다. 심지어 하나님을 가르치는 대학에서도 인공지능 학과를 만든 것을 보면요.
제가 미래를 바라볼 수 있는 능력이 있을 리 만무하지만, 새롭게 하나를 물고 늘어져보겠다고 마음먹으셨다면, 인공지능을 딥하게 파보는 것이 어떨까 싶습니다. 커리큘럼도 아직 잘 안 갖춰진 상태이기에 출발 선상에 계시다면요.
[네 번째]
DE는 결국 신입을 잘 안 뽑는다고 하셨는데, 신입으로 DE로 가기엔 비추천인지? 그리고 DE신입을 준비하는 사람에게 어떤 걸 하면 좋을지(예를 들어 프로젝트 많이 해야 한다, 인턴경험 등등..),
마지막으로, 제조업이 유망하다고 들었는데 혹여나 로드맵을 어떻게 구상하면 되는지 궁금합니다. 감사합니다!
다양한 분야와 산업의 JD를 한 번 살펴보시면, 금세 눈치채실 수 있습니다. 실제로 DE를 신입으로 채용하는 걸 저는 잘 못 봤습니다. DE 직무 자체가 백엔드의 파생으로 생긴 직무이니 먼저 백엔드를 해보셔야 하지 않을까요.
개인 시간이 많으시다면─부트캠프도 좋지만─유튜브/인프런/클래스101/퍼스트캠퍼스 온라인 강좌로, 빠르게(2배속으로) 진행해 보시는 것을 추천드립니다. 학생이셔서 혹은 취업을 준비하고 계셔서 24시간을 온전히 본인에게 쓸 수 있다면, 저는 이 방법이 가장 좋은 것 같습니다.
제조업 컨퍼런스나 학회에 가보면, DX/DT/AI로 방향이 전환되었음을 많이 느낍니다. 제조업과 데이터가 만났을 때 시너지가 날 수 있음에 저는 확신합니다. HD 현대에 근무 중인 현직자 친구와의 대화에서 답변을 드려보려고 합니다.
"확실한 타게팅이 필요한 것 같다. 예를 들어, 로봇에서도 물류 로봇, 협동 로봇, 휴머노이드 혹은 주차 로봇처럼, 명확히 지원하고자 하는 산업군에 타게팅해서, 포트폴리오를 준비하고 경험이 나열되어 있을 때, 그러니까, 'FIT'이 맞을 때, 가장 눈에 띄더라."
저는 '힘조절'이란 표현을 좋아합니다. 적은 에너지로 여러 개를 다양하게 해 보고, 이거다 싶으면 그곳에 집중하는 거죠. 물론 올바르게 힘을 썼을 때도 있고 헛발질할 때도 있었지만, 그렇다고 모든 일을 'N분의 1'할 수도 없는 노릇이니까요.
[다섯 번째]
1번 질문: 저는 현대그룹이 대한민국 최고의 로봇 기업 중 하나라고 생각합니다. 그 이유는 보스턴 다이내믹스를 인수한 데다, 현대차의 주력 제품인 자동차 또한 고도의 기계역학을 기반으로 하며, 이 기술력이 로봇 산업에도 적용될 수 있다고 보기 때문입니다.
이러한 현대그룹은 엔비디아의 로봇 생태계와 테슬라의 휴머노이드 로봇 방향성 중, 어느 쪽에 더 초점을 맞추고 있다고 보시는지 궁금합니다.
2번 질문: 강사님의 강의 중, IT 업종뿐 아니라 제조업, 농업 등 다양한 업종도 함께 소개해주셨던 점이 인상 깊었습니다. 그렇다면 이러한 IT 외 산업에 종사하시는 분들과 협업을 하기 위해, 인맥 외에 어떤 방식이나 전략이 있을지 궁금합니다.
1번 질문은 로보틱스랩 임직원 중 한 분께 물어보고 답해드립니다.
로보틱스는 양강 구도입니다. 테슬라의 휴머노이드와 Non-테슬라(엔비디아 패밀리)입니다. 테슬라는 피지컬 로봇과 AI 둘다 잘하는 유일한 기업입니다. 다른 곳의 협업이나 도움 없이 그리고 막강한 자본력을 바탕으로 치고 나가고 있습니다. 현장에서 사람을 고용해서 데이터를 수집하고 그 데이터를 로봇에게 직접 학습시킵니다. 가장 '퀄리티' 높은 학습 데이터 자체를 생성하고 있죠.
반면에, 엔비디아는 가상 디지털 환경에서 데이터를 모으고 있습니다. 그것이 엔비디아 BM(비즈니스 모델)과도 일치하죠.가상 시뮬레이션을 돌릴수록 엔비디아 GPU칩이 필요할테니까요.
둘 중에 하나를 꼽자면 현대그룹은 테슬라 부류입니다. 제조업 기반으로 현장에서 데이터를 직접 수집하고 실제로 스마트 팩토리를 지으면서 자체적으로 데이터를 생성하고 또 그 기반으로, 바로 현장(제조)에 투입되고 있으니까요.
2번 질문은 간단합니다. 만약에, 제조업을 바라보시기로 하셨다면, 이제 발로 뛰어야죠. 적어도 수도권에서 진행되는 기술 세미나, 컨퍼런스가 정말 많습니다. 친절하게도 그곳에서 발표하고 강연해 주시는 분들은 성심성의 껏 발표 자료를 준비하시고 알려주세요. 끝나고 물어보면 더욱더 친절하게 답해주십니다.
그러면 명함도 한 장 받을 수 있죠. 이것이 그 '인맥'의 시작인 것 같습니다.
온라인에서 느낄 수 없는, 오프라인에서만 느낄 수 있는 재미라면 재미이고 의미입니다.