brunch

You can make anything
by writing

C.S.Lewis

by Su Feb 28. 2024

데이터과학자를 위한 데브옵스

들어가기에 앞서


주피터 노트북, 파이토치, 각종 최신 머신러닝, 딥러닝 라이브러리들, Kaggle...


CLI, 리눅스 명령어, CI/CD, Clean Code 원칙, Git, 깃허브, 버전 관리




만약 데이터 과학자인 당신이 

전자의 단어들은 친숙하고 자신 있지만 후자의 단어들에 묘한 거부감과 낯섦을 느끼고 계신다면,

실제 프로덕션 환경에서 데이터 및 머신러닝 모델을 성공적으로 배포하는 것에 관심이 있으시다면, 

그렇지만 어디서부터 시작해야 할지 막막하고 까만 터미널 창과 각종 에러들에 부담감을 느끼신다면..



이 브런치북이 지적 호기심 많은 여러분께 조금의 도움이 될지도 모르겠습니다. 실제로 Research-Oriented 데이터 과학자에서 Production-Oriented 데이터 과학자로 방향성을 전환하면서 과거에 제가 궁금했던 부분, 가려웠지만 컴퓨터공학을 전공한 다른 엔지니어분들께 쉽게 여쭤보지는 못했던 부분들, 아쉬움과 막막함을 느꼈던 부분들을 스스로에게 설명한다는 마음가짐으로 천천히 풀어볼까 합니다. 단순한 정적 데이터의 연구를 넘어 비즈니스의 Production 환경에서 데이터 및 모델을 배포하는 데 필요한 소프트웨어 공학 기초를 컴퓨터 공학 비전공자의 시선에서 쉽고 이해하기 쉽도록 설명드리겠습니다. 감사합니다!



Development 환경과 Production 환경의 차이점이 무엇인지

데브옵스란 무엇인지

Clean Code 원칙이란 무엇인지

Git, Github 기초

리눅스 명령어 기초

대규모 시스템 개발을 위한 모듈화 되고 효율적인 파이썬 코드

AWS와 같은 클라우드 기반 환경에 머신 러닝 모델을 배포하기 위한 파이썬 코드 및 프로세스

업데이트된 데이터 버전 관리

CI/CD 파이프라인 내에서 자동화된 데이터 워크플로우 만들기

주기적인 데이터 업데이트 반영

자동적으로 모델을 재훈련하고 배포할 수 있는 multi-step 파이프라인 생성

모델의 온라인 성능 모니터링


작가의 이전글 생각 빼기 연습
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari