brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Nov 13. 2023

(책후기) 데이터 엔지니어를 위한 97가지 조언

2023년 10월 출판


이 책을 읽으면 데이터 엔지니어가 버리는 시간 1년은 줄여준다.


트위터, 구글, 마이크로소프트, 링크드인 기업 전문가들이 다양하고 구체적인 문제를 극복하면서 얻은 경험과 교훈을 담았다.


길벗 출판사에서 책을 제공받아 작성된 서평입니다.




데이터 처리와 조직, 지지받는 사람, 지지 못 받는 사람, 회사생활대해서도 알려줘서 너무 놀랐다.

단순히 기술책이 아니라 회사 생활 방법까지 모두 알려준다!




내용은 많다.

쉬운 내용 몇 가지만 살펴보자~


<1> A/B 테스트 어떻게 해야 할까?

<2> 마이크로서비스 아키텍처의 숨겨진 접착제 = 데이터를 풍부히 제공하는 분석 플랫폼

<3> 인프라스트럭처를 자동화하라.

<4> 파이프라인 테스트를 자동화하라.



<1> A/B 테스트 어떻게 해야 할까?


A/B 테스트는 대상을 2가지로 만들고 비교하여 어떤 버전이 나은지 알아보는 방법이다.

아주 간단하게는 전자상거래 사이트의 바구니 위치를 우측 상단에서 우측 하단으로 옮기는 사례가 있을 수 있다.

서드파티 도구나 인하우스 설루션을 사용해 모든 결과를 검증하고 테스트 로그를 쉽게 남길 수 있어야 한다.


// A/B테스트의 기본개념과 예제, 필요한 부분을 모두 알려준다! 지식이 증가한다.



<2> 마이크로서비스 아키텍처의 숨겨진 접착제 = 데이터를 풍부히 제공하는 분석 플랫폼


1. 최근 주된 흐름은 마이크로 서비스 아키텍처로 옮겨갔다.

팀의 의존성을 줄이며 빠르게 변화하고 더 쉽게 확장할 수 있었다.

이런 변화 때문에 풀기 힘든 문제가 생겨났는데 대부분 통신 비용과 관련이 있다.

문제 해결 노력으로 주로 시스템 관측 가능성 (옵저버빌리티)와 운영 영역에서 진전을 보였다



2. 데이터가 없으면 팀들이 서로 다른 방향으로 끌려가는 악순환에 빠지고 , 하는 일은 많지만 진척이 없게 됩니다.



3. 새 프로젝트를 시작하거나 테스트를 계획할 때 어떤 메트릭을 고려해야 할까요?


기업의 상위 매트릭?

가장 움직이기 어련다. 단이 테스트나 기능에 따라 바뀌는 일이 거의 없다. 여러 번의 일이 복합적으로 내는 효과에 따라 변경될 가능성이 더 높다.


팀의 메트릭?

팀의 메트릭을 끌어올리고 싶지만 시스템의 일부라는 맥락에서 살펴보는 것이 중요하다.


더 세분화된 테스트나 메트릭?

기능을 설계할 때 일반적으로 떠올리는 메트릭입니다.

직접적이고 격리된 영향을 측정할 수 있도록 가능한 상세히 만들어야 한다.


4

마이크로서비스로 나아가려면 전사 분석 및 테스트 문화를 나중에 해결하면 되는 문제로 미루지 말자.

가장 먼저 달성해야 할 조건으로 만들어야 한다.

데이터를 풍부히 제공하는 분석 플랫폼은 시스템의 개별 요소를 연결하는 접착제가 될 수 있다.!


// 마이크로 서비스 아키텍처를 함으로써 나타난 증상과 필요한 부분에 대해 설명을 해준다.

// 분석 데이터 플랫폼을 구축하자!!!




<3> 인프라스트럭처를 자동화하라.


1. 웹 콘솔을 절대 사용하지 마세요.

테라폼이나 AWS 클라우드 포메이션등의 코드형 인프라 도구 중 하나를 고르는 편을 추천합니다.


2. 모듈을 만드세요.


3. 버전 관리 시스템을 사용해 코드를 관리하세요.

팀 단위로 일할 때 좋습니다.

풀 리퀘스트 옵션을 사용하세요.


4. 적용 전에 코드를 테스트하세요.

테라폼은 적용적 변경사항을 알려 줍니다.

검토해서 인프라 손상을 방지할 수 있습니다.


5. CI/CD파이프라인을 사용하세요.

자동화하여 작업 난이도를 크게 낮출 수 있습니다.


// 공부해야 할 부분을 알려주네요!!!  테라폼, 클라우드 포메이션, 모듈, 버전관리, CI/CD



<4> 파이프라인 테스트를 자동화하라.


1. 파이프라인 종단 간 테스트를 구축하라.

파이프라인이 수행하는 작업 자체에 공을 들이지 마라.

입력을 제공하고, 간단한 변환을 수행하고, 출력이 예상과 같은지 테스트하는 등 인프라에 집중하라.



2. 적은 양의 데이터를 사용하라.



3. 이진보다 텍스트 데이터를 선호하라.

데이터 파일을 비교할 수 있어야 테스트 실패했을 때 일어나는 일을 빠르게 파악가능하다.


4. 로컬에서 테스트를 실행할 수 있는지 확인하라.

로컬에서 하면 오류를 최대한 쉽게 디버깅이 가능하다.

테스트할 때 가급적 클라우드를 사용하지 마라.


// 실제 업무에서 알아야 할 것을 알려준다.  파이프라인이 수행하는 작업 자체에 공을 들이지 마라.

// 적은 데이트 사용, 텍스트 데이터 사용, 로컬 테스트 하라 등!!  나의 고생을 줄여주는 책이다.


이외에 다양한 경험이 있는 책이다.




<5> 개인 요약


데이터 전문가라 되고자 하거나 실무를 하시는 분은 꼭 읽어보기 바란다.

나의 시간의 아껴주고, 성과를 내게 해 준다.

내공 10년이 올라간다~



신뢰도가 높은 책.

많은 전문가들의 조언이 있는 책.




https://brunch.co.kr/@topasvga/2036



다른책 보기

https://brunch.co.kr/magazine/it-book

감사합니다.




                    

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari