brunch

You can make anything
by writing

C.S.Lewis

by 웅사이다 Dec 11. 2022

병목을 제거하려면 더 많은 데이터 파이프라인이 필요할까

우리가 잘못 알고 있는 데이터 관련 상식들

"데이터 엔지니어는 데이터 파이프라인을 만드는 사람이다."


대부분의 사람이 데이터 엔지니어링에 대해 인식하고 있는 것이지 않을까. 이게 정말 맞을까? 예를 들어서 한 번 생각해보자. A라는 회사가 초기에서 현재까지 다음과 같이 성장했다고 해보자. 더 큰 데이터는 반드시 더 큰 리소스로 연결이 된다. 원래는 서버 엔지니어가 스스로 데이터를 조회하고 하던 일들을 “데이터가 많아지면서” 스스로 하기가 어려워진다. 이 문제를 해결하기 위해 데이터 엔지니어를 채용한다. 그렇게 데이터 파이프라인을 데이터 엔지니어를 통해 중앙화하기 시작한다.

A 회사 초기 : 5명의 직원, 5만 명의 서비스, 1GB의 데이터

A 회사 현재 : 100명의 직원, 100만 명의 서비스, 1TB의 데이터


첫 데이터 엔지니어는 처음에는 1개의 파이프라인을 만들 것이다. 그렇게 데이터 파이프라인은 10개, 100개로 늘어간다. 기업은 데이터 파이프라인을 데이터 엔지니어에게 의존하기 시작한다. 데이터 엔지니어는 결국 더 많은 파이프라인을 혼자서 만들 수 없다는 것을 깨닫고 데이터 엔지니어를 더 채용한다. 그렇게 더 많은 엔지니어는 더 많은 데이터 파이프라인으로 이어지고 기업의 데이터 파이프라인은 점점 더 강하게 데이터 엔지니어에게 의존한다.

하지만 기업의 성장 속도가 충분히 빠르다면 데이터 엔지니어의 증가 속도는 절대 기업과 서비스의 성장 속도를 따라잡지 못한다. 게다가 점점 데이터가 각 팀의 각 엔지니어의 손을 떠나가면서 데이터를 신뢰하기 어려워진다. 데이터를 신뢰하기 위해서 중앙화 된 데이터 엔지니어들에게 데이터에 대한 질문을 많이 하게 된다. 그렇게 데이터 관련 의사소통이 모두 데이터 엔지니어에게 몰려가면서 완벽하게 데이터 병목 현상을 만들게 된다. 데이터는 점점 더 많아지고 데이터 엔지니어는 점점 더 많아지고 데이터 파이프라인도 점점 더 많아지지면 우리는 점점 더 느려지고 데이터를 더 신뢰하기 어려워진다.


사실 이 이야기는 실리콘밸리의 많은 기업들이 경험한 이야기들이다. 미국에서도 최근 몇 년간 데이터 문제를 중앙화해서 해결하려고 했던 노력들에 대해서 돌이켜보고 있다. 내가 이해한 바로는 이 흐름은 “Data mesh”라는 흐름으로 연결된다. 이제까지는 데이터를 “어딘가에 쌓이는 무엇인가”로 생각했다. 하지만 이제는 데이터를 “사용자에게 사용되는 무엇인가”로 인식하기 시작했다. 그렇게 데이터를 “프로덕트”로 생각하는 흐름이 생겨나면서 프로덕트 개발에 적용되었던 원칙들이 데이터에도 적용되기 시작했다.


다른 프로덕트처럼 데이터는 결국 데이터가 만들어내는 가치로서 평가받아야 한다. 사용자의 문제를 해결해서 가치를 만들기 위해 적절한 사용자 경험을 줘야 한다. 그렇기 때문에 데이터는 발견하기 쉽고 이해하기 쉬워야 한다. 이러한 프로덕트의 원칙들이 데이터에 적용되기 위해서는 데이터가 생성되는 과정이 변화할 필요가 있다. 


이런 흐름에서 본다면 데이터 엔지니어는 데이터를 쌓는 사람이 아니라 데이터가 생성되고 유통되는 방법을 혁신하고 관리해야 하는 사람이 되어야하지 않을까?

매거진의 이전글 더 많은 데이터에는 더 큰 가치가 있을까?

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari