brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Jul 05. 2022

6탄-4. AWS와 함께 달성한 일일 5억 건 광고

04. AWS와 함께 달성한 일일 5억 건 이상의 광고 데이터 처리 노하우


<1> 회사 버즈빌

<2> 스타트업  데이터 분석 아키텍처

<3>  S3   비용 최적화 하기

<4> 셀프 서빙을 위한 팀 구성

<5> 셀프 서빙을 위해  당시  AIRFLO DAGFACTORY 패턴 구상 

<6> 개인 정리




<1> 회사 버즈빌


버즈 애드

OK캐시백, 엘포인트, CJ ONE 등 포인트 앱을 운영하는 대기업과 제휴

잠금 화면, 챗 헤드, 인앱 네이티브 애드 등  리워드 기반의 광고를 제공함.



<2> 스타트업  데이터 분석 아키텍처


1

초기 스타트업은 백엔드 엔지니어가 데브옵스, 데이터 엔지니어 역할을 함께 수행한다.


2

초기

디비에 부하를 주지 않기 위해 리드 레플리카 사용

REDash와 같은 시각화 툴 사용

SQL 기반 시각화 툴


3

데이터를 통해 인사이트를 얻어내려면 실시간 조회가 필요하다.


3

마이크로 서비스 기반으로 구축함.

광고와 콘텐츠 서비스가 분리되어 있다.

통합해 보려면 어려움.


4

레드쉬프트 사용

수 테라에서 스페타 바이트까지 확장 가능.


5

mysql에서 레드쉬프트로 데이터 동기 화법?

정합성 유지가 과제이다.



6

아테나 기반의 구성

랜딩 데이터 S3로 구성

골드 데이터 S3로 구성




<3>  S3   비용 최적화 하기


1

S3 API제한을 고려한 디렉터리 설계

S3는 초당 3500개의 PUT/COPY/POST/DELETE  제한

5500개의 GET/HEAD요청 제한이 있다.

이 제한은 버킷의 첫 번째 프리픽스 기준으로 적용이 된다.

디렉터리를 슬레쉬가 아닌 데시로 구분해 운영하는 게 좋다.


2

데이터 레이크 저장 시 주의

데이터 포맷 및 적정 파일 사이즈 사용

오브젝트 단위로  비용이 발생된다.



<4> 셀프 서빙을 위한 팀 구성


각 팀은 데이터 엔지니어링 팀과 기술 스터디 세션을 갖고

각 팀에서 스스로 작업을 진행함




<5> 셀프 서빙을 위해  당시  AIRFLO DAGFACTORY 패턴 구상 


현재는 MWAA 서비스 출시로 해당 서비스도 좋을거 같음

Airflow유저 사용법 확인




<6> 개인 정리


S3 도   API 제한 등 참고해 디렉터리 설계가 필요하다.

셀프 서빙을 위한 팀 구성이 인상적이다.




https://brunch.co.kr/@topasvga/2439


감사합니다.



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari