data lake가 무엇인지, 장단점, 아키텍처, 관련 정보 등
1. 관련 프로젝트를 진행해야해서 사내 컨플루언스에 공유차 작성했던 내용.
2. 공개 못하는 내용들은 제외했어서 보기에 매끄럽진 않음.
3. 컨플루언스에서 브런치로 옮기는데 불렛들이 다 깨져서 ^^;;; 옮기는데 애먹음.
aws에서 data lake를 어떻게 구성할 수 있을지 조사합니다.
data lake가 무엇인지 정리하고 공유합니다.
data lake가 어떤 장단점이 있는지 알아봅니다.
data lake?
- https://digitalbourgeois.tistory.com/72
가공되지 않은 다양한 종류의 데이터를 한 곳에 모아둔 저장소의 집합
기존 DW(data warehouse)의 단점을 극복하기 위해서 나옴, DW는 억지로 대용량의, 다양한 형태의 데이터를 통합해 단일형식으로 만들어야했음.
- https://www.slideshare.net/awskorea/aws-228813856?next_slideshow=1
- https://www.slideshare.net/awskorea/building-your-data-lake-on-aws
컴퓨팅과 스토리지의 분리
데이터의 신속한 수집 및 변형
안전한 멀티-테넌시
데이터 읽기 수행시 스키마 적용
모든 유형의 데이터를 모든 규모로 낮은 비용으로 신속하게 수집, 저장
하나의 데이터 원천에서 관련 데이터를 신속하게 검색
aws의 다른 서비스들을 통해 데이터를 쉽게 활용
aws glue
- https://www.slideshare.net/awskorea/aws-glue-112394474
- ETL 서비스
(aws) athena vs (gcp) big query
- https://americanopeople.tistory.com/131
차이 https://logz.io/blog/bigquery-vs-athena/
athena는 로그를 별도의 경로로 퍼올리지 않아도 됨
athena에서 테이블 스키마를 만들 때 s3 경로를 추가해주기만 하면 됨
big query는 로그를 별도의 경로로 퍼올려줘야함 bigquery는 가상의 테이블을 만들 수 있음, athena보다 성능이 조금 좋다고, UDF(사용자 정의 함수)도 만들 수 있다.
athena는 로그가 남는 s3폴더 경로를잘 정의해놓으면, 파티셔닝 하기 편함.
data pipeline, data lake
추가 참고자료(훑어보시면 좋을)
AWS Glue를 이용한 파티션 데이터 처리 : https://aws.amazon.com/ko/blogs/korea/work-with-partitioned-data-in-aws-glue/
AWS EMR : https://aws.amazon.com/ko/emr/
AWS EMR 아키텍쳐 개요 : https://docs.aws.amazon.com/ko_kr/emr/latest/ManagementGuide/emr-overview-arch.html data lake
아키텍쳐 살펴보기 : https://www.slideshare.net/awskorea/aws-228813856?next_slideshow=1
data lake 실습자료 : https://analytics-data-seung.s3-us-west-2.amazonaws.com/document/Data+Analytics+and+Transform.pdf