brunch

You can make anything
by writing

C.S.Lewis

by 무명 Feb 27. 2020

Data Lake 리서치내용 공유

data lake가 무엇인지, 장단점, 아키텍처, 관련 정보 등

1. 관련 프로젝트를 진행해야해서 사내 컨플루언스에 공유차 작성했던 내용.

2. 공개 못하는 내용들은 제외했어서 보기에 매끄럽진 않음. 

3. 컨플루언스에서 브런치로 옮기는데 불렛들이 다 깨져서 ^^;;; 옮기는데 애먹음.


목적  

    aws에서 data lake를 어떻게 구성할 수 있을지 조사합니다.  

    data lake가 무엇인지 정리하고 공유합니다.   

    data lake가 어떤 장단점이 있는지 알아봅니다.


내용  

data lake? 

-  https://digitalbourgeois.tistory.com/72 

가공되지 않은 다양한 종류의 데이터를 한 곳에 모아둔 저장소의 집합

기존 DW(data warehouse)의 단점을 극복하기 위해서 나옴, DW는 억지로 대용량의, 다양한 형태의 데이터를 통합해 단일형식으로 만들어야했음.


https://www.slideshare.net/awskorea/aws-228813856?next_slideshow=1


https://www.slideshare.net/awskorea/building-your-data-lake-on-aws

    컴퓨팅과 스토리지의 분리  

    데이터의 신속한 수집 및 변형  

    안전한 멀티-테넌시  

    데이터 읽기 수행시 스키마 적용  

    모든 유형의 데이터를 모든 규모로 낮은 비용으로 신속하게 수집, 저장  

    하나의 데이터 원천에서 관련 데이터를 신속하게 검색  

    aws의 다른 서비스들을 통해 데이터를 쉽게 활용  


aws glue

https://www.slideshare.net/awskorea/aws-glue-112394474

- ETL 서비스          


(aws) athena vs (gcp) big query

https://americanopeople.tistory.com/131

차이 https://logz.io/blog/bigquery-vs-athena/

athena는 로그를 별도의 경로로 퍼올리지 않아도 됨

athena에서 테이블 스키마를 만들 때 s3 경로를 추가해주기만 하면 됨

big query는 로그를 별도의 경로로 퍼올려줘야함                                bigquery는 가상의 테이블을 만들 수 있음, athena보다 성능이 조금 좋다고, UDF(사용자 정의 함수)도 만들 수 있다.

athena는 로그가 남는 s3폴더 경로를잘 정의해놓으면, 파티셔닝 하기 편함.                               


data pipeline, data lake

https://www.slideshare.net/charsyam2/data-pipeline-and-data-lake?fbclid=IwAR0S9jaTOSt44Y77vTDZei5T1XPe4G0p2QgRqf-JvB61LY5IE222afQCJHA


추가 참고자료(훑어보시면 좋을)

 AWS Glue를 이용한 파티션 데이터 처리 : https://aws.amazon.com/ko/blogs/korea/work-with-partitioned-data-in-aws-glue/ 

 AWS EMR : https://aws.amazon.com/ko/emr/ 

 AWS EMR 아키텍쳐 개요 : https://docs.aws.amazon.com/ko_kr/emr/latest/ManagementGuide/emr-overview-arch.html                    data lake 

아키텍쳐 살펴보기 : https://www.slideshare.net/awskorea/aws-228813856?next_slideshow=1

                    data lake 실습자료 : https://analytics-data-seung.s3-us-west-2.amazonaws.com/document/Data+Analytics+and+Transform.pdf            


매거진의 이전글 위키 이미지 받아오는 api 만들기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari