Data Lake 리서치내용 공유

data lake가 무엇인지, 장단점, 아키텍처, 관련 정보 등

by 무명

Feb 27. 2020

1. 관련 프로젝트를 진행해야해서 사내 컨플루언스에 공유차 작성했던 내용.

2. 공개 못하는 내용들은 제외했어서 보기에 매끄럽진 않음.

3. 컨플루언스에서 브런치로 옮기는데 불렛들이 다 깨져서 ^^;;; 옮기는데 애먹음.

목적

aws에서 data lake를 어떻게 구성할 수 있을지 조사합니다.

data lake가 무엇인지 정리하고 공유합니다.

data lake가 어떤 장단점이 있는지 알아봅니다.

내용

data lake?

- https://digitalbourgeois.tistory.com/72

가공되지 않은 다양한 종류의 데이터를 한 곳에 모아둔 저장소의 집합

기존 DW(data warehouse)의 단점을 극복하기 위해서 나옴, DW는 억지로 대용량의, 다양한 형태의 데이터를 통합해 단일형식으로 만들어야했음.

- https://www.slideshare.net/awskorea/aws-228813856?next_slideshow=1

- https://www.slideshare.net/awskorea/building-your-data-lake-on-aws

민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS

기업들은 데이터로부터 insight를 얻기 위해서 부단한 노력을 하고 있습니다. 이를 위해 조직의 데이터를 한 곳에 모아서 보관하는 Data Lake의 구축은 데이터 분석을 위한 중심으로 자리잡고 있습니다. 본 세션에서는 AWS에서 S3를 활용하여 민첩하고 비용효율적인 Data Lak…

https://www.slideshare.net/awskorea/building-your-data-lake-on-aws

컴퓨팅과 스토리지의 분리