라이킷 10 댓글 공유 작가의 글을 SNS에 공유해보세요

You can make anything
by writing

C.S.Lewis

데이터 아키텍처, 쉽게 배워 봐요

by HEARTCOUNT팀 Mar 20. 2024
브런치 글 이미지 1

안녕하세요.

HEARTCOUNT의 Jaden입니다.


이번 글에서는 데이터 아키텍처에 대해서 다루어 보려고 합니다.

데이터 아키텍처란 무엇인지부터 데이터 아키텍처를 구성하는 개별 요소(ETL, 데이터 마트, 데이터 웨어하우스)에 대해 알아보겠습니다.



0. 데이터 아키텍처란?


- 아키텍처

    • 시스템 및 소프트웨어 산업에서는 '시스템이 어떻게 구성되며 동작하는지 원리는 나타내는 원칙'을 의미


- 데이터 아키텍처

    • 조직이 데이터를 수집, 저장, 처리 및 관리하는 방법을 설계하고 구현하는 일련의 과정 또는 체계



1. 데이터 원천: 데이터의 시작점

끊임없이 생성되는 데이터는 어디서 오는 걸까요?


- OLTP 데이터베이스

    • 우리가 온라인 쇼핑을 하거나 은행 업무를 볼 때 생성되는 트랜잭션 데이터

    • 구매 내역, 입출금 내역 등


- 기업 애플리케이션

    • 대기업부터 중소기업까지, 모든 회사에서는 ERP나 CRM 같은 시스템을 통해 데이터를 관리

    • 고객 정보, 재고, 매출 등


- 서드파티

    • 외부 제공 데이터

    • 시장 조사 데이터, 경쟁사 분석 데이터 등


- 웹/로그 데이터

    • 인터넷을 사용하면서 남기는 발자취

    • 어떤 광고를 클릭했는지, 어떤 페이지를 얼마나 오래 보았는지 등


- IoT 데이터

    • 스마트폰, 스마트TV, 냉장고, 에어컨 등의 IoT 기기에서 생성되는 데이터


데이터는 이렇게 여러 원천에서 옵니다. 데이터를 가져왔으면 쓸만한 부분을 추출하고 형태를 가공하여 사용하게 됩니다.



2. ETL: 데이터의 변신

데이터는 생성되는 그 자체로는 원하는 형태가 구조가 아닌 경우가 있습니다. 이 상태를 원시 데이터, Raw Data라고 부릅니다.

데이터를 용도에 맞게 변형시킨 후 사용하게 됩니다. 이 과정을 ETL(추출, 변환, 적재)이라고 부릅니다.


- 추출 Ectraction

    • 원천에서 데이터를 가져오는 단계

    • 필요한 데이터만 정확하게, 빠짐없이 가져오는 것이 핵심


- 변환 Transformation

    • 데이터를 필요한 형식으로 변환하는 단계

    • 불필요한 데이터를 제거

    • 여러 원천에서 가져온 데이터를 합치거나 데이터의 품질을 향상시키는 작업


- 로드 Load

    • 변환된 데이터를 데이터 웨어하우스나 데이터 레이크 같은 저장 공간에 넣는 단계



3. 웨어하우스와 레이크: 데이터의 보관소

데이터를 안전하고 효율적으로 저장하기 위한 공간을 데이터 웨어하우스(Data Warehouse)와 데이터 레이크(Data Lake)라고 부릅니다.


- 데이터 웨어하우스

    • 구조화된 데이터(Structured Data), 즉 테이블 형태의 데이터를 저장하는 곳

    • 긴 시간 동안 안정적으로 큰 규모의 데이터를 저장하고 빠르게 조회 가능하도록 설계

    • 비즈니스 질의나 보고를 위해 주로 사용


- 데이터 레이크

    • 정형 뿐만 아니라 반정형, 비정형 데이터도 저장 가능

    • 예를 들어 로그 파일이나 소셜 미디어 데이터 이미지 등 다양한 형태의 데이터를 포함

    • 큰 규모의 원시 데이터를 저장하고 필요에 따라 이를 처리하여 사용



'4. 데이터 마트'와 '5. 다양한 분야에서의 데이터 활용' 등 이어진 내용이 궁금하신가요?

HEARTCOUNT Community의 본문에서 더 자세한 내용을 확인해 보세요.


>> 본문 읽으러 가기

작가의 이전글 GA4, UA와 차이점

브런치 로그인

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari