brunch

You can make anything
by writing

C.S.Lewis

by HEARTCOUNT팀 Mar 20. 2024

데이터 아키텍처, 쉽게 배워 봐요

안녕하세요.

HEARTCOUNT의 Jaden입니다.


이번 글에서는 데이터 아키텍처에 대해서 다루어 보려고 합니다.

데이터 아키텍처란 무엇인지부터 데이터 아키텍처를 구성하는 개별 요소(ETL, 데이터 마트, 데이터 웨어하우스)에 대해 알아보겠습니다.



0. 데이터 아키텍처란?


- 아키텍처

    • 시스템 및 소프트웨어 산업에서는 '시스템이 어떻게 구성되며 동작하는지 원리는 나타내는 원칙'을 의미


- 데이터 아키텍처

    • 조직이 데이터를 수집, 저장, 처리 및 관리하는 방법을 설계하고 구현하는 일련의 과정 또는 체계



1. 데이터 원천: 데이터의 시작점

끊임없이 생성되는 데이터는 어디서 오는 걸까요?


- OLTP 데이터베이스

    • 우리가 온라인 쇼핑을 하거나 은행 업무를 볼 때 생성되는 트랜잭션 데이터

    • 구매 내역, 입출금 내역 등


- 기업 애플리케이션

    • 대기업부터 중소기업까지, 모든 회사에서는 ERP나 CRM 같은 시스템을 통해 데이터를 관리

    • 고객 정보, 재고, 매출 등


- 서드파티

    • 외부 제공 데이터

    • 시장 조사 데이터, 경쟁사 분석 데이터 등


- 웹/로그 데이터

    • 인터넷을 사용하면서 남기는 발자취

    • 어떤 광고를 클릭했는지, 어떤 페이지를 얼마나 오래 보았는지 등


- IoT 데이터

    • 스마트폰, 스마트TV, 냉장고, 에어컨 등의 IoT 기기에서 생성되는 데이터


데이터는 이렇게 여러 원천에서 옵니다. 데이터를 가져왔으면 쓸만한 부분을 추출하고 형태를 가공하여 사용하게 됩니다.



2. ETL: 데이터의 변신

데이터는 생성되는 그 자체로는 원하는 형태가 구조가 아닌 경우가 있습니다. 이 상태를 원시 데이터, Raw Data라고 부릅니다.

데이터를 용도에 맞게 변형시킨 후 사용하게 됩니다. 이 과정을 ETL(추출, 변환, 적재)이라고 부릅니다.


- 추출 Ectraction

    • 원천에서 데이터를 가져오는 단계

    • 필요한 데이터만 정확하게, 빠짐없이 가져오는 것이 핵심


- 변환 Transformation

    • 데이터를 필요한 형식으로 변환하는 단계

    • 불필요한 데이터를 제거

    • 여러 원천에서 가져온 데이터를 합치거나 데이터의 품질을 향상시키는 작업


- 로드 Load

    • 변환된 데이터를 데이터 웨어하우스나 데이터 레이크 같은 저장 공간에 넣는 단계



3. 웨어하우스와 레이크: 데이터의 보관소

데이터를 안전하고 효율적으로 저장하기 위한 공간을 데이터 웨어하우스(Data Warehouse)와 데이터 레이크(Data Lake)라고 부릅니다.


- 데이터 웨어하우스

    • 구조화된 데이터(Structured Data), 즉 테이블 형태의 데이터를 저장하는 곳

    • 긴 시간 동안 안정적으로 큰 규모의 데이터를 저장하고 빠르게 조회 가능하도록 설계

    • 비즈니스 질의나 보고를 위해 주로 사용


- 데이터 레이크

    • 정형 뿐만 아니라 반정형, 비정형 데이터도 저장 가능

    • 예를 들어 로그 파일이나 소셜 미디어 데이터 이미지 등 다양한 형태의 데이터를 포함

    • 큰 규모의 원시 데이터를 저장하고 필요에 따라 이를 처리하여 사용



'4. 데이터 마트'와 '5. 다양한 분야에서의 데이터 활용' 등 이어진 내용이 궁금하신가요?

HEARTCOUNT Community의 본문에서 더 자세한 내용을 확인해 보세요.


>> 본문 읽으러 가기

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari