안녕하세요.
HEARTCOUNT의 Jaden입니다.
이번 글에서는 데이터 아키텍처에 대해서 다루어 보려고 합니다.
데이터 아키텍처란 무엇인지부터 데이터 아키텍처를 구성하는 개별 요소(ETL, 데이터 마트, 데이터 웨어하우스)에 대해 알아보겠습니다.
- 아키텍처
• 시스템 및 소프트웨어 산업에서는 '시스템이 어떻게 구성되며 동작하는지 원리는 나타내는 원칙'을 의미
- 데이터 아키텍처
• 조직이 데이터를 수집, 저장, 처리 및 관리하는 방법을 설계하고 구현하는 일련의 과정 또는 체계
끊임없이 생성되는 데이터는 어디서 오는 걸까요?
- OLTP 데이터베이스
• 우리가 온라인 쇼핑을 하거나 은행 업무를 볼 때 생성되는 트랜잭션 데이터
• 구매 내역, 입출금 내역 등
- 기업 애플리케이션
• 대기업부터 중소기업까지, 모든 회사에서는 ERP나 CRM 같은 시스템을 통해 데이터를 관리
• 고객 정보, 재고, 매출 등
- 서드파티
• 외부 제공 데이터
• 시장 조사 데이터, 경쟁사 분석 데이터 등
- 웹/로그 데이터
• 인터넷을 사용하면서 남기는 발자취
• 어떤 광고를 클릭했는지, 어떤 페이지를 얼마나 오래 보았는지 등
- IoT 데이터
• 스마트폰, 스마트TV, 냉장고, 에어컨 등의 IoT 기기에서 생성되는 데이터
데이터는 이렇게 여러 원천에서 옵니다. 데이터를 가져왔으면 쓸만한 부분을 추출하고 형태를 가공하여 사용하게 됩니다.
데이터는 생성되는 그 자체로는 원하는 형태가 구조가 아닌 경우가 있습니다. 이 상태를 원시 데이터, Raw Data라고 부릅니다.
데이터를 용도에 맞게 변형시킨 후 사용하게 됩니다. 이 과정을 ETL(추출, 변환, 적재)이라고 부릅니다.
- 추출 Ectraction
• 원천에서 데이터를 가져오는 단계
• 필요한 데이터만 정확하게, 빠짐없이 가져오는 것이 핵심
- 변환 Transformation
• 데이터를 필요한 형식으로 변환하는 단계
• 불필요한 데이터를 제거
• 여러 원천에서 가져온 데이터를 합치거나 데이터의 품질을 향상시키는 작업
- 로드 Load
• 변환된 데이터를 데이터 웨어하우스나 데이터 레이크 같은 저장 공간에 넣는 단계
데이터를 안전하고 효율적으로 저장하기 위한 공간을 데이터 웨어하우스(Data Warehouse)와 데이터 레이크(Data Lake)라고 부릅니다.
- 데이터 웨어하우스
• 구조화된 데이터(Structured Data), 즉 테이블 형태의 데이터를 저장하는 곳
• 긴 시간 동안 안정적으로 큰 규모의 데이터를 저장하고 빠르게 조회 가능하도록 설계
• 비즈니스 질의나 보고를 위해 주로 사용
- 데이터 레이크
• 정형 뿐만 아니라 반정형, 비정형 데이터도 저장 가능
• 예를 들어 로그 파일이나 소셜 미디어 데이터 이미지 등 다양한 형태의 데이터를 포함
• 큰 규모의 원시 데이터를 저장하고 필요에 따라 이를 처리하여 사용
'4. 데이터 마트'와 '5. 다양한 분야에서의 데이터 활용' 등 이어진 내용이 궁금하신가요?
HEARTCOUNT Community의 본문에서 더 자세한 내용을 확인해 보세요.