Spark,Kafka: 로그 실시간 분석 보드 구축하기

카프카, 스파크로 초당 1만 건 로그 실시간 분석 보드 만들기

Aug 18. 2025

오늘날의 디지털 서비스 환경에서 로그 데이터는 단순한 기록이 아닙니다. 시스템의 상태를 파악하고 장애의 원인을 신속하게 진단하며, 나아가 사용자의 행동 패턴을 분석해 비즈니스 인사이트를 얻는 핵심 자원이죠. 특히 초당 수천, 수만 건의 요청이 발생하는 대규모 서비스에서는 로그의 양이 기하급수적으로 증가합니다. 이런 방대한 데이터를 어떻게 실시간으로 수집하고 분석할 수 있을까요?

단순히 파일에 로그를 저장하는 방식으로는 실시간 분석은 불가능하며, 문제 발생 시 원인을 파악하는 데 많은 시간이 소요될 수 있습니다. 이 문제를 해결하기 위해, 이번 블로그에서는 Apache Kafka를 메시지 큐로 사용하여 대용량 로그를 안정적으로 수집하고, Spark Structured Streaming으로 데이터를 실시간 집계/분석하여, 최종적으로 Kibana 대시보드에 시각화하는 전체 아키텍처 구축 과정을 소개합니다.

이 글을 통해 실시간 데이터 파이프라인의 기본 개념과 각 기술 스택의 역할을 이해하게 될 것입니다.

1단계: 왜 실시간 로그 분석이 필요한가?

시스템을 운영하다 보면 다양한 종류의 로그가 발생합니다.

애플리케이션 로그: 사용자의 요청/응답, API 호출, 오류 등 서비스 동작에 대한 상세한 기록입니다.

시스템 로그: 서버의 CPU 사용률, 메모리 상태 등 인프라 상태를 나타내는 기록입니다.

보안 로그: 사용자 인증, 침입 시도 등 보안 관련 이벤트를 기록합니다.

대규모 분산 시스템에서는 이러한 로그의 중요성이 더욱 커집니다. 하지만 하루에 수백 GB에서 수 PB에 이르는 로그가 생성되는 환경에서는 이를 효과적으로 관리하기가 매우 어렵습니다. 실시간으로 쏟아지는 데이터를 안정적으로 수집하고, 의미 있는 정보로 가공하여 즉각적인 의사결정에 활용하기 위한 강력한 데이터 처리 파이프라인이 필수적입니다.

2단계: 데이터의 입구, Apache Kafka로 안정적인 수집 파이프라인 구축하기

초당 1만 건의 로그가 여러 서버에서 동시에 발생한다고 상상해 보세요. 이 데이터를 빠르고 안정적으로 중앙 저장소로 모으려면 어떻게 해야 할까요? 바로 이럴 때 Apache Kafka가 빛을 발합니다. Kafka는 대규모 실시간 데이터 스트리밍에 최적화된 분산 메시징 시스템으로, 데이터 파이프라인에서 중간 버퍼 역할을 합니다.

Kafka의 작동 방식

Kafka는 '생산자(Producer)'와 '소비자(Consumer)' 모델을 기반으로 동작합니다.

생산자 (Producer): 각 서버나 애플리케이션에서 생성된 로그 데이터를 Kafka로 전송하는 역할입니다.

메시지 브로커 (Broker): 생산자로부터 받은 데이터를 '토픽(Topic)'이라는 주제별 저장소에 안전하게 보관합니다. 데이터는 여러 브로커에 분산 저장되어 장애가 발생해도 데이터 유실을 방지합니다.

소비자 (Consumer): 토픽에 저장된 데이터를 가져와(pull) 실시간으로 처리하는 역할입니다. Spark Streaming이 바로 이 소비자에 해당합니다.

AD_4nXeqHZYdU9AUC2_Zu_8TFiFAHRtUsE3p4fVvBYZM4GCiNY66a9qPTut1Sj1mxOA5OPK96rmhKZM5cafjTUAdSiXpIoPEhJyk7gpp74xMc-NQa4S6HYYPko6S4AAXnV4by0uM7pHF?key=dNfaLyr6ZVwsZETLa3BB5Q

Kafka를 사용하면 데이터 처리 시스템이 갑자기 느려지거나 장애가 발생해도, 데이터가 유실되지 않고 메시지 큐에 안전하게 보관됩니다. 이 덕분에 전체 시스템의 안정성과 확장성을 크게 높일 수 있습니다.

3단계: Spark Structured Streaming으로 실시간 데이터 가공하기

Kafka에 쌓인 원본 로그 데이터는 아직 가공되지 않은 날것의 상태입니다. 이 데이터를 의미 있는 정보로 바꾸기 위해 실시간 처리 엔진이 필요합니다. 여기서는 Spark Structured Streaming을 사용합니다.

Spark Structured Streaming은 대규모 데이터 처리에 뛰어난 Apache Spark의 실시간 처리 프레임워크입니다. 가장 큰 특징은 실시간 데이터 스트림을 마치 테이블처럼 다룬다는 점입니다. 끊임없이 들어오는 데이터를 작은 단위의 배치(Micro-batch)로 묶어 처리하기 때문에, 개발자는 익숙한 SQL 쿼리나 DataFrame API를 사용해 손쉽게 실시간 분석 로직을 작성할 수 있습니다.

실시간 집계 로직 (예시)

실제 코드 작성 시, 다음과 같은 흐름으로 실시간 로그를 분석할 수 있습니다.

Kafka 소스 연결: Spark Streaming이 Kafka의 특정 토픽을 구독하도록 설정합니다.

데이터 변환: 수신한 로그 데이터(주로 JSON이나 텍스트)를 파싱하여 필요한 필드(예: 로그 레벨, 발생 시간, 메시지)를 추출합니다. 로그 형식을 JSON과 같이 표준화하면 이 과정이 훨씬 수월해집니다.

집계 연산: window 함수를 사용해 특정 시간 간격(예: 10초) 동안 발생한 로그를 그룹화하고, groupBy와 count를 이용해 로그 레벨(ERROR, WARN 등)별 발생 횟수를 집계합니다.

결과 출력 (Sink): 집계된 결과를 실시간 대시보드에 표시하기 위해 Elasticsearch와 같은 외부 저장소로 전송합니다.

이러한 과정을 통해 '최근 1분간 에러 로그 발생 추이', '서비스별 요청량' 등 의미 있는 지표를 실시간으로 계산할 수 있습니다.

★실제 운영을 위한 더 깊은 이야기

책에서는 배치 처리와 실시간 처리의 장단점, 각 상황에 맞는 기술 스택 선정 기준, 그리고 두 방식을 결합한 하이브리드 아키텍처(Lambda, Kappa) 등 더 깊이 있는 내용을 다룹니다. 특히, 대규모 데이터를 안정적으로 처리하기 위한 병렬 처리, 데이터 파티셔닝, 압축 방식 선택과 같은 배치 처리 최적화 전략은 실제 시스템 성능에 큰 영향을 미칩니다.

4단계: Elasticsearch와 Kibana로 실시간 대시보드 만들기

이제 실시간으로 분석된 데이터를 한눈에 볼 수 있는 대시보드를 만들 차례입니다. 이때 가장 강력한 조합 중 하나가 Elastic Stack(ELK Stack) 입니다.

AD_4nXehAjhWGql4eWIuKRi1C6gEZHuIcyXrvMa9TpN-LMKtmX3kNMeiiIUFMmabC9KaaT4KhsSdxIq5dpp0GHRkLWEK3m2DTFWn0goGUWn4dRIShrBpbknxqMP4rWv-uMDRgelW-YB7?key=dNfaLyr6ZVwsZETLa3BB5Q

Elastic Stack의 역할

Elasticsearch: Spark Streaming이 분석한 결과를 저장하는 분산 검색 및 분석 엔진입니다. JSON 기반의 문서를 저장하며, 대용량 데이터도 거의 실시간으로 검색하고 집계할 수 있어 시계열 데이터 분석에 최적화되어 있습니다. Spark의 출력(Sink)을 Elasticsearch로 설정하면 분석 결과가 이곳에 차곡차곡 쌓입니다.

Kibana: Elasticsearch에 저장된 데이터를 시각화하고 탐색하는 도구입니다. 사용자는 드래그 앤드 드롭 방식으로 선 그래프, 막대 차트, 파이 차트 등 다양한 시각화 요소를 만들어 대시보드를 구성할 수 있습니다.

AD_4nXcAeSleoc3Ly84GcxUfHfq3kCIKw_fOe8XJfrLeDvhBZrnZ7Q2MphtqJmMh7P_tuYljWLvDSPbSTy5ZUl52m-WGT1sRSbZw1H4po8kG-leHUaQlo-auzQO-WAMdK1PQtcJ1S3WPVQ?key=dNfaLyr6ZVwsZETLa3BB5Q

이 대시보드를 통해 운영팀은 시스템 상태를 직관적으로 모니터링하고, 장애 발생 시 원인을 신속하게 파악하여 대응할 수 있습니다.

결론: 안정성과 실시간 분석, 두 마리 토끼를 잡다

지금까지 대용량 로그 데이터를 실시간으로 수집, 분석, 시각화하는 전체 과정을 살펴보았습니다.

Apache Kafka를 통해 수많은 서버로부터 발생하는 로그를 안정적으로 수집하고,

Spark Structured Streaming을 이용해 실시간으로 데이터를 가공 및 분석하며,

Elasticsearch와 Kibana로 분석 결과를 시각화하여 즉각적인 인사이트를 얻는 파이프라인을 구축했습니다.

이 아키텍처는 확장성이 뛰어나고 장애에 강해, 데이터 기반의 빠른 의사결정이 필수적인 현대 서비스 환경에 매우 적합합니다.

물론, 실제 운영 환경에서는 더 많은 것들을 고려해야 합니다. 데이터 유실을 완벽히 방지하는 정확히 한 번 처리(Exactly-once processing) 보장, 처리량 극대화를 위한 Kafka와 Spark의 성능 튜닝, 로그 데이터를 활용한 A/B 테스트 설계 및 통계적 유의성 검증 등 전문적인 노하우가 필요합니다. 이러한 심도 깊은 내용은 책을 통해 더 자세히 학습하실 수 있습니다.

데이터는 이제 비즈니스의 핵심입니다. 오늘 소개한 실시간 분석 파이프라인을 시작으로, 여러분의 서비스에 숨겨진 가치를 찾아보시길 바랍니다.

https://wikibook.co.kr/data-ai-system/

데이터ㆍAI 시스템 아키텍트를 위한 실무 가이드: 데이터 사이언스 기초부터 장애복구와 고가용

데이터 사이언스 전문가로 도약하기 위한 모든 지식과 실무 노하우를 한 권에 담았습니다! 많은 조직이 서비스에 데이터와 AI 기술을 도입하고자 하지만, 이를 실제 운영 환경에 구현하고 안정

https://wikibook.co.kr/data-ai-system/

이 책은 데이터 사이언스의 기초 이론을 시작으로 데이터 엔지니어링, 모델 운영, 시스템 아키텍처 설계, 운영 전략에 이르는 흐름을 폭넓게 다룹니다. 로그 설계, 마이크로서비스 전환, 성능 최적화, 보안, 비용 관리 등 실무에서 자주 접하는 주제를 포함하여, 다양한 직무의 실무자가 참고할 수 있는 아키텍처 중심의 실전 해법을 제시합니다.

keyword

작가의 이전글AI 챗봇의 거짓말을 막는 기술, 리랭킹회귀 vs 분류: 머신러닝 입문자를 위한 기본 개념작가의 다음글