GCP
Cloud Dataproc은 GCP에서 제공하는 관리형 스파크(Spark) 및 하둡(Hadoop) 서비스로 일괄 처리, 쿼리, 스트리밍, 머신 러닝에 오픈소스 데이터 도구를 활용할 수 있습니다.
Dataproc에 대해 본격적으로 이야기하기 전에 스파크와 하둡이 어떤 것인지 궁금하신 분들이 계실겁니다.
아파치 하둡(Apache Hadoop)은 빅데이터를 처리, 분석할 수 있는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크입니다. 아파치 하둡은 오픈소스이며 HDFS(Hadoop Distributed File System)라는 분산 파일 시스템과 맵리듀스(MapReduce)라는 데이터 처리 시스템으로 분산 프로그래밍을 수행합니다.
하둡은 단일 서버에서 수천 대의 시스템으로 확장하도록 설계되었으며 각각 로컬 계산 및 스토리지를 제공합니다. 고가용성을 제공하기 위해 하드웨어에 의존하는 대신 라이브러리 자체는 응용 프로그램 계층에서 오류를 감지하고 처리하도록 설계돼 각각 오류가 발생하기 쉬운 컴퓨터 클러스터 위에서 고가용성 서비스를 제공합니다.
HDFS에 분석할 데이터를 저장해두고 HDFS 상에서 MapReduce를 통해 데이터 처리를 하는 방식이라 이해하시면 됩니다.
HDFS 클러스터는 하나의 네임노드와, 파일 시스템을 관리하고 클라이언트의 접근을 통제하는 마스터 서버로 구성되며 클러스터의 각 노드에는 데이터노드가 하나씩 존재하고, 하나의 네임 노드가 나머지 데이터 노드를 관리하는 식입니다.
아파치 스파크(Apache Spark)는 하둡의 단점을 보완하여 나온 새로운 오픈소스 프레임워크입니다. 마찬가지로 클러스터 기반의 분산 기능을 제공하지만 하둡과 달리 메모리를 활용한다는 것이 특징입니다.
인 메모리 캐싱 기능이 생김으로써 속도가 빠르고 머신 러닝 같은 반복적인 데이터 처리에 뛰어난 성능을 보이고 있습니다. 이를 통해 데이터 실시간 스트리밍 처리가 가능해 각광받고 있죠.
스파크는 스트리밍, 일반 배치 프로세싱(Batch Processing), 스트리밍, 머신러닝 및 그래프 처리 등 범용적인 분산 클러스터 환경을 지원하고 있습니다. 따라서 스파크 하나만으로 다양한 처리를 할 수 있게 되죠.
여러 단계를 거쳐 데이터를 처리해야했던 하둡과 달리 스파크에서는 데이터 처리 관계가 한결 간결해졌습니다.
각각의 특징이 달라 보통 기업들은 하둡과 스파크를 함께 사용하는 모습을 보이고 있습니다.
하둡과 스파크에 대해 알아봤으니 이제 GCP에서 제공하는 Cloud Dataproc 서비스로 다시 돌아가 봅시다.
Cloud Dataproc은 GCP에서 제공하는 관리형 서비스이기 때문에 환경 구축을 위해 허비하던 시간 없이 몇분에서 몇 초만에 빠른 클러스터 구성이 가능합니다. 연산 처리 역시 이를 통해 빠르게 할 수 있습니다.
또한 불필요한 클러스터를 사용 중지하고 사용자가 원하는만큼 클러스터를 구성해 비용을 절감할 수 있습니다. 클러스터 배포, 로깅 같은 관리를 자동으로 지원해주기 때문에 작업과 데이터에 집중할 수 있단 장점도 있습니다.
무엇보다 CPU의 다른 서비스들과 통합할 수 있습니다. Cloud Dataproc는 Cloud Storage, Cloud Bigtable, BigQuery, Stackdriver 등 다양한 서비스와 통합되기 때문에 더 폭넓게 사용이 가능합니다.
Cloud DataProc에서 클러스터를 생성하면 자동으로 하둡 에코시스템이 생성됩니다. 하둡 에코시스템은 하둡과 관련된 프레임워크들인데요, 다양한 하둡 서비 프로젝트로 구성되어 있으며 다양한 종류의 프레임 워크를 제공하고 있습니다. Cloud DataProc에서 클러스터 생성할 시 ‘고급 옵션 – 선택적 구성 요소’를 이용하면 추가로 구성요소를 설치할 수 있습니다.
또한 클러스터를 만들 때 보안 구성을 추가하는 방법으로 Kerberos를 통해 Hadoop 보안 모드를 사용 설정할 수 있습니다. 또한 Dataproc과 함께 가장 일반적으로 사용되는 구글 클라우드만의 보안 기능으로는 기본 저장 데이터 암호화, OS 로그인, VPC 서비스 제어, 고객 관리 암호화 키(CMEK) 등이 있습니다.
이처럼 Cloud Datapro를 사용하는 데엔 역시 저렴한 비용과 빠른 스피드가 가장 큰 이유를 차지하겠죠. 그 외에도 다른 GCP 서비스와 통합이 가능해 더 풍부하고 유연하게 사용할 수 있단 것도 장점입니다. 완벽하게 완전 관리형이기 때문에 따로 설치 및 관리를 할 필요없이 개발에만 집중할 수도 있죠.
마지막으로 Cloud Dataproc은 간단하게 사용이 가능합니다. 따로 API나 새로운 툴을 배울 필요가 없습니다. 또한 Spark, Hadoop, Pig, Hive는 자주 업데이트되므로 빠르게 생산성을 높일 수 있다는 장점도 있습니다.
하이프마크에서는 기업의 웹앱로그데이터의 클라우드 적재와 ETL 파이프라인 구성 그 외 클라우드 내 데이터분석 환경 구축 및 분석 시각화 서비스를 함께 제공하고 있습니다.
AWS, GCP등 클라우드 이전 매니지드서비스 및 웹앱로그데이터 태깅 적재 관련 문의사항이 있으시면 하이프마크에 문의 주세요
감사합니다.