brunch

You can make anything
by writing

C.S.Lewis

by 서진호 Apr 06. 2021

클라우드에서 데이터 분석을 수행하는 이유는?

데이터 분석 시리즈(1)

클라우드가 더 유연하고, 확장 가능하고, 안전하고, 분산되고, 탄력적이라는 것을 이미 알고 있을 것입니다. 그러나 클라우드 컴퓨팅이 데이터 분석과 관련이 있는 이유와 관련하여 더 많은 데이터 관련 접근 방식에 대해 이야기하고 싶습니다. 오늘 블로그에서는 디지털 전환에 있어서 클라우드가 현재 데이터 분석을 수행하는 가장 좋은 방법인 이유와 빅 데이터 워크로드를 운영하는 데 클라우드가 견고한 이유를 설명해보도록 하겠습니다.  


10년 전에 돌아가 회상하면?


클라우드에 대해 이야기하기 전에 10 년 정도의 시간을 거슬러 올라가 간단한 이야기를 들려 드리겠습니다. 시간을 거슬러 올라가면 모든 사람들이 데이터 분석을 좋아하는 이유를 이해하는 것이 당연할 것입니다. 그 당시 기업들이 빅 데이터를 포함한 컴퓨팅 인프라를 보유하는 가장 일반적인 접근 방식은 서버를 구입하여 데이터 센터에 설치하는 것이었습니다. 이것은 일반적으로 콜로케이션(collocation) 서버라고 불렀습니다. 또는 혹자는 줄여서 콜로(colo)라고 불렀습니다. 또는 애플리케이션 호스팅 서비스를 통해 직접 서버들을 관리하였습니다.  


[사진 1 - 콜로케이션 서버 호스팅]


문제는 데이터 운영에 사용되는 서버는 많은 스토리지가 필요하고 많은 전력을 소비하며 데이터 내구성에 대한 신중한 유지 관리가 필요하기 때문에 저렴하지 않다는 것입니다. 따라서 전체 인프라를 담당하는 팀들, 데이터 센터에서 일하는 인프라 분석가들과 같은 인력들도 비싸고 압도적이었습니다. 


따라서 이 시나리오에서는 대기업 만이 빅 데이터로 작업할 수 있었습니다. 결과적으로 데이터 분석은 인기가 없었습니다. 이러한 서버에는 디스크 전체에 데이터를 복제하는 RAID 스토리지 컨트롤러가 있는 것이 매우 일반적이어서 비용과 유지 관리 관리를 더욱 증가시켰습니다. 2000 년대 초, 빅 데이터 작업은 메인 프레임 및 서버 클러스터와 같은 기본 하드웨어와 밀접한 관련이 있었습니다. 이것은 하드웨어를 판매하는 업체에게는 매우 수익성이 있었지만, 비싸고 소비자에게는 유연하지 않았습니다. 


환상적인 데이터 분석 솔루션 아파치 하둡?  


그래서 소비자들은 가격이 저렴한 솔루션을 찾기 시작했는 데, 환상적인 일이 일어나기 시작했습니다. 그 환상적인 것의 이름은 바로 아파치 하둡(Apache Hadoop)이었습니다. 대부분 하둡이 하는 일은 모든 멋진 하드웨어를 운영 체제에 설치된 소프트웨어로 대체하는 것입니다. 하둡 및 컴퓨팅 프레임워크의 도움으로 데이터는 분산 시스템을 사용하여 여러 서버에 분산 및 복제될 수 있으며 빅 데이터 작업을 시작하기 위해 값 비싼 데이터 복제 하드웨어가 필요하지 않습니다.


필요한 것은 효율적인 네트워크 장비였으며 데이터는 네트워크를 통해 다른 서버로 동기화되었습니다. 하둡은 장애를 방지하는 대신 수용함으로써 하드웨어 복잡성을 줄이는 데 도움이 되었습니다. 그리고 하드웨어 복잡성을 줄이면 비용이 절감됩니다. 그리고 비용을 줄임으로써 빅 데이터를 대중화하기 시작합니다. 소규모 회사도 이를 활용하기 시작할 수 있기 때문입니다. 빅 데이터 붐이 일어났습니다. 그야말로 하둡은 가장 인기 있는 오픈 소스 빅 데이터 솔루션이 되었고 그 하나로 생태계를 이루기 시작했습니다. 


[사진 2 - 하둡 생태계]


클라우드 서비스의 등장


여기서 강조하고 싶은 것은 특정 프레임 워크 나 공급 업체가 아닌 개념입니다. 문제는 하드웨어를 기본 수준으로 설정하고 데이터 복제와 같은 모든 빅 데이터 개념을 소프트웨어에 적용함으로써 가상 머신에 스토리지와 연결된 네트워크 카드를 제공할 수 있는 공급자에서 빅 데이터 작업을 실행하는 것에 대해 생각할 수 있다는 것입니다. 클라우드를 사용하여 전체 데이터 레이크, 데이터웨어 하우징 및 데이터 분석 솔루션을 구축하는 것에 대해 생각할 수 있습니다. 그 이후로 클라우드 컴퓨팅은 그것 이하는 일이기 때문에 매력적인 대안으로 부상했습니다.


가상 머신을 확보하고 데이터 복제, 분산 파일 시스템 및 전체 빅 데이터 에코 시스템을 처리할 소프트웨어를 설치하면, 하드웨어에 많은 돈을 들이지 않고도 만족할 수 있습니다. 따라서 장점은 클라우드가 여기서 멈추지 않는다는 것입니다. 아마존 웹 서비스와 같은 많은 클라우드 제공 업체는 고객이 빅 데이터 도구 및 프레임 워크를 설치하기 위해 가상 머신을 가동했습니다. 


데이터 분석을 할 수 있는 관리형 서비스


그리고 이를 바탕으로 아마존은 이미 설치, 구성 및 사용할 준비가 된 모든 제품을 제공하기 시작했습니다. 그렇기 때문에 Amazon EMR, Amazon S3, Amazon RDS, Amazon Athena 등의 AWS 서비스가 있습니다. 이를 관리형 서비스(managed service)라고 부르는 데, 모두 데이터 범위에서 작동하는 AWS 서비스입니다. 이제 기본적인 데이터 분석 솔루션을 구축할 수 서비스가 존재하므로 그것들을 비즈니스 요구사항에 맞게 구축하면 됩니다.  


클라우드에서 데이터 분석을 실행하는 또 다른 큰 장점은 더 이상 필요하지 않을 때 인프라 리소스에 대한 지불을 중단할 수 있다는 것입니다. 이는 빅 데이터 작업의 특성으로 인해 가끔 보고서를 실행해야 할 수 있기 때문에 데이터 분석에서 매우 일반적입니다. 서버 또는 서비스를 가동하고, 사용하고, 필요한 보고서를 가져오고, 저장하고, 모든 것을 끄면 클라우드에서 쉽게 수행할 수 있습니다. 


또한 일시적으로 더 많은 서버를 회전시켜 작업 속도를 높이고 완료되면 끌 수 있습니다. 그리고 대부분 필요한 시간과 리소스에 대해 비용을 지불하기 때문에 1 시간 동안 실행되는 10대의 서버는 10 시간 동안 실행되는 1대의 서버와 동일한 가격을 갖는 경향이 있습니다. 기본적으로 클라우드를 사용하면 데이터 센터 운영과 관련된 모든 부담을 걱정할 필요 없이 하드웨어에 액세스 할 수 있습니다. 


바로 이러한 장점 때문에 클라우드에서 데이터 분석을 수행하는 이유입니다. 참고로 AWS와 같은 경우에는 Amazon S3, CloudTrail, Amazon Athena 및 QuickSight를 사용하여 기술적인 데이터 분석 설루션에 할 수 있습니다. 구글 클라우드에서는 BigQuery, DataProc, DataFlow 및 DataStorage를 통해 데이터 레이크 현대화부터 스트림 분석, 비즈니스 인텔리젼스까지 분석할 수 있도록 솔루션을 제공하고 있습니다.  

매거진의 이전글 산업 지형의 전환
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari