가르기와 모으기(맵리듀스)

빅데이터를 처리하는 방법

by Ralph

대학원을 다니며 잠시나마 빅데이터에 대해서 배운 적이 있었다. 전문적인 기술들은 가볍게 듣고 흘렸지만 아직까지도 머릿속에 남아있는 하나의 개념이 있는데 그것은 바로 빅데이터 처리 방법이다. 빅데이터라 함은 쉽게 말해 하나의 컴퓨터로 연산이 불가능한 수준의 데이터라고 한다. 그렇다면 팀장에 해야 하는 모든 업무는 너무나도 빅데이터 처리 방식과 동일하다는 생각이 든다. 팀장은 담당팀의 업무를 분류하고 할당하고 수행하고 결과를 조합한다. 빅데이터와 동일하게..


업무 할당(가르기) - 취합 - 통합(모으기)의 과정은 빅데이터 처리 알고리즘과 정확히 일치한다.



맵리듀스(MapReduce)

업무 분할과 통합이 주요 기능으로 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 2004년 발표한 소프트웨어 프레임워크다.

- 분할한다.(Map) : 복잡하고 거대한 프로젝트를 팀원들의 역량에 맞춰 잘게 쪼개어 배분하는 단계입니다. 단순히 일을 던지는 것이 아니라, 팀원의 역량뿐 아니라 개인 의지와 환경까지 고려하여 적절히 분배하는 것이 핵심이다.

- 통합한다.(Reduce) : 각각의 산출물을 하나의 결과로 통합하는 것이다. 때로는 개별 처리가 가능한

업무도 있겠지만 대부분의 업무들은 전체 맥락에 녹여 넣어 최종 결과물을 만들어 낸다.


추가로 람다 아키텍처(Lambda Architecture)라는 것도 있는데,

정확성과 신속성 그리고 확정성을 모두 획득하기 위해서 '정확해야 하는 일'과 '빨리 처리해야 하는 일'을 구분하여 시스템을 운영한다.

- 배치 레이어(Batch Layer): 긴 호흡으로 완벽한 전략을 짜야하는 프로젝트(정확성 중심).

- 스피드 레이어(Speed Layer): 실시간 이슈 대응이나 고객 피드백 처리(속도 중심).


마지막으로 데이터 거버넌스(Data Governance)가 있다.

작업 표준화와 신뢰를 위해 조직의 데이터를 안전하고 정확하며 일관되게 관리하기 위한 정책, 프로세스, 표준 및 기술을 정의하고 실행하는 체계다. 팀 내 업무의 일관성과 완성도를 높이기 위해서 팀장은 일종의 작업 표준을 만드는 것이다. 문서 작성, 업무 보고, 고객 소통 등. 누가 하더라도 믿을만한 품질의 결과물이 나올 수 있도록...


위 3가지를 사용하여 우리는 회사에서 가르기모으기 전문가가 될 수 있다.

작가의 이전글위기관리