노란코끼리가 이런 사고를 칠 줄 누가 알았을까 전해라~

Jan 28. 2016

하둡 Hadoop. 만든 사람의 아들이 들고 다니던 노란코끼리 인형을 하둡하둡하둡 하면서 부르길래 그냥 그렇게 지었다고. 그래서 온통 하둡 생태계는 코드명이나 혹은 정말 프로젝트 이름이 동물들부터 사육사까지 장난이 아닌 동네가 되어버렸다.

이 요상한 게 등장한 지 10년이 되었다고 한다.

심재석 바이라인네크워크 기자가 어제 쓴 글을 읽으면 쏙쏙 들어올거다.

하둡 10년, 빅데이터의 역사을 이끌다

하둡이 세상에 나온 지 정확히 10년이 됐다. 하둡은 지난 2006년 1월 28일에 공식적으로 세상…

http://byline.network/2016/01/27/1-47/

하둡은 구글이 서비스를 위해 만들어서 사용하던 구글파일시스템(GFS)과 빅테이블 관련 논문(2003년 10월)을 보고 더그 커팅과 마이크 캐퍼렐라(Mike Cafarella)이 만들었다. 2004년이죠. 그 후 2006년 야후에 합류해 야후 인프라를 구글처럼 바꿉니다. 이후 더그 커팅은 클라우데라로 이직하고 야후에서 이 인프라를 만들던 팀이 나와 호튼웍스를 창업했습니다.

Welcome to Apache™ Hadoop®!

The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed comput

http://hadoop.apache.org/

위키피디아를 참고해도 좋다.

Apache Hadoop - Wikipedia, the free encyclopedia

Apache Hadoop is an open-source software framework written in Java for distributed storage and distr

https://en.wikipedia.org/wiki/Apache_Hadoop

파일 시스템은 간단히 말하면 읽고 쓰고 지우고 복사하고 붙이는 그런 것들을 정의하는 내용이라고 생각하면 된다. 구글은 오픈소스로 깐 게 아니라 2003년에 우린 이렇게 쓴다고 논문을 공개했고 그걸 보고 오픈소스 진영과 기존 지적재산권을 소유하던 기업들이 모두 만들면서 세상 전체를 바꿔버리고 있다. 후자의 경우에는 DW 전세계 1위 업체인 테라데이터가 인수한 에스터데이터(Aster)가 대표적이야.

구글 파일 시스템 - 위키백과, 우리 모두의 백과사전

구글 파일 시스템(Google File System, GFS 또는 GoogleFS)은 구글에 의해 자기 회사 사용 목적으로 개발된 분산 파일 시스템이다.[1] 일반 상용 하드웨어를

https://ko.wikipedia.org/wiki/%EA%B5%AC%EA%B8%80_%ED%8C%8C%EC%9D%BC_%EC%8B%9C%EC%8A%A4%ED%85%9C

네이버도 이런 자체적인 분산 파일 시스템을 가지고 있다. OWFS.

NHN이 지난 2006년부터 KAIST 전산학과 김진수 교수 연구팀과 공동으로 개발해 온 OwFS(Owner based File System).

[출처] [개발,기술] 사용자를 위한 보이지 않는 노력 ‘대용량 분산 파일시스템’|작성자 네이버 다이어리

http://naver_diary.blog.me/150045392696

양념으로 블로터닷넷에 일할 때 이 owfs 를 이용해서 N드라이브를 만든 분들 인터뷰를 했었는데. 여기 투척. 아래 링크는 개인 블로그. ^.^

N드라이브 개발팀을 만나다…”다양한 추가 기능 기대하세요” : 도안구

“연내에 몇가지 기능이 업그레이드 될 예정입니다. 기대하셔도 좋아요.” NHN의 개인화웹(PWE)의 핵심 인프라 역할을 하는 N드라이브(http://ndrive.naver.com)

http://eyeball.techsuda.com/archives/2598

뭐 항간엔 독자 파일 시스템을 계속 가져갈지 아니면 오픈소스 진영에서 꾸준히 발전하고 있는 것들을 가져갈지 고민을 한다는 풍문이 들리기도. Ceph, GlusterFS, 아니면 정말 하둡진영거 가져다 써도 무방하겠지만.

갓길로 마구 새어 버렸다.

구글이 논문을 2003년에 내놨으면 도대체 언제부터 사용하고 있었다는 걸까. 논문을 내 놓고.. 어이 친구들 나 이런거 만들어 놓고 서비스해라고 기술력 졸라 자랑하고. 으쓱으쓱. 거기에 뒤질세라 논문 보고 아.. 이 이 녀석들이 이런 구조로 만들어서 서비스하고 있었단 말이구나 라면서 개발자들이 만들어서 소스를 전세계에 공개. 얘들아 같이 한번 만들어 보자~~~

여기서 꼭 좀 기억해야 할 게 이걸 만든 진영은 인터넷 서비스 업체들. 전통적인 기업들이 사용하던 방식과는 전혀 다른구조. 분산형이라는 거 자체가 가난하지만 사용자는 엄청나게 많으니 좋은 장비로 때려박았다간 서비스 원가가 너무 높아져 서비스 자체를 못하니 값싼 x86들을 최대한 묶어서 활용. 분산&병렬 컴퓨팅의 위력. 데이터는 값싼 장비에 3벌식 복제해서 저장. 그러니까 여기는 고장이 나는 걸 염두에 두고 설계하는 거지. 은행권이나 제조업들이 다운되면 절대 안돼 안돼 하는 형태로 시스템 아키텍처를 설계하는 거랑 완전 다르지.

그래서 우리나라 대기업들이 이런 기술을 절대 받아들이지 못하게 되었던 거야. 그렇게 똑똑했던 사람들이 자신들이 했던 경험에만 국한시키거나 세상 변화에 대응하지 못하기는 마찬가지인 외산 벤더들에게서만 정보를 얻고 있으니. 다른 걸 '틀렸다'고 이야기하고 말도 안된다고 배척.

정말 너무 엉뚱한 방향으로 가는데.

내가 이 글을 시작한 건 이걸 쓰기 위해서가 아니었는데. 막상 쓰고 보니 저 위에 것들을 다 날릴수도 없고. 아직 시작도 못했는데..

실은 갠적으로는 아주 운이 좋게 클라우드라던가 빅데이터 분야에서 좋은 이들을 빨리 만나서 배움의 기회가 좀 빨랐던 거 같다.

온라인 백업 관련해서는 지금 아카마이에서 근무하고 있는 김형준 (문제적 그 김모씨 말고) 덕분에 흐름과 시장을 파악할 수 있었다. KTH에서 기업 대상으로 제공하던 그 온라인 백업 서비스는 더존으로 이어졌다. 그러고 보면 KT는 정말 정신 나간 회사가 맞는 거 같다. KTH에서 인터넷 관련 서비스들을 죄다 오픈했는데도 결코 이걸 가져다가 확산을 안하고 뭉개고 지네가 다시하느라 돈 버리고 시간 버리고. 그렇다고 시장 장악도 못했다.

자회사들이 만들 걸 자기네는 포장해서 딜리버리를 하면 누이좋고 매부좋은데 그냥 온리 '갑'의 인식을 버리지 못한다. 그러니 뭐하나 제대로 하는 게 없지. ㅠ.ㅠ 여튼 그 김형준에게 이 자리를 빌어 다시 한번 감사 인사를. 카이스트 출신이 홍보까지 하고 정말 너무 재능이 많은 귀한 사람이다.

스토리지 분야 담당하면서 기기보다는 소프트웨어 위주로 취재를 하다보니 파일 시스템이 중요하다고 해서 당시 파일 시스템 만들던 분들도 만나고 다니고 그러면서 한국EMC 허주 이사에게서 온라인백업 구조와 소프트웨어들의 역할들을 배우면서 기반을 좀 다졌던 게 정말 큰 힘이 되었지. 상감청자님을 빼놓을 수 없지. 국내 유일무이한 스토리지 블로거. 그 공력은 정말 이루 말할 수 없어.

업계 동향과 기술적인 흐름, 전체적인 시각을 가지고 싶다면 이 분을 만나야해. 난 가끔 만나 술을 하지.

Storage Story ::

클라우드를 거스를 수 있는가 하는 것은 적어도 지금 시점에서 ‘그럴 수 없다’가 정답인 듯 합니다. 현재 많은 제품과 서비스들이 ‘제품과 서비스를 위한 클라우드’로 모이고 생산자와

http://www.storagestory.com/

그리고 결정적으로 두 분을 만나면서.

어제 보니 투자를 받았다고 올려놨던데 한재선 퓨쳐플레이 CTO & 테크 파트너, (넥스알이라는 회사의 대표였고 플랫폼데이 라는 하둡 관련 커뮤니티 활동을 하던 분. 당시 받았던 사진 그대로..ㅋㅋㅋ)

한재선 박사

2009년 5월 14일자 기사니까 여튼 5월에 만났었고.

한재선 넥스알 사장, “6월 국내 첫 클라우드 서비스 기대하세요” : 도안구

클라우드 컴퓨팅 관련한 많은 논의가 진행되고 있는 가운데 하둡(Hadoop) 관련 플랫폼 전문 회사인 넥스알(www.nexr.co.kr) 한재선 사장이 새로운 도전에 나선다. 정식

http://eyeball.techsuda.com/archives/6033

하둡에 대해서 더 알고 싶다고 추천을 부탁했더니 빅데이터 플랫폼 이슈메이커인 그루터 권영길 대표를 소개해주었지. 이 양반 한국에 가장 먼저 하둡 설치한 인물일거야. 그리고 한국마이크로소프트는 전혀 모르겠지만 당시 첫 하둡은 윈도우 서버가 돌던 장비에 설치되었었다는군. 지금이라도 달려가서 아마존웹서비스에도 올리고 이노그리드에도 올리는데 왜 마이크로소프트 애저에는 안 올리냐고 해봐. 근데 뭐 알기나 하겠어?

권영길 그루터 대표. 정말 시크한데..ㅋㅋㅋ

[오픈소스를말한다]⑮권영길 그루터 사장, “클라우드 기반 검색 도전” : 도안구

클라우드 컴퓨팅(Cloud Computing)에 대한 관심사가 높지만 이를 가능케 하는 기술들이 등장한 것은 최근 3-4년 전의 일이다. 구글이 자사의 분산 파일 시스템인 GFS(

http://eyeball.techsuda.com/archives/1935

이 회사는 또 타조라는 걸 하는데.. 이거 이야기하자면 정말 끝이 없지. ^.^

Tajo - A Big Data Warehouse System on Hadoop -

Apache Tajo,SQL-on-Hadoop,big data warehouse system on Hadoop,relational and distributed query engin

http://tajo.apache.org/

저 양반들 덕에 여기까지 왔다고 좀 길게 써보려고 했더니 너무 늦어버렸다. 그냥 땡이다.

아 그래도 이렇게 길게 쓴 글을 읽어 줄 친구들이 분명히 있을테니. 저 하둡 진영은 거대한 생태계야. 아마존 밀림 숲이라고 보면 돼. 근데 많은 오픈소스로 이뤄져 있어서 어떤 걸 선택하는 게 정답이라는 게 없어. 초기 버전들도 계속 진화하고 있고 또 어느 날 하늘에서 뚝 떨어지는 제품도 있어. 그러니 자신에게 맞게 잘 조합하는 게 필요하지.

최근 흐름들을 보면 관리를 좀더 편하게 하면서 배치 업무 - 그러니까 좀 천천히 처리해도 되는 것들 - 위주로 HDD에 저장되어 돌다가 대시보드와 연동되는 형태로 메모리를 살짝 쓰는 용도로 나가면서 동시에 SQL을 사용하던 이들이 그냥 별도로 새롭게 배우지 않고도 대규모 데이터를 다룰 수 있도록 'SQL on Hadoop' 로 나아가고 있어. 그런데 이게 다가 아니고..

하둡은 초기엔 HDD를 논리적으로 하나로 묶어서 거대한 저장소 하나로 보는 거야. 근데 이제 전세계에서 '메모리'를 거대한 덩어리 하나로 보려고 하고 이걸 누가 먼저 만들어 내냐의 싸움이 치열하게 전개될거야. 여기에는 삼성전자나 SK하이닉스, 마이크론, 도시바 등등 중국회사들도 관심이 엄청 많아. 그러면 정말 메모리만 이빠이 고객이 원하는대로 팍팍 박아서 제공해줄 수 있게 되는 거지. 삼성전자가 빅데이터 관련 아키텍처와 장비를 공급할 수 있게 될 지도 모른다는 거지. 근데 상층부가 이게 얼마나 가치 있는 지 알라나 모르겠어.

요 소식은 이미 공개적으로 다 알려져 있지만 이상하게 다들 조용하더라고. 아주 신기한 일이지.

"삼성전자 차세대 빅데이터 머신 아키텍처 공개"라고 헤드라인을 달아서 써줘야 그 때서야 와 하고 달려들거 같애. 근데 그건 정말 담에 해야겠어.

여튼.. 하둡이 짱이라고 했던 말이 사실이 되어 정말 기분이 좋고, 멋도 모르고 아직도 하둡이 다가 아니다라고 떠드는 이들이 있는 건 정말 슬픈 일이지. 용도가 다르고 데이터 성격이 다른 걸 이해하고 '다름'을 보면 무척 쉬운데 무조건 '아니다, 틀렸다'고만 하니. 클라우드, 모바일, 소셜, 빅데이터로 대변되는 거대한 기반 기술에 대해 좀 여유 있는 접근이 필요하고 끈기가 필요하지.

처음엔 왜 하둡인지도 노랑코끼리가 등장하는지도 몰랐었는데 이제는 너무 많은 것들이 나오고 있어서 쫓아가길 거의 포기하고 있어. 그러면 안되는데. ㅠ.ㅠ 다시 심기일전해야겠어. 새해도 되었으니. 이게 글이야 그냥 마구 뱉어내는 일기장이야. ㅠ.ㅠ 이만..

작가의 이전글네이버, 빅데이터 포털, ‘DATA LAB’ 오픈딥마인드와 알파고에 대해 자주 묻는 질문들작가의 다음글