[김관용기자] '빅데이터' 시대를 맞아 아파치의 오픈소스 프로젝트인 '하둡(Hadoop)'이 각광을 받고 있다.
하둡은 오픈소스 검색 라이브러리 '아파치 루씬'의 창시자인 더그 커팅이 개발한 오픈소스 프로젝트다.
17일 관련 업계에 따르면 오라클, IBM, EMC, 마이크로소프트(MS) 등 글로벌 데이터 기업들은 빅데이터 관리가 전세계적인 흐름이 되면서 하둡 기술을 보유한 회사와 협력하거나 자체 개발한 솔루션을 출시하는 등 적극적으로 시장 대응에 나서고 있다.
MS는 최근 하둡 기술을 보유한 호튼웍스와 협력키로 합의하며 하둡진영 합류를 공식 선언했다. 호튼웍스는 야후에서 일하던 전문 엔지니어 20~30명이 주축이 돼 만들어진 회사로 MS는 이번 파트너십을 통해 윈도우 서버와 콘텐츠 오픈마켓인 윈도우 애저 플랫폼용 하둡을 개발하기로 했다.
MS는 올해에는 윈도우 애저용 하둡 기반 서비스의 시제품을 출시할 계획이며 내년까지는 윈도우 서버용 시제품 개발을 목표로 하고 있다.
오라클은 지난 2일(미국 현지시각) '오라클 오픈월드 2011'에서 빅데이터 어플라이언스를 소개하며 하둡 오픈소스 배포판과 NoSQL 데이터베이스, 하둡용 데이터 인테그레이터 애플리케이션 어답터 및 로더, 오픈소스 통계 프로그램 'R', 자바 하스폿 버추얼 머신 등을 공개했다.
EMC 또한 지난 달 데이터 상호 연계 처리 하둡 어플라이언스 모듈인 '그린플럼 HD 모듈(Greenplum HD Module)'을 출시했다. 이 제품은 그린플럼 데이터베이스에 하둡을 결합시켜 정형 데이터와 비정형 데이터 모두를 단일 솔루션 내에서 상호 연계 처리 할 수 있게 한 것이 특징이다.
IBM은 지난 해 '인포스피어 빅 인사이트'를 선보이며 사진, 음악, 동영상, 문서 등 기존의 관계형 데이터베이스에 저장할 수 없었던 비정형 데이터들의 저장소로 하둡을 이용한다는 전략이다. 지난 5월에는 하둡에 1억 달러를 투자하기도 했다.
◆하둡이 각광받는 이유는?
하둡 기술이 이처럼 관심을 받는 이유는 그동안 구글, 야후, 페이스북, 마이스페이스, 아마존, 이베이 등 인터넷 서비스 업체들이 주로 이용하면서 안정성을 검증받았기 때문이다.
이들 기업은 대부분 로그 분석, 이벤트 데이터, 검색엔진 결과, 소셜 미디어 사이트의 콘텐츠 등 비정형 데이터의 방대한 양을 분석하고 모으는 데 하둡을 사용했다. 하둡은 주로 전통적인 관계형 데이터베이스관리시스템(DBMS)으로는 한계가 있는 페타바이트(PB)급 비정형 데이터를 분석하는 데에 활동되고 있다.
하둡은 특히 오픈소스를 기반으로 하고 있어 비용이 저렴하고 대용량의 데이터를 처리할 때도 유닉스처럼 상용 DBMS를 연동할 경우 부담해야 할 비용 부담이 적어 사용자가 빠르게 늘고 있다. x86 CPU에 리눅스 시스템이면 이용할 수 있어 가격 경쟁력 또한 좋다.
IT시장 조사기관인 벤타나 리서치(Ventata Research)는 160개 기업을 조사 분석한 보고서를 통해 "하둡이 전통적인 관계형 DBMS 못지 않는 역할을 하고 있는 것으로 나타났다"면서 "3곳 중 2개 기업은 하둡을 고도화된 분석에 이용하고 있다"고 말했다.
하지만 이 보고서는 응답자들이 하둡의 가장 큰 문제점으로 기술 인력의 부족을 얘기했다고 전했다. 오픈소스 기반 소프트웨어이다 보니 내부에 관련 전문가가 필요하다는 것이다.
따라서 대형 기업들은 MS와 IBM 등의 사례에서 처럼 기술을 보유한 회사와 협력하거나 관련 기술에 비용을 투자하고 있는 추세다.
김관용기자 kky1441@inews24.com
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기