[쉬운IT] Big Data의 이해 - 2. 하둡(Hadoop)의 이해

 

 

[쉬운IT] Big Data의 이해 - 2. 하둡(Hadoop)의 이해

 

연관 게시물 : [쉬운IT] Big Data의 이해 - 1.DT 시대와 Big Data

 

 

 이번 시간에는 저번에 이어서 빅데이터 하면 가장 많이 듣게 되는 하둡(Hadoop)에 대해서 알아보도록 합시다.

 

 

 하둡은 앞서 알아본 빅데이터를 어떻게 하면 좀더 저렴하고 빠르게 처리할 수 있을까 하여 고민하다가 나오게 된 데이터 처리 기술입니다.

 

1. 하둡의 정의

 

 빅데이터 처리를 위해 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈 소스 프레임 워크

 

 구글 파일 시스템(GFS)를 벤치 마킹하여 더그 커팅이 아파치 탑 프로젝트로 시작하여 하둡 분산 파일 시스템(HDFS:Hadoop Distributed File System)과 

 

이를 분산시켜 효율적으로 처리하는 맵리듀스(MapReduce)로 구성되어 있다. 

 

2. 하둡의 구조

 

 

 

   하둡의 구조는 위처럼 HDFS를 먼저 살펴보게 되면

 

   크게 NAME NODE와 DATA NODE로 나눌 수 있다.

 

 

 

    1) NAME NODE

 

     HDFS에 대한 Name Space 관리

     DataNode로 부터 Block 리포트 받음

     Replication에 대한 커맨더역활  

     파일 시스템에 대한 Edit log 관리

 

    2) DATA NODE

 

      실제 파일 시스템에 기록

      기본 블록사이즈는 64mb

      기본 Replication 은 3

 

   3) Secondary Name Node 

         

     데이터 변화량이 클경우에 동작

     -> active/ stanby가 아님

      -> single point of failure

 

 

3. Map Reduce

 

   MapReduce는 Map과 Reduce를 합친 말로 Map Function은 자료 구조를 생성.

  

   Reduce는 Key를 기준으로 연산하는 것이라고 생각하면 되는데요. 아래 그림을 보고 설명드리겠습니다.

 

 

 

Map: (key1, value1) -> (key2, value2)   -> 위의 단어대로 맵핑하고 밸류를 정했습니다.

Reduce: (key2, List_of_value2) -> (key3, value3) -> 중복된 단어(Key)별로 연산하여 같은 값을 취합하였습니다.

 

마지막으로 하둡의 Framework를 살펴보면

 

 

 

Avro™: A data serialization system.

Cassandra™: A scalable multi-master database with no single points of failure.

Chukwa™: A data collection system for managing large distributed systems. 

HBase™: A scalable, distributed database that supports structured data storage for large tables. 

Hive™: A data warehouse infrastructure that provides data summarization and ad hoc querying. 

Mahout™: A Scalable machine learning and data mining library. 

Pig™: A high-level data-flow language and execution framework for parallel computation.

ZooKeeper™: A high-performance coordination service for distributed applications 

 

중요한 몇몇 서브시스템은 아래와 같습니다.

 

Zookeeper -> 작업의 우선순위를 할당함. 전체적 시스템 코디네이션

hive -> sql 쿼리를 할 수 있도록 변환해줌

hbase -> HDFS 기반의 DB

mohout -> 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스입니다

ambari ->설치 관리 툴

 

 

728x90

해당 블로그에서 발행되는 콘텐츠 중 일부 글에는 제휴 및 홍보 관련 링크가 포함될 수 있으며, 파트너스 활동의 일환으로 일정액의 수수료를 받을 수 있습니다.