반응형

 

 

[쉬운IT] Big Data의 이해 - 2. 하둡(Hadoop)의 이해

 

연관 게시물 : [쉬운IT] Big Data의 이해 - 1.DT 시대와 Big Data

 

 

 이번 시간에는 저번에 이어서 빅데이터 하면 가장 많이 듣게 되는 하둡(Hadoop)에 대해서 알아보도록 합시다.

 

 

 하둡은 앞서 알아본 빅데이터를 어떻게 하면 좀더 저렴하고 빠르게 처리할 수 있을까 하여 고민하다가 나오게 된 데이터 처리 기술입니다.

 

1. 하둡의 정의

 

 빅데이터 처리를 위해 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈 소스 프레임 워크

 

 구글 파일 시스템(GFS)를 벤치 마킹하여 더그 커팅이 아파치 탑 프로젝트로 시작하여 하둡 분산 파일 시스템(HDFS:Hadoop Distributed File System)과 

 

이를 분산시켜 효율적으로 처리하는 맵리듀스(MapReduce)로 구성되어 있다. 

 

2. 하둡의 구조

 

 

 

   하둡의 구조는 위처럼 HDFS를 먼저 살펴보게 되면

 

   크게 NAME NODE와 DATA NODE로 나눌 수 있다.

 

 

 

    1) NAME NODE

 

     HDFS에 대한 Name Space 관리

     DataNode로 부터 Block 리포트 받음

     Replication에 대한 커맨더역활  

     파일 시스템에 대한 Edit log 관리

 

    2) DATA NODE

 

      실제 파일 시스템에 기록

      기본 블록사이즈는 64mb

      기본 Replication 은 3

 

   3) Secondary Name Node 

         

     데이터 변화량이 클경우에 동작

     -> active/ stanby가 아님

      -> single point of failure

 

 

3. Map Reduce

 

   MapReduce는 Map과 Reduce를 합친 말로 Map Function은 자료 구조를 생성.

  

   Reduce는 Key를 기준으로 연산하는 것이라고 생각하면 되는데요. 아래 그림을 보고 설명드리겠습니다.

 

 

 

Map: (key1, value1) -> (key2, value2)   -> 위의 단어대로 맵핑하고 밸류를 정했습니다.

Reduce: (key2, List_of_value2) -> (key3, value3) -> 중복된 단어(Key)별로 연산하여 같은 값을 취합하였습니다.

 

마지막으로 하둡의 Framework를 살펴보면

 

 

 

Avro™: A data serialization system.

Cassandra™: A scalable multi-master database with no single points of failure.

Chukwa™: A data collection system for managing large distributed systems. 

HBase™: A scalable, distributed database that supports structured data storage for large tables. 

Hive™: A data warehouse infrastructure that provides data summarization and ad hoc querying. 

Mahout™: A Scalable machine learning and data mining library. 

Pig™: A high-level data-flow language and execution framework for parallel computation.

ZooKeeper™: A high-performance coordination service for distributed applications 

 

중요한 몇몇 서브시스템은 아래와 같습니다.

 

Zookeeper -> 작업의 우선순위를 할당함. 전체적 시스템 코디네이션

hive -> sql 쿼리를 할 수 있도록 변환해줌

hbase -> HDFS 기반의 DB

mohout -> 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스입니다

ambari ->설치 관리 툴

 

 

반응형

  • reply profile image

    무침이

    설명 간단하고 진짜 깔끔하내요. 그림으로 깔끔한정리 반했내요

    • reply profile image

      dorudoru

      감사합니다.
      저도 공부하면서 하는 거라 부족한 점이 많습니다 ^^;;
      전공이 이쪽분야가 아니라서 새로 배우는건 항상 어렵네요 ㅎ

복사했습니다!