본문 바로가기

Database/#Hadoop

[하둡] 하둡으로 데이터 다루기 (2)


Chapter 2 Hadoop

 

ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

 

1. 빅데이터의 4V

Volume, Velocity, Variety, Veracity ㅎㅎ

https://www.ibmbigdatahub.com/infographic/four-vs-big-data

 

2. 하둡

  • 컴퓨터 클러스터에 퍼져있는 거대 데이터셋을 분산 환경에서 쉬운 프로그래밍 모델로 처리할 수 있도록 도와주는 프레임워크 

  • 하나의 서버에서 수천 개의 서버로 규모를 키울 수 있도록 설계되었으며 어플리케이션 단에서 결함을 발견해 하드웨어의 보고에 의존할 필요가 없음

→ 서버 클러스터 위에서 고가용성 서비스를 할 수 있도록 함

 

2-1 하둡의 모듈

  • Hadoop Common: 다른 하둡 모듈을 지원하기 위한 공통 유틸리티

  • Hadoop Distributed File System (HDFS): 높은 처리량으로 데이터에 접근하는 분산 파일 시스템

  • Hadoop YARN: 작업 스케쥴링, 자원 관리를 위한 프레임워크 

  • Hadoop MapReduce: 병렬 처리를 위한 YARN 기반 시스템

  • Hadoop Ozone: 객체 저장소

  • Hadoop Submarine: 기계학습 엔진

 

2-2 하둡의 필요성

HDFS 모듈은 테라바이트 단위의 데이터에 접근할 수 있는 기능의 데이터 저장소 모듈임원리는 큰 데이터를 블록 단위로 나누고 이들을 클러스터의 다양한 인터페이스를 통해 관리함여러 개의 하드웨어에 복사해 "분산처리"하므로, 하나의 장치에서 결함이 발생하더라도 데이터 이용 가능

 

2-3 하둡 맵리듀스

맵 + 리듀스

맵은 "매핑"한다는 의미, 데이터 각각의 요소를 키+값 쌍의 튜플로 나누어 변환하고 리듀서가 이 결과를 받아 더 작은 단위의 튜플 집합으로 합침

이 작업으로 클러스터 내 모든 노드에 대해 병렬화 작업을 거쳐 매우 큰 단위의 데이터에 대해서도 단 시간 안에 정렬 가능함

 

2-4 YARN 

그래프 처리, 상호작용, 스트림 처리, HDFS에 저장된 데이터를 실행/처리하기 위한 배치 처리 등의 데이터 처리 엔진을 제공함

+ 작업 스케쥴링도

하둡의 기능 확장판으로 HDFS와 클러스터의 장점을 결합

 

YARN의 구조

하둡의 데이터 운영 체제인 Apache Yarn, 맵리듀스 외의 데이터 처리 시스템을 처리할 수 있도록 함 


 

이제 멀고도 험한 하둡 설치를 해보겠다


Reference

https://hadoop.apache.org/ozone/

https://hadoop.apache.org/docs/current1/hdfs_design.html

https://data-flair.training/blogs/hadoop-yarn-tutorial/

 


https://www.edwith.org/datait/lecture/59396/

 

[LECTURE] 1. 하둡 : edwith

하둡  여러분 안녕하세요. 오늘은 빅데이터, 하둡 그리고 스파크에 대해 배울 겁니다. - 커넥트재단

www.edwith.org


 

I'm a Senior Student in Data Science ! 

데이터 사이언스를 공부하고 있는 4학년 학부생의 TIL 블로그입니다. 게시글이 도움 되셨다면 구독과 좋아요 :)

 

'Database > #Hadoop' 카테고리의 다른 글

[하둡] 하둡으로 데이터 다루기 (1)  (0) 2020.08.04