Chapter 2 Hadoop
1. 빅데이터의 4V
Volume, Velocity, Variety, Veracity ㅎㅎ
2. 하둡
-
컴퓨터 클러스터에 퍼져있는 거대 데이터셋을 분산 환경에서 쉬운 프로그래밍 모델로 처리할 수 있도록 도와주는 프레임워크
-
하나의 서버에서 수천 개의 서버로 규모를 키울 수 있도록 설계되었으며 어플리케이션 단에서 결함을 발견해 하드웨어의 보고에 의존할 필요가 없음
→ 서버 클러스터 위에서 고가용성 서비스를 할 수 있도록 함
2-1 하둡의 모듈
-
Hadoop Common: 다른 하둡 모듈을 지원하기 위한 공통 유틸리티
-
Hadoop Distributed File System (HDFS): 높은 처리량으로 데이터에 접근하는 분산 파일 시스템
-
Hadoop YARN: 작업 스케쥴링, 자원 관리를 위한 프레임워크
-
Hadoop MapReduce: 병렬 처리를 위한 YARN 기반 시스템
-
Hadoop Ozone: 객체 저장소
-
Hadoop Submarine: 기계학습 엔진
2-2 하둡의 필요성
HDFS 모듈은 테라바이트 단위의 데이터에 접근할 수 있는 기능의 데이터 저장소 모듈임원리는 큰 데이터를 블록 단위로 나누고 이들을 클러스터의 다양한 인터페이스를 통해 관리함여러 개의 하드웨어에 복사해 "분산처리"하므로, 하나의 장치에서 결함이 발생하더라도 데이터 이용 가능
2-3 하둡 맵리듀스
맵 + 리듀스
맵은 "매핑"한다는 의미, 데이터 각각의 요소를 키+값 쌍의 튜플로 나누어 변환하고 리듀서가 이 결과를 받아 더 작은 단위의 튜플 집합으로 합침
이 작업으로 클러스터 내 모든 노드에 대해 병렬화 작업을 거쳐 매우 큰 단위의 데이터에 대해서도 단 시간 안에 정렬 가능함
2-4 YARN
그래프 처리, 상호작용, 스트림 처리, HDFS에 저장된 데이터를 실행/처리하기 위한 배치 처리 등의 데이터 처리 엔진을 제공함
+ 작업 스케쥴링도
하둡의 기능 확장판으로 HDFS와 클러스터의 장점을 결합
YARN의 구조
하둡의 데이터 운영 체제인 Apache Yarn, 맵리듀스 외의 데이터 처리 시스템을 처리할 수 있도록 함
이제 멀고도 험한 하둡 설치를 해보겠다
Reference
https://hadoop.apache.org/ozone/
https://hadoop.apache.org/docs/current1/hdfs_design.html
https://data-flair.training/blogs/hadoop-yarn-tutorial/
https://www.edwith.org/datait/lecture/59396/
I'm a Senior Student in Data Science !
데이터 사이언스를 공부하고 있는 4학년 학부생의 TIL 블로그입니다. 게시글이 도움 되셨다면 구독과 좋아요 :)
'Database > #Hadoop' 카테고리의 다른 글
[하둡] 하둡으로 데이터 다루기 (1) (0) | 2020.08.04 |
---|