본문 바로가기

하둡

[하둡] 하둡으로 데이터 다루기 (2) Chapter 2 Hadoop 1. 빅데이터의 4V Volume, Velocity, Variety, Veracity ㅎㅎ 2. 하둡 컴퓨터 클러스터에 퍼져있는 거대 데이터셋을 분산 환경에서 쉬운 프로그래밍 모델로 처리할 수 있도록 도와주는 프레임워크 하나의 서버에서 수천 개의 서버로 규모를 키울 수 있도록 설계되었으며 어플리케이션 단에서 결함을 발견해 하드웨어의 보고에 의존할 필요가 없음 → 서버 클러스터 위에서 고가용성 서비스를 할 수 있도록 함 2-1 하둡의 모듈 Hadoop Common: 다른 하둡 모듈을 지원하기 위한 공통 유틸리티 Hadoop Distributed File System (HDFS): 높은 처리량으로 데이터에 접근하는 분산 파일 시스템 Hadoop YARN: 작업 스케쥴링, 자원 .. 더보기
[하둡] 하둡으로 데이터 다루기 (1) Chapter 1. 파이썬 정규표현식 다시보기 # Chapter 1. 파이썬 정규표현식 다시보기 !pip install regex > Requirement already satisfied: regex in c:\users\leejiwon\anaconda3\lib\site-packages (2020.7.14) import regex import re # Task 1. 유효한 이메일일까? email_validator = re.compile('[a-z]+') print(email_validator.match('schoolfaiBellevue')) > email_validator = re.compile("[a-z]") print(email_validator.match('schoolfaiBellevue')) > .. 더보기
[EDA] 데이터 분석에 필요한 개념들 데이터의 종류 범주형데이터 : 성별, 국가 등 카테고리를 나눌 수 있는 데이터순서데이터 : 1. 2등처럼 순차적으로 순번을 메길 수 있는 데이터연속형데이터 : 시간, 키, 몸무게 등 연속적으로 변하는 아날로그 데이터 ▶2와 3은 숫자형 데이터라고도 합니다. Regression과 Anova의 차이 : 독립변수의 형태에 따라 구분할 수 있습니다. Regression : 연속형변수 ☞ dummy variable로 바꿀 수 있습니다. Anova: 분산분석 ☞ t -test로 분석할 수 있는 범주형데이터입니다.   데이터 수집 : 프로젝트 중 데이터수집이 불가능해서 지연되는 경우가 많으니 이전에 가능성 및 수집주기 등을 따져보고 시작해야 합니다. aggregation : 일단위 > 월단위 > 연단위 나이퀴스트의 .. 더보기