Data Dirty
- missing data ▶ 불완전한 데이터 결측치, 정보가 없는 데이터
- outlier ▶잘못된 정보 에러나 이상치 → 연봉 중 음수의 값을 갖는 경우
- 일관성 결여 ▶ 코드나 이름에 일관성이 없는 데이터 → 미국과 한국의 나이 체제
Age = “42”, Birthday = “03/07/2010” |
Was rating “1, 2, 3”, now rating “A, B, C” |
discrepancy between duplicate records |
데이터 처리 (Data Preprocessing)
: 수집한 데이터를 분석하기 좋게 변환하는 모든 작업
- 분석 목적에 맞는지 데이터의 품질을 확인하고 필요하면 품질을 높이는 작업
- 데이터 품질이란 신뢰성을 의미하며 정확성과 적시성 (최신성)이 보장되어야 함
데이터 정제 (Data Cleaning)
결측치처리
- 데이터의 손실이 너무 많이 일어날 수 있음 ☞ 희귀 데이터의 경우 데이터를 손실하는 것이 비효율
- 결측치를 적절한 값으로 대체함 ☞ Mean, Median, Mode(최빈값)
틀린값처리 ▶ 대체값에 따라 데이터 분석가의 주관이 들어갈 여지가 있음 (선택의 문제이므로)
이상치검출 ▶ 보통의 경우 outlier를 삭제함
데이터 변환 (Transformation)
: 데이터가 정규분포를 따르지 않을 때 분석하기 쉬운 형태로 바꾸는 작업
- 범주형으로 전환
- 일반정규화
- Z-score 정규화
- 로그변환
- 역수변환
- 데이터축소
데이터 축소 (Reduction) → 같은 정보량을 가지면서 데이터의 크기를 줄이는 것
: 두 변수의 상관관계(다중공산성)가 너무 높을 때 두 변수를 모두 사용하지 않고 하나만 사용함
샘플링 (Sampling)
: 인구통계학적 관점에서 많이 사용되며 특정 분석에 필요한 데이터만을 취함
훈련용과 테스트용 데이터
▨ 데이터분석 모델 작업
- Training data 모델을 생성하는 과정에서 사용하는 데이터
- Test data 모델의 성능 검증과정에서 사용하는 데이터
▨ 두 가지 데잉터를 준비할 때 랜덤한 성질을 보장해야 함
Data Cleaning with Excel
- 엑셀에 visualizing을 접목해서 더 효율적으로 일할 수 있음
- 엑셀이 아직까지는 팀활동의 90%정도 차지하고 있음
- 바이너리 데이터는 최빈값으로 대체 → 기말고사에 문제로 출제될 것 (어떻게 처리할 것인지)
데이터 탐색 (Exploring the data)
- 수집한 데이터의 전체적인 특성을 분석함
- 본격적인 데이터 분석에 앞서 수집한 데이터가 분석에 적절한지 알아보는 과정
- 선행 데이터 분석, 탐색적 데이터 분석
- 기본적인 통계적 특성 파악 : 숫자형 데이터의 평균, 최대값, 최소값, 표준편차, 분산 등
▨ Descriptive Statistics
▨ Line chart
▨ Bar chart
: 범주형 데이터를 비교할 때 사용하는 차트
▨ Scatter plot
: 변수간의 관계를 보고 싶을 때
▨ 히스토그램
- 가장 많이 사용됨
- 빈도수와 분포의 모양을 보여줌
- 역수, 로그를 취하여 transformation
- 통계에서는 정규분포라는 가정하에 regression과 anova 수행
- data mining에서는 크게 신경쓰지 않음 (시험X)
▨ Heat Maps
- 상관관계가 높은 데이터를 한 눈에 파악할 수 있음
- R에서 구현할 수 있음
I'm a Senior Student in Data Science !
데이터 사이언스를 공부하고 있는 4학년 학부생의 TIL 블로그입니다. 게시글이 도움 되셨다면 구독과 좋아요 :)
'Exploratory Data Analysis > #Theory' 카테고리의 다른 글
[UDA] 비정형데이터-군집화 (0) | 2019.10.10 |
---|---|
[EDA] 사회연결망 분석 지표 (0) | 2019.09.30 |
[EDA] 사회연결망분석: 주요 개념 및 자료 (0) | 2019.09.29 |
[UDA] 비정형데이터분석 (0) | 2019.09.19 |
[EDA] 데이터 분석에 필요한 개념들 (0) | 2019.09.18 |