본문 바로가기

Exploratory Data Analysis/#Theory

[EDA] 데이터 전처리 및 탐색

Data Dirty
  1. missing data  불완전한 데이터 결측치, 정보가 없는 데이터 
  2. outlier  잘못된 정보 에러나 이상치 → 연봉 중 음수의 값을 갖는 경우 
  3. 일관성 결여  코드나 이름에 일관성이 없는 데이터 미국과 한국의 나이 체제 
Age = “42”, Birthday = “03/07/2010”
Was rating “1, 2, 3”, now rating “A, B, C”
discrepancy between duplicate records

 


데이터 처리 (Data Preprocessing)
: 수집한 데이터를 분석하기 좋게 변환하는 모든 작업
  • 분석 목적에 맞는지 데이터의 품질을 확인하고 필요하면 품질을 높이는 작업
  • 데이터 품질이란 신뢰성을 의미하며 정확성과 적시성 (최신성)이 보장되어야 함

 


데이터 정제 (Data Cleaning)

결측치처리

  1. 데이터의 손실이 너무 많이 일어날 수 있음 ☞ 희귀 데이터의 경우 데이터를 손실하는 것이 비효율
  2. 결측치를 적절한 값으로 대체함    Mean, Median, Mode(최빈값)

틀린값처리 대체값에 따라 데이터 분석가의 주관이 들어갈 여지가 있음 (선택의 문제이므로)

이상치검출 ▶ 보통의 경우 outlier를 삭제함 


데이터 변환 (Transformation)
: 데이터가 정규분포를 따르지 않을 때 분석하기 쉬운 형태로 바꾸는 작업
  • 범주형으로 전환
  • 일반정규화
  • Z-score 정규화
  • 로그변환
  • 역수변환
  • 데이터축소

데이터 축소 (Reduction) → 같은 정보량을 가지면서 데이터의 크기를 줄이는 것

: 두 변수의 상관관계(다중공산성)가 너무 높을 때 두 변수를 모두 사용하지 않고 하나만 사용함

샘플링 (Sampling)

: 인구통계학적 관점에서 많이 사용되며 특정 분석에 필요한 데이터만을 취함


훈련용과 테스트용 데이터 

▨ 데이터분석 모델 작업

  1. Training data 모델을 생성하는 과정에서 사용하는 데이터
  2. Test data 모델의 성능 검증과정에서 사용하는 데이터 

▨ 두 가지 데잉터를 준비할 때 랜덤한 성질을 보장해야 함 


Data Cleaning with Excel
  • 엑셀에 visualizing을 접목해서 더 효율적으로 일할 수 있음
  • 엑셀이 아직까지는 팀활동의 90%정도 차지하고 있음
  • 바이너리 데이터는 최빈값으로 대체 → 기말고사에 문제로 출제될 것 (어떻게 처리할 것인지)

데이터 탐색 (Exploring the data)
  • 수집한 데이터의 전체적인 특성을 분석함
  • 본격적인 데이터 분석에 앞서 수집한 데이터가 분석에 적절한지 알아보는 과정
  • 선행 데이터 분석, 탐색적 데이터 분석
  • 기본적인 통계적 특성 파악 : 숫자형 데이터의 평균, 최대값, 최소값, 표준편차, 분산 등 

Descriptive Statistics

기초 통계량 들을 함축해둔 테이블 


Line chart

시계열 자료 분석할 때 좋은 그래프 


Bar chart

: 범주형 데이터를 비교할 때 사용하는 차트

 


Scatter plot

: 변수간의 관계를 보고 싶을 때 

좌는 양의 상관관계, 우는 음의 상관관계
위는 y의 변화가 적고 아래는 x의 변화가 적은 관계

 


▨ 히스토그램

오른쪽으로 skewed된 그래프 

  • 가장 많이 사용됨
  • 빈도수와 분포의 모양을 보여줌
  • 역수, 로그를 취하여 transformation
  • 통계에서는 정규분포라는 가정하에 regression과 anova 수행
  • data mining에서는 크게 신경쓰지 않음 (시험X)

 

 


Heat Maps

  • 상관관계가 높은 데이터를 한 눈에 파악할 수 있음
  • R에서 구현할 수 있음

 

I'm a Senior Student in Data Science ! 

데이터 사이언스를 공부하고 있는 4학년 학부생의 TIL 블로그입니다. 게시글이 도움 되셨다면 구독과 좋아요 :)