본문 바로가기

Exploratory Data Analysis/#Theory

[EDA] 데이터 분석에 필요한 개념들

데이터의 종류

 

  1. 범주형데이터 : 성별, 국가 등 카테고리를 나눌 수 있는 데이터
  2. 순서데이터 : 1. 2등처럼 순차적으로 순번을 메길 수 있는 데이터
  3. 연속형데이터 : 시간, 키, 몸무게 등 연속적으로 변하는 아날로그 데이터 
▶2와 3은 숫자형 데이터라고도 합니다. 

Regression과 Anova의 차이

: 독립변수의 형태에 따라 구분할 수 있습니다. 

  • Regression : 연속형변수 ☞ dummy variable로 바꿀 수 있습니다. 
  • Anova: 분산분석 ☞ t -test로 분석할 수 있는 범주형데이터입니다. 

 


 

데이터 수집

 

: 프로젝트 중 데이터수집이 불가능해서 지연되는 경우가 많으니 이전에 가능성 및 수집주기 등을 따져보고 시작해야 합니다. 

aggregation

: 일단위 > 월단위 > 연단위

 


나이퀴스트의 샘플링 이론

: 수집의 주기를 세분화하여 신호 데이터를 수집하는 방법입니다. 


 


▶ 1분에 한 번의 주기가 반복되는 데이터의 수집의 경우 1분에 한 번 데이터를 수집하는 것보다, 30초에 한 번씩 수행하는 것이 더 디테일한 정보를 모을 수 있습니다. 


데이터 관리 

관계형(Relational) 데이터베이스 : 유저의 아이디와 같이 모든 항목에 공통적으로 포함되는 항목을 통해 개별 특징들을 확인할 수 있습니다. 

▶ 데이터의 복구와 검색에 시간이 많이 소요되며, 약간의 정보 수정을 위해 전체 데이터를 수정해야 한다는 단점이 있습니다. 

정보자원관리  데이터 수집단계에서의 관리방법과 DB 초이스 메서드를 실습하기 좋음


맵리듀스 

: 과거에는 성능이 좋은 슈퍼컴퓨터 한 대로 데이터 분석 처리 

최근에는 저사양의 컴퓨터 여러 대를 연결하여 사용(분산처리)하는데, 이를 맵리듀스라고 부릅니다.

 

  1. 맵 : 나누는 작업
  2. 리듀스 : 맵으로 나눠진 자료들을 다시 합치는 작업

 

리듀스 마지막 페이지  노드에게 동일한 작업을 나누어 줌 삭제

하둡

: 대용량 데이터셋을 기반으로 맵리듀스 개념을 공개 소프트웨어로 구현하는 솔루션 

야후, 구글 등의 사이트에서 오픈소스로 빌려주는 서비스를 통해 구현해볼 수 있습니다. 

구글의 경우 비싼 프리미엄 슈퍼 컴퓨터로 돌리기 때문에 가장 수행력이 좋은 것으로 알려져 있습니다. 

 



  1. 장점 : 무료로 이용 가능하고 단순하지만 방대한 데이터를 처리할 수 있으며, 슈퍼컴퓨터보다 저렴한 개인용 PC로도 충분히 유용하게 사용할 수 있습니다.  
  2. 단점 : 여러 대의 컴퓨터를 엮어 사용하는 것이므로 하나의 슈퍼 컴퓨터를 사용할 때보다 안정성이 떨어질 수 있습니다.  

그럼에도 불구하고 장점이 단점보다 훨씬 더 강력하기 때문에 대부분 하둡을 많이 사용합니다. 

 


클라우드 서비스 

: 데이터 분석의 근간이 되는 서비스 

  • 공공 클라우드 : 일반인이 많이 사용하는 서비스
  • 사설 클라우드 : 기업 내에서 기밀 정보를 공유하고자 할 때 유료로 사용하는 서비스 

 

SaaS (Software as a Service)  소프트웨어를 웹 서비스 방식으로 어플리케이션처럼 이용하는 것 
PaaS (Platform as a Service) 애플리케이션을 구현할 수 있도록 기반이 되는 데이터 처리 등의 플랫폼 기능을 웹 서비스 방식으로 제공하는 것 
IaaS (Infra as a Service) 서버, 스트리지 등의 인프라를 서비스로 제공하는 것, 하드웨어까지 포함하는 조금 더 큰 개념 (디바이스 단까지 내려감)

번외) 아마존 매출의 1등 공신, 클라우드

  • 남는 클라우드 공간을 다른 기업에 파는 아이디어 (아마존 부사장 연설 참고)
  • AWS 아마존 웹서버

 

I'm a Senior Student in Data Science ! 

데이터 사이언스를 공부하고 있는 4학년 학부생의 TIL 블로그입니다. 게시글이 도움 되셨다면 구독과 좋아요 :)