본문 바로가기

Exploratory Data Analysis/#Theory

[분류] 군집 분석 - 여러 집단으로 개체 분류하기


활용 분야 
  • 상품 분류
  • 패턴 인식
  • 생물 연구 

Clustering

농구선수로 활약할 것 같은 선수들 

  • positive group과 negative 그룹 (키가 크고 몸무게가 적게 나가는 사람들)
  • 군집을 나눠주지만 각각의 특성은 직접 labeling해야 함 

유형 분석 (Classification)

  • Clustering 방법과는 달리 군집을 나누는 기준까지 알 수 있음
  • 마케팅 영역에서 고객 Segmentaion에 사용됨 ▶ 신한카드 code9 에서 고객 특성과 패턴에 따른 혜택 레이블링을 진행함

회귀분석 (Regression)

변화를 수치적으로 계산할 때 유용함

 


연관성 분석
  • eg. 기저귀와 맥주의 관계
  • 연관어 추천 서비스 등에 활용됨

우유를 산 사람이 빵을 살 확률 : 71%

 


신경망 분석(Neural)
  • 인간의 두뇌가 작동하는 방식을 본 떠 분석하는 방법
  • 딥러닝 ▶ neural network analysis을 바탕으로 하는 분석기법

 


레이어가 많다

  • 장점 : 더 정확한 결과값을 도출해낼 수 있음
  • 단점 : 처리 시간이 오래 걸리고 복잡함 → 과거에는 컴퓨터 성능과 데이터의 양이 뒷받침해주지 못해 학습이 잘 진행되지 못했음 최근에는 기술의 발전으로 활발하게 이루어지고 있음

 


왜 산업에서 잘 쓰지 않았는가?

  • 머신러닝과 달리 딥러닝 기술은 input값을 따로 지정해주지 않고 머신이 알아서 처리하도록 하는 알고리즘이기 때문에 decision tree와 같이 명확한 분류 기준을 알려주는 것이 아닌 black box처럼 미궁 속의 알고리즘이었기 때문
  • 하지만 최근 알고리즘의 과정을 이해하는 것보다 얼굴인식 등 performance 자체가 더 중요해져 많이 사용되고 있음

K-means 알고리즘
  • K 나누고 싶은 값
  • means → 그룹 간의 거리의 평균을 계산

☞ 평균값을 구했을 때 같은 그룹끼리는 거리가 최소가 될 것이고 다른 그룹끼리는 거리가 늘어날 것이므로 최소의 길이를 찾으면 그 집단 분류가 최적이 될 것

 


  • K = 100 자기 자신이 스스로의 그룹이 됨 (문제점 ☞ K값이 너무 크면 market segmentation의 의미가 없고 규칙을 발견하기 매우 어려움)
  • K = 1 → 마찬가지로 의미가 없고 숫자가 작을 수록 다른 개체들이 하나의 그룹으로 묶일 가능성이 높음

 

I'm a Senior Student in Data Science ! 

데이터 사이언스를 공부하고 있는 4학년 학부생의 TIL 블로그입니다. 게시글이 도움 되셨다면 구독과 좋아요 :)