본문 바로가기

Machine Learning/#ML

[ML] MINITAB Decision Tree(CART), 앙상블(RF/Tree Net), Auto ML (1)

목차

Decision Tree

의사결정 규칙과 그 결과들을 트리 구조로 도식화하여 분류하는 통계적 분석 방법으로, 각 데이터들이 가진 속성들로부터 패턴을 찾아내서 분류 과제를 수행할 수 있도록 하는 머신러닝 모델

ID3, C4.5, C5.0 알고리즘은 인공지능, 기계학습 분야에서 개발되어 발전 - 엔트로피/정보이득 등의 개념을 사용하여 분리 기준을 결정함
CART, CHAID 알고리즘은 통계학 분야에서 개발된 알고리즘으로, 카이스퀘어/T검정/F검정 등의 통계분석기법을 사용하여 분류함

 

CART(Classification And Regression Tree)
  • 전체 데이터셋으로 두 개의 자식 노드를 생성하기 위해 모든 예측 변수를 사용하여 데이터 셋의 부분집합을 쪼갬으로써 트리를 생성함
  • Minitab에서 Decision Tree 알고리즘으로 채택함

CART 구성 요소


분리에 사용될 독립변수 선택 및 분리의 기준 (분리 기준)
  1. 분리변수(x)가 연속형인 경우
  • x가 분리 기준보다 작으면 왼쪽 자식마디로 분리
  • x가 분리 기준보다 크면 오른쪽 자식마디로 분리

   2. 분리변수(x)가 범주형인 경우

  • 분리 기준은 전체 범주를 두 개의 부분집합으로 나누는 것이 됨
  • 범주가 {1, 2, 3, 4}일 때 분리 기준이 {1, 2, 4}와 {3}이라면, 분리변수가 범주 {1, 2, 3}에 속하면 왼쪽 자식마디로, 범주 {3}에 속하면 오른쪽 자식마디로 분리함

 

불순도의 측도
  1. Y가 이산형인 경우 (분류 모형)
  • 지니 지수 : Class 들의 비율의 제곱합으로, 지니 지수를 가장 감소시켜주는 변수와 그 때의 최적 분리에 의해서 자식마디를 선택함 (
  • 앤트로피 지수 : 시스템이 얼마다 정리되지 않았는지를 나타냄. 이 지수가 가장 작은 변수와 그 때의 최적 분리에 의해서 자식마디를 형성
  • G Square : 엔트로피 지수를 2배한 값으로, 이를 가장 감소시켜주는 변수와 그때의 최적분리에 의해 자식마디를 선택함

   2. Y가 연속형인 경우 (회귀 모형)

  • 제곱합 (Sum of Square) : 분산(변동)을 의미, SS로 표기, 분산의 감소량을 최대화 하는 기준의 최적 분리에 의해 자식마디가 형성됨 
  • 최소 절대 오차 (Least Absolute Deviation) : 절대 오차의 합을 의미하며, SAE 로 표기함. 함수에 의해 생성된 점과 데이터의 해당 점 사이의 수직 "잔차"의 절대값의 합이 작아지는 방향으로 자식마디가 형성됨

 

CART의 장/단점
  1. 장점
  • 이해도 - 모형이 규칙 형태로 제공되어 통계 지식이 없어도 직관적으로 이해 가능, 현상 원인 파악에 용이
  • 교호작용 파악 - If A and B and C, then D의 형태로, 이를 통한 변수 간의 교호 관계 파악 가능
  • 변수 종류 - 변수의 종류에 상관없이 모형 도출이 가능함

   2. 단점

  • 지나친 교호작용 - 연속된 조건문 규칙으로 교호작용이 과하게 강조될 수 있음
  • 초기 분할 - 재귀적 알고리즘 사용으로 초기 분할에 큰 영향을 받음
  • 이산형 변수 - 이산형 변수에 대하여 수준이 많은 경우 결과가 부정확할 수 있음
  • 과적합(Overfitting) - 과적합되기 쉬워 예측력이 낮을 가능성이 높음

CART 예제 실습
예제1. 심장병 발생 원인 분석

적합된 반응 값과 실제 반응 값의 산점도

 

Tree 개선 기회 발굴 가능


 

 

Data Science TIL-log

데이터 사이언스를 공부하고 있는 직장인의 TIL 블로그입니다. 게시글이 도움 되셨다면 구독과 좋아요 :)