목차
Decision Tree
의사결정 규칙과 그 결과들을 트리 구조로 도식화하여 분류하는 통계적 분석 방법으로, 각 데이터들이 가진 속성들로부터 패턴을 찾아내서 분류 과제를 수행할 수 있도록 하는 머신러닝 모델
ID3, C4.5, C5.0 알고리즘은 인공지능, 기계학습 분야에서 개발되어 발전 - 엔트로피/정보이득 등의 개념을 사용하여 분리 기준을 결정함
CART, CHAID 알고리즘은 통계학 분야에서 개발된 알고리즘으로, 카이스퀘어/T검정/F검정 등의 통계분석기법을 사용하여 분류함
CART(Classification And Regression Tree)
- 전체 데이터셋으로 두 개의 자식 노드를 생성하기 위해 모든 예측 변수를 사용하여 데이터 셋의 부분집합을 쪼갬으로써 트리를 생성함
- Minitab에서 Decision Tree 알고리즘으로 채택함
분리에 사용될 독립변수 선택 및 분리의 기준 (분리 기준)
- 분리변수(x)가 연속형인 경우
- x가 분리 기준보다 작으면 왼쪽 자식마디로 분리
- x가 분리 기준보다 크면 오른쪽 자식마디로 분리
2. 분리변수(x)가 범주형인 경우
- 분리 기준은 전체 범주를 두 개의 부분집합으로 나누는 것이 됨
- 범주가 {1, 2, 3, 4}일 때 분리 기준이 {1, 2, 4}와 {3}이라면, 분리변수가 범주 {1, 2, 3}에 속하면 왼쪽 자식마디로, 범주 {3}에 속하면 오른쪽 자식마디로 분리함
불순도의 측도
- Y가 이산형인 경우 (분류 모형)
- 지니 지수 : Class 들의 비율의 제곱합으로, 지니 지수를 가장 감소시켜주는 변수와 그 때의 최적 분리에 의해서 자식마디를 선택함 (
- 앤트로피 지수 : 시스템이 얼마다 정리되지 않았는지를 나타냄. 이 지수가 가장 작은 변수와 그 때의 최적 분리에 의해서 자식마디를 형성
- G Square : 엔트로피 지수를 2배한 값으로, 이를 가장 감소시켜주는 변수와 그때의 최적분리에 의해 자식마디를 선택함
2. Y가 연속형인 경우 (회귀 모형)
- 제곱합 (Sum of Square) : 분산(변동)을 의미, SS로 표기, 분산의 감소량을 최대화 하는 기준의 최적 분리에 의해 자식마디가 형성됨
- 최소 절대 오차 (Least Absolute Deviation) : 절대 오차의 합을 의미하며, SAE 로 표기함. 함수에 의해 생성된 점과 데이터의 해당 점 사이의 수직 "잔차"의 절대값의 합이 작아지는 방향으로 자식마디가 형성됨
CART의 장/단점
- 장점
- 이해도 - 모형이 규칙 형태로 제공되어 통계 지식이 없어도 직관적으로 이해 가능, 현상 원인 파악에 용이
- 교호작용 파악 - If A and B and C, then D의 형태로, 이를 통한 변수 간의 교호 관계 파악 가능
- 변수 종류 - 변수의 종류에 상관없이 모형 도출이 가능함
2. 단점
- 지나친 교호작용 - 연속된 조건문 규칙으로 교호작용이 과하게 강조될 수 있음
- 초기 분할 - 재귀적 알고리즘 사용으로 초기 분할에 큰 영향을 받음
- 이산형 변수 - 이산형 변수에 대하여 수준이 많은 경우 결과가 부정확할 수 있음
- 과적합(Overfitting) - 과적합되기 쉬워 예측력이 낮을 가능성이 높음
CART 예제 실습
예제1. 심장병 발생 원인 분석
Data Science TIL-log
데이터 사이언스를 공부하고 있는 직장인의 TIL 블로그입니다. 게시글이 도움 되셨다면 구독과 좋아요 :)
'Machine Learning > #ML' 카테고리의 다른 글
[ML] MINITAB Decision Tree(CART), 앙상블(RF/Tree Net), Auto ML (2) (0) | 2022.11.25 |
---|---|
[ML] 머신러닝/딥러닝 - 모두를 위한 딥러닝 (1) (0) | 2019.10.01 |
[ML] 머신러닝/딥러닝 - 모두를 위한 딥러닝 (2) (0) | 2019.09.27 |