본문 바로가기

Machine Learning/#ML

[ML] MINITAB Decision Tree(CART), 앙상블(RF/Tree Net), Auto ML (2)

목차

부트스트랩 샘플링(Bootstrap Sampling)

주어진 데이터로부터 동일한 크기로 복원 추출된 데이터. 데이터 내에서 반복적으로 샘플을 사용하는 resampling 방법 중 하나로써 비용과 시간이 많이 드는 데이터 수집을 스스로 해결할 수 있는 샘플링 방법

일반적으로 샘플링 크기는 전체 데이터의 6~70%를 사용함

 

집계(Aggregating)

여러 분류 모델이 예측한 값들을 조합해서 투표(Voting)을 통해 하나의 결론을 도출하는 과정

  • Hard Voting- 선거 투표와 같이 여러 개의 분류 모델에서 가장 많은 표를 받은 값을 예측으로 결정함
  • Soft Voting

       - 분류 유형 별로 확률을 구한 후 확률을 더한 값을 점수화하여 최대 점수를 가진 값을 예측값으로 결정함

배깅(Bagging)

Bootstrap과 Aggregating 을 합친 앙상블 기법으로, 데이터를 여러 개의 서로 다른 학습 데이터를 만들어 학습시킨 후 투표를 통해 가장 높은 예측값으로 최종 결론을 내림

  • 랜덤으로 샘플 일부분을 Bag에 담는다는 의미

랜덤 포레스트(Random Forest)

여러 의사결정 나무를 배깅(Bagging)해서 예측을 실행하는 모델

오분류 비율이 얼마나 좋아졌는지를 봐야 함 (20.8 - 16.5까지 좋아짐)

CART 분류 결과 위에서 돌리기
CART 회귀 결과 위에서 돌리기

domain knowledge 없이 계량형, 이산형 변수를 선별하기가 쉽지 않음 - minitab에서 자동 지원해줌


 

 

Data Science TIL-log

데이터 사이언스를 공부하고 있는 직장인의 TIL 블로그입니다. 게시글이 도움 되셨다면 구독과 좋아요 :)