목차
부트스트랩 샘플링(Bootstrap Sampling)
주어진 데이터로부터 동일한 크기로 복원 추출된 데이터. 데이터 내에서 반복적으로 샘플을 사용하는 resampling 방법 중 하나로써 비용과 시간이 많이 드는 데이터 수집을 스스로 해결할 수 있는 샘플링 방법
집계(Aggregating)
여러 분류 모델이 예측한 값들을 조합해서 투표(Voting)을 통해 하나의 결론을 도출하는 과정
- Hard Voting- 선거 투표와 같이 여러 개의 분류 모델에서 가장 많은 표를 받은 값을 예측으로 결정함
- Soft Voting
- 분류 유형 별로 확률을 구한 후 확률을 더한 값을 점수화하여 최대 점수를 가진 값을 예측값으로 결정함
배깅(Bagging)
Bootstrap과 Aggregating 을 합친 앙상블 기법으로, 데이터를 여러 개의 서로 다른 학습 데이터를 만들어 학습시킨 후 투표를 통해 가장 높은 예측값으로 최종 결론을 내림
- 랜덤으로 샘플 일부분을 Bag에 담는다는 의미
랜덤 포레스트(Random Forest)
여러 의사결정 나무를 배깅(Bagging)해서 예측을 실행하는 모델
오분류 비율이 얼마나 좋아졌는지를 봐야 함 (20.8 - 16.5까지 좋아짐)
domain knowledge 없이 계량형, 이산형 변수를 선별하기가 쉽지 않음 - minitab에서 자동 지원해줌
Data Science TIL-log
데이터 사이언스를 공부하고 있는 직장인의 TIL 블로그입니다. 게시글이 도움 되셨다면 구독과 좋아요 :)
'Machine Learning > #ML' 카테고리의 다른 글
[ML] MINITAB Decision Tree(CART), 앙상블(RF/Tree Net), Auto ML (1) (2) | 2022.11.25 |
---|---|
[ML] 머신러닝/딥러닝 - 모두를 위한 딥러닝 (1) (0) | 2019.10.01 |
[ML] 머신러닝/딥러닝 - 모두를 위한 딥러닝 (2) (0) | 2019.09.27 |