Ensemble Learning (Complex)
여러 개의 모델을 학습 시켜 다양한 예측 결과들을 이용하는 방법
모든 machine learning model 과, regression, classification 문제 모두 적용 가능하다. 보통 Decision Tree 에서 자주 사용한다.
Ensemble Learning (Complex)
Bootstrap
- Parameter 의 분포를 정확하게 추정하기 위해서는 많은 표본 data sets 이 필요하다.
-
현재 가지고 있는 샘플을 Sampling with replacement 하여, 여러 개(B 개)의 data sets 을 만든다.
$\sigma_\alpha = \sqrt{\frac1{B-1}\sum^B_{i=1}(\hat{\alpha_i}-\frac 1 B \sum ^B_{j=1}\hat\alpha_j)^2}$
Bootstrap with n obs
- j-th 샘플이 첫 번째 bootstrap observation 으로 뽑히지 않을 확률 : $(1-\frac1 n)$
- j-th 샘플이 두 번째 bootstrap observation 으로 뽑히지 않을 확률 : $(1-\frac1 n)$
- 전체 bootstrap sample 에 j-th 샘플이 포함되지 않을 확률 : $(1-\frac1 n)^n$
- 데이터 개수 N이 충분히 많을 때 : $\underset{n \to \infty}{\lim}(1-\frac1n)^n=\frac1e$
- B개의 bootstrap data sets 를 생성했을 때, j-th 샘플이 없는 데이터 셋의 비율 : $\frac 1e \approx 1/3$
Leave a comment