less than 1 minute read

여러 개의 모델을 학습 시켜 다양한 예측 결과들을 이용하는 방법

모든 machine learning model 과, regression, classification 문제 모두 적용 가능하다. 보통 Decision Tree 에서 자주 사용한다.

Screenshot_2023-03-13_at_10 40 51_AM


Ensemble Learning (Complex)



Bootstrap

  • Parameter 의 분포를 정확하게 추정하기 위해서는 많은 표본 data sets 이 필요하다.
  • 현재 가지고 있는 샘플을 Sampling with replacement 하여, 여러 개(B 개)의 data sets 을 만든다.

    $\sigma_\alpha = \sqrt{\frac1{B-1}\sum^B_{i=1}(\hat{\alpha_i}-\frac 1 B \sum ^B_{j=1}\hat\alpha_j)^2}$

    Screenshot_2023-03-13_at_10 49 42_AM


Bootstrap with n obs

  • j-th 샘플이 첫 번째 bootstrap observation 으로 뽑히지 않을 확률 : $(1-\frac1 n)$
  • j-th 샘플이 두 번째 bootstrap observation 으로 뽑히지 않을 확률 : $(1-\frac1 n)$
  • 전체 bootstrap sample 에 j-th 샘플이 포함되지 않을 확률 : $(1-\frac1 n)^n$
  • 데이터 개수 N이 충분히 많을 때 : $\underset{n \to \infty}{\lim}(1-\frac1n)^n=\frac1e$
  • B개의 bootstrap data sets 를 생성했을 때, j-th 샘플이 없는 데이터 셋의 비율 : $\frac 1e \approx 1/3$

Leave a comment