Liner Discriminant Analysis (LDA)
클래스 간의 분산을 최대화하고 클래스 내 분산을 최소화하여 데이터를 선형 결합으로 변환해 분류하는 차원 축소 기법
Bayes’ Classifier
- $P(Y=k|X=x)=\frac{P(X=x|Y=k)P(Y=k)}{P(X=x)}=\frac{P(X=x|Y=k)P(Y=k)}{\sum^K_{i=1}P(X=x|Y=i)P(Y=i)}$
- Posterior probability value 를 가장 크게 만들어주는 class 로 classification
- $arg\underset{1\leq k\leq K}{\textrm{max}}P(Y=k|X=x)$
- $P(Y=k|X=x)=$ $\frac{P(X=x|Y=k)}{P(Y=k)}\sum^K_{l=1}{P(X=x|Y=l)}{P(Y=l)}$
- Prior probability value ${\pi_k}$ : Data 가 k번째 class 에서 뽑혔을 확률
- Density function : ${f_k(x)}$ $=P(X=x|Y=k)$
- 우도 확률 $P(X|Y)$ : Each sample 이 i.i.d 할 때, PDF(probability density function)의 multiply 와 동일
Linear Discriminate Analysis
Linear discriminate analysis (선형 판별 분석)
- 다음의 두 가지 assumption (가정)을 사용함
-
Density function 이 Normal 혹은 Gaussian density 를 따른다.
- $f_k(x)=\frac{1}{\sqrt{2\pi}\sigma_k}e^{-\frac{1}{2}(\frac{x-\mu_k}{\sigma_k})^2}$
-
$\sigma_k=\sigma\textrm{ for all }k$
- $p_k(x)=P(Y=k|X=x)=\frac{\pi_k\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x-\mu_k}{\sigma})^2}}{\sum^K_{i=1}\pi_l\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x-\mu_l}{\sigma})^2}}$
-
Discriminant function (판별 함수)
- Data $X = x$ 를 classification 하기 위해 discriminant function 을 define 해야 함
- Discriminant function 는 $p_k(x)$ 에 대한 값을 도출하는 함수
- 두 번째 assumption 에 따라 quadratic 항을 삭제할 수 있어 linear discriminant function 를 갖게 된다.
- $\textrm{Discriminant function }\delta_k(x)=x\cdot \frac{\mu_k}{\sigma^2}-\frac{\mu^2_k}{2\sigma^2}+\textrm{log}(\pi_k)$
- 데이터를 통한 estimated value 를 사용
- $\widehat \pi_k=\frac{n_k}{n}$
- $\widehat \mu_k=\frac{1}{n_k}\sum_{i:y_i=k}x_i$
-
$\widehat \sigma^2 = \frac{1}{n-k}\sum^K_{k=1}\sum_{i:y_i=k}(x_i-\widehat\mu_k)^2$
(cf. 통계적 estimate 를 할 땐, 표본자료 중 모집단에 대한 정보를 주는 independent 자료를 사용)
-
$\widehat \delta_k(x)=x\cdot\frac{\widehat\mu_k}{\widehat\sigma^2}-\frac{\widehat\mu^2_k}{2\widehat\sigma^2}+\textrm{log}(\widehat\pi_k)$
- Boundary formation 은 $\sigma_1(x)=\sigma_2(x)$ 를 통해 얻을 수 있다.
LDA for Multiple Feature
LDA for $p > 1$
- feature 의 종류가 2개 이상인 경우, 두 가지 assumption 을 다음과 같이 modify.
- Density Function 이 Multivariate Gaussian Density 를 따른다.
$f_k(x)=\frac{1}{(2\pi)^{\frac{p}{2}}|\sum_k|^{\frac1 2}}e^{-\frac1 2 (x-\mu_k)^T\sum^{-1}_k(x-\mu_k)}$
- $\sum_k = \sum \textrm{ for all }k$
- $\sigma_k(x)=x^T\sum^{-1}\mu_k-\frac1 2\mu^T_k\sum^{-1}\mu_k+\textrm{log}(\pi_k)\ = c_{k0}+c_{k1}x_1+c_{k2}x_2+…+c_{kp}x_p$
LDA for $p = 2, k=3$
Quadratic Discriminant Analysis
- Nonlinear decision boundary 를 위해선 QDA를 사용한다.
- 두 번째 assumption 을 없애고, each class 는 각자covariance matrix $\sum_k$ 를 갖는다.
- $f_k(x)=\frac1{(2\pi)^{\frac p 2}|\sum_k|^{\frac1 2}}e^{-\frac{1}{2}(x-\mu_k)^T\sum^{-1}_k (x-\mu_k)}$
- $\delta_k(x)=-\frac1 2(x-\mu_k)^T\sum^{-1}_k(x-\mu_k)-\frac1 2 \textrm{ log }|\sum_k|+\textrm{log }\pi_k$
- $=$ ${-\frac1 2 x^T\sum^{-1}_k x}$ $+x^T\sum^{-1}_k\mu_k-\frac1 2\mu^T_k\sum^{-1}_k-\frac1 2 \textrm{log }|\sum_k|+\textrm{log }\pi_k$
Leave a comment