1 minute read

데이터를 여러 개의 가우시안 분포의 혼합으로 모델링하여 각 데이터 포인트가 특정 가우시안 분포에 속할 확률을 추정하는 군집화 기법

데이터가 여러 개의 가우시안 분포의 혼합으로부터 생성되었다고 가정하는 확률 모델로, 각 클러스터는 개별 가우시안 분포를 가지며, 이를 이용해 데이터 포인트들이 어떤 가우시안 분포에서 왔는지의 확률을 추정하고 클러스터링에 활용하며, Expectation-Maximization (EM) 알고리즘을 통해 모델 파라미터를 학습한다.

Gaussian Mixture Model

EM Algorithm 을 통해 model 을 learning.

1

From LDA 로부터, Bayes’ classification 과 비슷하다.

But, Unsupervised learning 이기 때문에, Label Y 를 Cluster Z 로 exchange 하여 표현.

image

$\mu_k, \sum_k$ 뿐만 아니라, $\pi_k$ 에 대한 estimate of parameter 필요

EM algorithm 은 Expectation stepMaximization step 으로 구분

  • Expectation (기대값) step :
    • 현재의 추정된 parameter 를 통해 샘플을 cluster 에 assignment 하는 단계
  • Maximization (최대화) step :
    • Likelihood (로그 가능도) 의 기댓값을 maximization 하는 parameter 를 estimation 하는 단계


Expectation in GMM

현재의 추정된 parameter 를 통해 샘플을 cluster 에 assignment 하는 단계

Responsibility (책임값)을 계산하여, sample 마다 maximize value 를 figure out 해 주는 cluster 로 assignment.

image


Maximization in GMM

Likelihood (로그 가능도) 의 기댓값을 maximization 하는 parameter 를 estimation 하는 단계

First, Define likelihood of GMM to ${p(X|\pi,\mu,\sum)}$

Monotone increasing function’s log function 을 이용해 define log likelihood function.

image

Cluster var, $z_k$ 와 marginal 확률을 이용해 define log likelihood

image

${p(x,z)=p(z)\ p(x|z)}$ 의 성질을 이용해, 다음과 같이 도출

image

각 parameter 에 대해 partial differentiation (편미분) 했을 때, 0이 되는 point

image

Parameter, $\pi_k$ 는 cluster k 에 속할 확률로, ${\sum^K_{k=1}\pi_k=1}$ 의 조건식이 필요하다.

Therefore, Subject condition 을 Lagrange multiplier vector 로 exchange.

image


Advantage in GMM

  • 각 유형별 data 의 density 가 일정하지 않거나 boundary 가 obscure 해도 clustering 이 잘 된다.


Disadvantage in GMM

  • Need to set number of cluster, K
  • Data 가 normal distribution 의 communicated 로 explain 된다는 assume 이 틀리다면, 성능이 떨어진다.
  • Cost of calculate is high. 때문에 대량의 데이터에는 사용하기 어려움

Leave a comment