Clustering
데이터 포인트들을 유사한 특성을 가진 그룹으로 묶어주는 비지도 학습 기법
비지도 학습의 한 형태로, 데이터를 내재된 패턴을 기반으로 유사한 특성을 가진 서브그룹, 즉 ‘클러스터’로 그룹화하는 머신러닝 기법이며, K-평균, 계층적 클러스터링, DBSCAN 등 다양한 알고리즘을 포함하며, 이는 데이터 탐색, 패턴 인식, 이미지 분할, 고객 세분화 등 다양한 분야에서 활용된다.
Clustering
-
Case of unsupervised learning, 데이터 샘플들을 별 개의 cluster 로 grouping 하는 것
-
Classification algorithm in unsupervised learning
-
Data 의 특징에 따라 fractionize(세분화) 에 사용
-
Anomaly detection (이상 검출) 에 사용
-
Similarity 가 높은 데이터를 동일한 group 으로 classify
-
서로 다른 cluster 는 특성이 상이하도록 군집화
-
cluster 내부의 distribution (within dist’) minimizing, cluster 간 distribution (between dist’) maximizing
Parametric vs. Non-Parametric
Parametric assumption
모수적 추정
- 주어진 데이터가 특정 데이터 분포를 따른다고 가정
- GMM (Gaussian Mixture Model) 이 대표적.
Non-parametric
비 모수적 추정
- 데이터가 특정 분포를 따르지 않는다는 가정 아래, density(밀도) of probability 를 estimate
- K-means, Mean Shift, DBSCAN 등의 알고리즘이 있다.
Leave a comment