less than 1 minute read

밀도 기반 군집화 알고리즘으로, 밀도가 높은 영역에서 군집을 형성하고, 밀도가 낮은 영역은 노이즈로 간주하는 방식

밀도 기반의 클러스터링 알고리즘으로, 특정 공간 내 데이터 포인트의 밀도를 기반으로 클러스터를 형성하며, 사용자가 지정한 반경 ε 내에 충분한 수(일반적으로 사용자가 지정한 최소 포인트 수 MinPts)의 이웃 포인트가 있으면 하나의 클러스터를 형성하거나 기존 클러스터를 확장하고, 이 과정을 통해 임의의 형상의 클러스터를 찾을 수 있으며, 이상치를 구분할 수 있다.

DBSCAN

  • Density 가 높은 point 를 center 로 두고, 이 point 를 중심으로 clustering 하는 method.

  • A any standard point 반경 $\epsilon$ 내에 샘플이 min-points 보다 많으면, 같은 cluster 로 assignment.

1

figure 1


e.g., Set min-points = 3 and number of samples are over than,

Cluster 로 할당 된 샘플들을 해당 cluster’ core-point 로 setting 하여 repeat

Min-points 갯수를 dissatisfaction 하는 border-point sample (If a sample is assigned to cluster but, can’t be core-point) 가 생성될 경우 brake.

2

Figure 2


모든 Data sample 에 대해 계산하며, Cluster pointNoise point를 구분.

3

Figure 3


4

Figure 4

Advantage

  • Variable 한 shape 의 cluster class 를 classification 가능
  • Noise point (아웃 라이어) 를 찾아낼 수 있다.

Disadvantage

  • Cluster 의 갯수 설정에서는 자유롭지만, Necessary to set $\epsilon$ and min-points,
  • Calculate cost 가 높아서, It takes a long time.

Leave a comment