Dimension Reduction (차원 축소)

October 4, 2023 1 minute read

고차원의 데이터를 더 작은 차원으로 변환하여 중요한 정보는 유지하면서 데이터의 복잡도를 줄이고 계산 효율성을 높이는 기법

계산 비용을 줄이고, 데이터를 시각화하기 용이하게 만들며, 때로는 모델의 성능 향상을 도모하기 위해 사용되며, 주요 방법론으로는 주성분 분석(PCA), 선형 판별 분석(LDA), t-SNE 등이 있다.

Data 에 대한 Reduction of dimension 은 calculate speed 뿐만 아니라 performance 면에서 필요함
model learning 에 unusable 한 feature (속도 향상) 또는 방해되는 feature (성능 향상) 을 제거해야 한다.
Unusable feature 은, over-fitting 문제를 발생시키는 feature 로 이해 가능
it is relative to Dimensionality Curse

Dimensionality Curse

dimension 이 증가하면서, number of learning data (N) 가 number of dimension (p) 보다 작져 성능이 저하되는 현상
dimension 내에 exist 하는 데이터들이 sparse (희박)해 지는 현상
Empty space 가 많아지며, 이는 정보가 없는, garbage space 가 많아지는 것을 의미한다,
이 문제를 해결하는 방법은 크게 두 가지가 있다.
1. Collect data
2. Dimension reduction
차원 축소 방법으로 크게 Feature selection (형상 선택) 과, Feature extraction (형상 추출) 두 가지를 사용

Feature Selection (형상 선택)

종속 변수와 가장 관련성이 높은 feature 만을 선택해, 나머지를 제외시킴
- e.g., 각각의 feature 를 model 에 포함시킴으로서, loss value 가 낮아지는 정도를 비교
Bagged Tree 에서의 피처 중요도 계산
피처 사이의 상관 관계가 매우 높아서, 한쪽이 의미 없는 경우를 제외시킴
Normally, Heatmap 을 통해 여러 feature 의 covariance (공분산) 를 분석

Feature Extraction (형상 추출)

개별 feature 을 제거하는 대신, Low level dimension 으로 projection 하여 데이터와 모델을 단순화
Feature Extraction 의 algorithm 종류
- PCA (주성분 분석)
- SVD (특이값 분해)
- LDA
- t-SNE
- UMAP

Leave a comment

You may also enjoy

Partial Derivative

July 19, 2025 less than 1 minute read

A partial derivative measures how a function changes when only one variable changes and the rest stay fixed.

Derivative

July 19, 2025 1 minute read

Derivative, Differentiate

Mathematics GuideMap

July 18, 2025 less than 1 minute read

Learning Rate

July 17, 2025 1 minute read

Learning Rate