Data for Machine Learning
인공지능 모델에 사용되는 데이터의 종류와 형태
개요
- 인공지능 모델은 사실상, 많은 데이터들로 정의된 하나의 함수로 볼 수 있을만큼 데이터는 그 중요성이 매우 높다.
- 인공지능 모델을 학습하고 사용하기 위해 필요한 데이터는 그 형태와 종류가 다양하며,
- 우리는 그 형태 및 특성을 잘 알아야 모델을 적절하게 학습 또는 사용할 수 있기 때문에 어느정도의 숙지가 필요하다.
데이터의 종류
- 이미지 데이터
- 비디오 데이터
- COCO 형식 데이터
- 텍스트 데이터
- 오디오 데이터
- Table 데이터
- 시계열 데이터
- 센서 데이터
- 레이더 및 라이더 데이터
- 강화학습 데이터
- 메타 데이터
- 학습 데이터
학습 데이터
인공지능 모델을 학습할 때 사용하는 데이터는 크게 세 가지가 있다.
- Train
- Validation
- Test
Data Split (데이터 분배)
Test / Validation / Test 데이터로 분리는 필요로 하며, 각각의 데이터는 중복될 수 없다.
- 이러한 데이터는 6:2:2 / 7 : 1.5 : 1.5 / 8:1:1 등의 비율로 나누는데
- 데이터의 특성과 크기, feature 의 갯수 등 다양한 조건을 고려하여 나누어야 한다.
- 아래는 데이터를 분배함에 있어 사용할 수 있는 기법을 제시한다.
LOOCV
- Selected one random data in training data-sets
- Select and Verify each every single data where in training data-sets
- If data-sets are very enormous, that give rise to highly cost of calculate
K-fold
- Improve Loocv’s drawback
- Validate by dividing into ‘K’ part
Leave a comment