Dataset(Train, Validation, Test)
2021. 10. 20. 16:25ㆍ카테고리 없음
728x90
Training Set
- 모델 학습시에 쓰이는 dataset
Validation Set
- 모델 학습중 모델의 성능을 검증하는데 쓰이는 dataset
- 모델의 hyperparameter와 configuration을 tuning 하는데 쓰임(학습이 잘 되고 있는지)
- validation set으로 모델 평가
- 오버피팅 방지
Test Set
- 학습 완료 후 모델을 테스트하는 분리된 dataset
- 편향되지 않은 모델성능 평가지표 제공
How to split dataset
- Hyperparameter
- 많은 경우 : 큰 validation set 필요
- 적은 경우 : 작아도 가능
- 최적화 전략
- data percentage
- less training data : high variance in training, 학습시키기 부족
- less testing/validation data : greater variance, 평가 metric이 적절한 모델 튜닝을 만들지 못한다.
- 가장 흔히 쓰이는 비율
- 데이터가 적을경우 cross-validation 사용
3 common pitfalls in the training data split
Low-quality training data
- garbage in, garbage out
- 고품질 데이터가 모델성능에도 좋은 영향을 미친다.
- training dataset의 작은 차이에도 모델 성능에 많은 영향을 미침
Overfitting
- training data에 너무 맞추면 보지 못한 validation/test set 에서 성능이 하락한다.
Overemphasis on Validation and Test Set metrics
- 적절한 metric의 선택이 전반적 모델 성능 추적에 좋은 영향을 끼친다.
Reference
https://www.v7labs.com/blog/train-validation-test-set#train-validation-test