May 01, 2019
해당 게시물은 Edwith에서 제공하는
머신러닝과 딥러닝 BASIC을 듣고 요약 정리한 글입니다.
다음과 같은 트레이닝 셋(Training Set)이 있다고 가정한다.
Size | Price |
---|---|
2104 | 400 |
1600 | 330 |
2400 | 369 |
1416 | 232 |
3000 | 540 |
1985 | 300 |
1534 | 315 |
1427 | 199 |
1380 | 212 |
1494 | 243 |
이 트레이닝 셋을 가지고 모델을 만들어 학습시키고
다시 이 트레이닝 셋으로 값을 예측하게 된다면
이 값들을 외우는 경우와 같아 100% 정확도를 갖지만 좋지 않은 결과다.
따라서 트레이닝 셋의 70% 정도를 Training Set으로 사용하고
나머지 뒷 부분의 30% 정도를 Test Set으로 사용한다.
Training Set을 가지고만 모델을 생성해 학습 시키고
Test Set으로 모델이 잘 만들어 졌는지 확인해야 한다.
가지고 있는 Training Set을 두개로 나눈다.
Training Set으로 학습을 시키고 Validation Set으로
𝛂, 𝜆의 최적값을 찾는 튜닝을 하기위해 사용한다.
튜닝을 한 후 Test Set으로 예측하여 값을 확인한다.
데이터 셋이 많을 경우 사용
100만개의 데이터 셋이 있다고 가정할 경우
10만개 씩 나누어 데이터 셋을 사용해 학습
이전 학습의 결과를 기억하고 있어야 한다.