Training/Testing 데이타 셋

해당 게시물은 Edwith에서 제공하는
머신러닝과 딥러닝 BASIC을 듣고 요약 정리한 글입니다.


모델의 성능 평가

다음과 같은 트레이닝 셋(Training Set)이 있다고 가정한다.

Size Price
2104 400
1600 330
2400 369
1416 232
3000 540
1985 300
1534 315
1427 199
1380 212
1494 243

이 트레이닝 셋을 가지고 모델을 만들어 학습시키고
다시 이 트레이닝 셋으로 값을 예측하게 된다면
이 값들을 외우는 경우와 같아 100% 정확도를 갖지만 좋지 않은 결과다.

따라서 트레이닝 셋의 70% 정도를 Training Set으로 사용하고
나머지 뒷 부분의 30% 정도를 Test Set으로 사용한다.

Training Set을 가지고만 모델을 생성해 학습 시키고
Test Set으로 모델이 잘 만들어 졌는지 확인해야 한다.


Training, Validation and Test Set

가지고 있는 Training Set을 두개로 나눈다.
Training Set으로 학습을 시키고 Validation Set으로
𝛂, 𝜆최적값을 찾는 튜닝을 하기위해 사용한다.
튜닝을 한 후 Test Set으로 예측하여 값을 확인한다.


Online learning

데이터 셋이 많을 경우 사용
100만개의 데이터 셋이 있다고 가정할 경우
10만개 씩 나누어 데이터 셋을 사용해 학습
이전 학습의 결과를 기억하고 있어야 한다.


정확도 (Accuracy)

  • 얼마나 예측이 잘되는가?
  • Test Set의 Y값과 모델이 예측한 값을 비교
  • 최근 이미지 관련 예측 정확도는 95%를 넘는다.