Training/Testing 데이타 셋

May 01, 2019

해당 게시물은 Edwith에서 제공하는
머신러닝과 딥러닝 BASIC을 듣고 요약 정리한 글입니다.

모델의 성능 평가

다음과 같은 트레이닝 셋(Training Set)이 있다고 가정한다.

Size	Price
2104	400
1600	330
2400	369
1416	232
3000	540
1985	300
1534	315
1427	199
1380	212
1494	243

이 트레이닝 셋을 가지고 모델을 만들어 학습시키고
다시 이 트레이닝 셋으로 값을 예측하게 된다면
이 값들을 외우는 경우와 같아 100% 정확도를 갖지만 좋지 않은 결과다.

따라서 트레이닝 셋의 70% 정도를 Training Set으로 사용하고
나머지 뒷 부분의 30% 정도를 Test Set으로 사용한다.

Training Set을 가지고만 모델을 생성해 학습 시키고
Test Set으로 모델이 잘 만들어 졌는지 확인해야 한다.

Training, Validation and Test Set

가지고 있는 Training Set을 두개로 나눈다.
Training Set으로 학습을 시키고 Validation Set으로
𝛂, 𝜆의 최적값을 찾는 튜닝을 하기위해 사용한다.
튜닝을 한 후 Test Set으로 예측하여 값을 확인한다.

Online learning

데이터 셋이 많을 경우 사용
100만개의 데이터 셋이 있다고 가정할 경우
10만개 씩 나누어 데이터 셋을 사용해 학습
이전 학습의 결과를 기억하고 있어야 한다.

정확도 (Accuracy)

얼마나 예측이 잘되는가?
Test Set의 Y값과 모델이 예측한 값을 비교
최근 이미지 관련 예측 정확도는 95%를 넘는다.

Written by@Minsu Kim

Software Engineer at KakaoPay Corp.