December 30, 2018
해당 게시물은 Edwith에서 제공하는
머신러닝과 딥러닝 BASIC을 듣고 요약 정리한 글입니다.
x(hours) | y(score) |
---|---|
10 | 90 |
9 | 80 |
3 | 50 |
2 | 30 |
다음과 같은 트레이닝 데이터를 가지고 학습
시간 값을 넣어 0점 ~ 100점 사이의 점수 예측
x | y |
---|---|
1 | 1 |
2 | 2 |
3 | 3 |
아래와 같은 그래프로 데이터를 표현 가능
x축이 x
의 값을 표현하고 y축이 y
의 값을 표현
Regression모델을 학습할 때는 하나의 가설을 세운다.
데이터가 있을 경우 데이터에 잘 맞는 Linear한 선을 찾는 것
위의 데이터는 H(x) = Wx + b
와 같은 일차방정식으로 표현 가능
w
와 b
의 값에 따라 선이 결정된다.
여러가지 선 중에서 어떠한 선이 가장 알맞은지 결정해야한다.
실제 데이터와 가설이 나타내는 데이터의 차이를
계산해 그 값이 더 작은 것이 좋은 가설이다.
이 것을 Cost Function 또는 Loss라고 한다.
H(x) - y
는 음수가 나올 수 있어 좋지 않다.
일반적으로 차이를 제곱하여 사용한다.
cost = 차이의 제곱의 합 / 데이터 갯수
로 일반화 가능
목표는 cost
를 최소화하는 것 이다.