Linear Regression의 Hypothesis 와 cost

December 30, 2018

해당 게시물은 Edwith에서 제공하는
머신러닝과 딥러닝 BASIC을 듣고 요약 정리한 글입니다.

예시) 시험 점수의 예측 : Regression

x(hours)	y(score)
10	90
9	80
3	50
2	30

다음과 같은 트레이닝 데이터를 가지고 학습
시간 값을 넣어 0점 ~ 100점 사이의 점수 예측

Regression (data)

x : 예측을 하기위한 데이터, feature
y : 예측을 해야하는 값

x	y
1	1
2	2
3	3

아래와 같은 그래프로 데이터를 표현 가능

x축이 x의 값을 표현하고 y축이 y의 값을 표현
Regression모델을 학습할 때는 하나의 가설을 세운다.
데이터가 있을 경우 데이터에 잘 맞는 Linear한 선을 찾는 것
위의 데이터는 H(x) = Wx + b와 같은 일차방정식으로 표현 가능
w와 b의 값에 따라 선이 결정된다.
여러가지 선 중에서 어떠한 선이 가장 알맞은지 결정해야한다.

무엇이 더 좋은가?

실제 데이터와 가설이 나타내는 데이터의 차이를
계산해 그 값이 더 작은 것이 좋은 가설이다.
이 것을 Cost Function 또는 Loss라고 한다.
H(x) - y는 음수가 나올 수 있어 좋지 않다.
일반적으로 차이를 제곱하여 사용한다.
cost = 차이의 제곱의 합 / 데이터 갯수로 일반화 가능
목표는 cost를 최소화하는 것 이다.

Written by@Minsu Kim

Software Engineer at KakaoPay Corp.