Gradient가 어떻게 작용하는지 자세히 살펴보겠습니다.
> 먼저, Gradient를 이해하기 위해서 bias가 없는 간단한 모델을 가정하겠습니다.
> H(x) = x 가 데이터를 모두 지나는 정확한 모델 (W=1)이며 cost = 0입니다.
> 실제 값과 예측 값의 차이가 작아질수록 Cost 값이 작아집니다.
> 정확한 모델을 구현하기 위해서는 Cost값을 최소화 시켜야 합니다.
> 우리는 Gradient을 값을 구해서 Gradient의 크기만큼 조금씩 이동해 Cost의 최소값을 구합니다.
> Gradient= Cost function의 W의 미분값
> Cost function의 Gradient을 기존의 W값에서 제거해 주면서 Cost값이 최소에 가깝도록 한다.
> 이때, Learning rate는 사용자가 직접 지정하는 hyperparameter이다.