티스토리 뷰

Gradient가 어떻게 작용하는지 자세히 살펴보겠습니다.


image

> 먼저, Gradient를 이해하기 위해서 bias가 없는 간단한 모델을 가정하겠습니다.

image

> H(x) = x 가 데이터를 모두 지나는 정확한 모델 (W=1)이며 cost = 0입니다.

image

> 실제 값과 예측 값의 차이가 작아질수록 Cost 값이 작아집니다.

> 정확한 모델을 구현하기 위해서는 Cost값을 최소화 시켜야 합니다.

> 우리는 Gradient을 값을 구해서 Gradient의 크기만큼 조금씩 이동해 Cost의 최소값을 구합니다.

image

image

> Gradient= Cost function의 W의 미분값

> Cost function의 Gradient을 기존의 W값에서 제거해 주면서 Cost값이 최소에 가깝도록 한다.

> 이때, Learning rate는 사용자가 직접 지정하는 hyperparameter이다.




참고링크 :

[PyTorch] Lab-03 Deeper Look at GD

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
글 보관함