일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- 문자열
- dfs
- DP
- 가끔은 말로
- pytorch
- NEXT
- lazy propagation
- 플로이드 와샬
- 우선 순위 큐
- 너비 우선 탐색
- dropout
- 다익스트라
- Overfitting
- 미래는_현재와_과거로
- 크루스칼
- 조합론
- 가끔은_말로
- 알고리즘
- 이분 탐색
- 세그먼트 트리
- tensorflow
- object detection
- 백트래킹
- c++
- BFS
- 2023
- 회고록
- 분할 정복
- 자바스크립트
- back propagation
Archives
- Today
- Total
목록Chain Rule (1)
Doby's Lab
미분의 연쇄 법칙(Chain Rule)에 대하여
Gradient Vanishing 현상에 대해 공부하던 중에 Back Propagation의 작동 원리에 대해 알아야 했고, 이 과정에서 미분의 연쇄 법칙이 쓰여 정리해 봅니다. 미분의 연쇄 법칙(Chain Rule) 미분의 연쇄 법칙이란 말이 잘 안 쓰일 뿐이지, 학생 시절에 꽤 많이 봤던 법칙 중 하나입니다. 미분의 연쇄 법칙이란 합성함수에 대한 미분법입니다. \( y=f(g(x)) \)라는 합성함수를 예로 들어 설명해 보겠습니다. 이 합성함수를 미분하면 아래와 같은 결과가 나오는 것은 다 압니다. $$ y' = f'(g(x))\times g'(x) $$ 이게 왜 이렇게 되는지 궁금해졌습니다. 미분을 한다는 것을 자세히 풀어보면 아래와 같습니다. 미분의 유도 과정 $$ \begin{align} y' ..
AI/Math
2023. 1. 14. 16:40