์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- dropout
- tensorflow
- ์กฐํฉ๋ก
- lazy propagation
- ๊ฐ๋์ ๋ง๋ก
- ์๋ฐ์คํฌ๋ฆฝํธ
- ์๊ณ ๋ฆฌ์ฆ
- ๊ฐ๋์_๋ง๋ก
- ํ๋ก์ด๋ ์์ฌ
- dfs
- BFS
- ๋ฌธ์์ด
- ํ๊ณ ๋ก
- ์ด๋ถ ํ์
- ๋ค์ต์คํธ๋ผ
- ํฌ๋ฃจ์ค์นผ
- c++
- ๋ฐฑํธ๋ํน
- ๋ฏธ๋๋_ํ์ฌ์_๊ณผ๊ฑฐ๋ก
- Overfitting
- DP
- pytorch
- ์ฐ์ ์์ ํ
- ๋ถํ ์ ๋ณต
- ๋๋น ์ฐ์ ํ์
- ์ธ๊ทธ๋จผํธ ํธ๋ฆฌ
- NEXT
- back propagation
- 2023
- object detection
- Today
- Total
Doby's Lab
์ U-Net์ Output์์๋ ReLU๊ฐ ์๋๋ผ Sigmoid๋ฅผ ์ธ๊น? ๋ณธ๋ฌธ
์ U-Net์ Output์์๋ ReLU๊ฐ ์๋๋ผ Sigmoid๋ฅผ ์ธ๊น?
๋๋น(Doby) 2024. 5. 17. 00:49๐ค Problem
์ธ์
์ ์งํํ๋ ์ค ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ์ ๋ํด ํผ๋๋ฐฑ์ ์งํํ๋ค๊ฐ ์ง๋ฌธ์ ๋ฐ์๋ค. '๋ชจ๋ธ ๋ด์์๋ ReLU๋ฅผ ์ฐ๋๋ฐ ์ ๋ง์ง๋ง์์๋ ๊ฐ์๊ธฐ Sigmoid'๋ฅผ ์ฐ๋์?', ์์งํ๊ฒ ๋นํฉํ๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, ๊ฐ๋จํ ๋งํ๋ฉด ์ด ์ง๋ฌธ์ ๋ํ ๋ต์ ํ๋ฅ ๋ก ๊ฐ๋จํ๊ฒ ํํํ๊ธฐ ์ํจ์ด๋ผ ์ ๋ฆฌํ ์ ์๋ค.
์ด์ ๋ํด์ 'ReLU์ ๋นํด ์๋์ ์ผ๋ก Sigmoid์ Output์ด ๊ธฐ์ค ๊ฐ 0.5์ ์ํ์ฌ 0๊ณผ 1๋ก ํ๋ณํ๊ธฐ ์ฝ๋ค.(?)'๋ผ๊ณ ๋ตํ ๊ฑฐ ๊ฐ๋ค. ์ฌ์ค ์ ํํ๊ฒ ๊ธฐ์ต์ด ์ ๋๋ค. ์ํผ ํ๋ฆฐ ๋ต์ด์๋ค. Sigmoid์ ์ถ๋ ฅ์ 0 ํน์ 1๋ก ๊ฐ์ง๋ค๊ณ ํ์๋? ๊ทธ๋ฌ๋ค๋ฉด, ์ ๊ทธ๋ฐ ๋ง์ ํ์๊น...
๊ทธ๋ฆฌ๊ณ , ๋ ์ค์ค๋ก๋ ๋ต์ด ์์์ฐฎ์์ '๋ชจ๋ธ ๋ด์์ Sigmoid๋ฅผ ์ฐ์ง ์๋ ์ด์ '๋ผ๋ ๋ฐ๋์ ๊ฒฝ์ฐ์์๋ ์ค๋ช
ํ๋ค. ์ด๋ Sigmoid์ ๋ฏธ๋ถ ์ต๋๊ฐ์ด 0.25์ด๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ ๊น์ผ๋ฉด ๊น์์๋ก ์ญ์ ํ ์์ Gradient Vanishing ๋ฌธ์ ๊ฐ ๋ฐ์ํ ํ๋ฅ ์ ๋์ด๊ธฐ ๋๋ฌธ์ด๋ผ ์ค๋ช
ํ๋ค.
๊ทธ๋์, ์ธ์
์ด ๋๋๊ณ ๋ ์ฐ์ฐํด์ ์ด์ ๋ํด ์๊ฐํด ๋ณด๊ณ , ์ ๋ต์ด ์๋ ๋์ ์๊ฐ์ ์ ์ด๋ณธ๋ค.
์ Semantic Segmentation(U-Net)์ Output์์๋ ReLU๊ฐ ์๋๋ผ Sigmoid๋ฅผ ์ธ๊น?
(๋ค ์ฐ๊ณ ๋์ ์๊ฐํด ๋ณด๋ ์ด๊ฑด Binary Classification์ด๋ผ ์๊ฐํด๋ ๋ ๋ฌธ์ ์๋ค.)
+ ์ถ๊ฐ์ ์ผ๋ก, ์ด์ ๋ํด์ ๋ค์ด๋ธ์ ๋ค๋ฅธ ๋ถ์ผ ๋ฉํ ๋๋ค๊ณผ ์๊ฒฌ์ ๋๋์ด๋ณด์๋ค. ๋ค๋ค ๋ฆ์ ๋ฐค์ธ๋ฐ๋ ๋๋ฌด ๊ฐ์ฌํ๊ฒ ๋ค์ํ ๊ด์ ์์ ์๊ฒฌ์ ์๊ธฐํด ์ฃผ์
์ ์ด ๊ธ์ ๋ฉํ ๋๋ค์ ์๊ฒฌ์ ๋ ์ ์ด๋๋ค. ๊ฐ์ฌํฉ๋๋ค ๋ฉํ ๋๋ค :)
1๏ธโฃ ๊ธฐ์ค ๊ฐ์ ๋ํ ๋ฒ์์ ๋ฌธ์
2๊ฐ์ ์๊ฐ์ด ๋ ์ฌ๋๋๋ฐ, 1๋ฒ์งธ ์๊ฐ์ ReLU๊ฐ ๊ฐ์ง๋ ๋ฒ์๋ฅผ ์๊ฐํ๋ค. ReLU๊ฐ ๊ฐ์ง ์ ์๋ ๊ฐ์ ๋ฒ์๋ \([0, \infty)\)์ ๊ฐ๋ค. \(\infty\) ๊ฐ์ด ํฐ๋ฌด๋์์ด ๋๋ฌด ํฌ๊ธฐ ๋๋ฌธ์, ์ต์ข ํ์ฑํ ํจ์๋ก ReLU๋ฅผ ๊ฐ์ง๋ ๋ชจ๋ธ์ด ํ์ต์ ํ๋ค๋ ์ํฉ๊ณผ ๊ทธ ๋ชจ๋ธ์ ์ ๋ ฅ ์ํ์ ์คฌ์ ๋ ์ํฉ์ ๊ฐ์ ํด ๋ณด์.
![](https://blog.kakaocdn.net/dn/bE1L8W/btsHqyaPXLG/PbEzaOttj8QGSKIfLXafYK/img.png)
๊ทธ๋ ์ถ๋ ฅ Mask์์ ํฝ์
์ ์ต์๊ฐ์ด 0์ด๊ณ , ์ต๋๊ฐ์ด 1.2๋ผ๊ณ ํด๋ณด์. ๊ทธ๋ฌ๋ฉด, ํด๋น ์ถ๋ ฅ Mask์์ Positive์ Negative๋ฅผ ๊ฐ๋ฅผ ์ ์๋ ๊ธฐ์ค ๊ฐ์ ๋ฌด์์ด ๋์ด์ผ ํ๋๊ฐ? 0.6์ด ๋์ด์ผ ํ๋๊ฐ?
0.6์ด ๋๋ค๊ณ ํ์ ๋, ๋ค๋ฅธ ์ํ์ ์คฌ๋๋ ์ถ๋ ฅ Mask์์ 1.4๊ฐ ๋์จ๋ค๋ฉด, ๋ค์ ๊ธฐ์ค ๊ฐ์ 0.7๋ก ๋ฐ๊ฟ์ผ ํ๋๊ฐ?
๋ฌผ๋ก , ์ถ๋ ฅ์ด 1์ ๊ฐ๊น๊ฒ ํ์ต์ ํ๊ธฐ ๋๋ฌธ์ ์ผ๋ฐ์ ์ผ๋ก Sigmoid์์ 0.5๋ฅผ ๊ธฐ์ค ๊ฐ์ผ๋ก ์จ์ Positive์ Negative๋ฅผ ๊ฐ๋ฅด๋ฏ์ด ReLU๋ 0.5๋ฅผ ์ด๋ค๊ณ ํด๋ ํฐ ๋ฌธ์ ๋ ์์ ๊ฒ์ผ๋ก ์์ํ๋ค.
ํ์ง๋ง, ์ด๊ฒ์ Sigmoid์ ๋น๊ตํ์ ๋๋ ๋ฌธ์ ์ ์ด๋ผ๋ ์๊ฐ๊น์ง ๋ ๋ค.
๊ทธ๋์ ReLU ๊ฐ์ด ๊ฐ์ง๋ ๋ฒ์์ ๋ํด Positive์ Negative๋ฅผ ๊ตฌ๋ถ ์ง์ ์ ์๋ ๊ธฐ์ค ๊ฐ์ ์ ํ๋ ๊ฒ์ด ๋ชจํธํ๋ค.
์ด ๋๋ฌธ์ '\((0, 1)\)์ ๋ฒ์๋ก ๊ฐ๋ Sigmoid๋ฅผ ์ฌ์ฉํด์ ๋ณดํธ์ ์ธ ๊ธฐ์ค ๊ฐ์ธ 0.5๋ฅผ ์ฌ์ฉํ์ฌ, ReLU์ ๋นํด ์์ ์ ์ผ๋ก Positive์ Negative๋ฅผ ๊ตฌ๋ถํ ์ ์๊ฒ ํ๋ ๊ฒ์ด ์๋๊ฐ?'๋ผ๋ ๊ฒ์ด ์ฒซ ๋ฒ์งธ ์๊ฐ์ด๋ค.
+ ์ด์ ๋ํด์ ๋ฉํ ๋๋ค์ ์๊ฒฌ์ ์ด์ง ๋ถ๋ฅ์์ ๋์ค๋ ์ถ๋ ฅ ๊ฐ์ ํด๋์ค์ ๋ํ 'ํ๋ฅ '๋ก ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ReLU๋ก ์ฌ์ฉํ ๊ฒฝ์ฐ, \([0, \infty)\)์ ๋ฒ์๋ฅผ ๋ค์ \((0, 1)\)๋ก ํํํ์ฌ ํ๋ฅ ์ฒ๋ผ ํด์ํ ์ ์๋๋ก ํ๋ ๋ฒ๊ฑฐ๋ก์์ด ์๊ธด๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก, 1๋ฒ์ ๋ํด์๋ ๋ค๋ค ๊ฐ์ ์๊ฐ์ด์์ต๋๋ค. 'ํ๋ฅ ๊ฐ์ผ๋ก ํํ'์ด๋ผ๋ ํค์๋๋ก ์ ๊ทผ์ ํ์ ๋, ํ๋น์ฑ์ด ๋ถ์ฌ๋๋ ๋ฏํ์ต๋๋ค.
2๏ธโฃ Gradient Descent์ ๋๋ฑ์ฑ ๋ฌธ์
+ ํ ์๋ฅผ ํตํด์ ํด๋น ๊ฐ์ค์ ๋ฌธ์ ๊ฐ ๋ ์ ์๋ค๋ ํด์์ด ๋์ด์ ํ๊ธฐ๋ฅผ ์์ผ์ผ ํ๋ ๊ฐ์ค์ด์ง๋ง, ์ ๊ทผ์ ํ๋ ๊ณผ์ ์์ ํฅ๋ฏธ๋ก์ ๋ค๋ ์๊ฐ์ด ๋ค์ด์ ์ด๋ฅผ ๊ทธ๋๋ก ๋จ๊ฒจ๋๊ณ , ๊ทธ ์๋์์ ์ ๋ฌธ์ ๊ฐ ๋์ง ์๋ ๊ฒ์ธ์ง์ ๋ํด ์๋ก์ด ํด์์ ์ถ๊ฐ๋ก ๊ธ์ ๋จ๊ฒจ๋์์ต๋๋ค.
์์ ๋๊ฐ์ด ReLU๋ฅผ ์ต์ข
ํ์ฑํ ํจ์๋ก ์ฌ์ฉํ๋ ๋ชจ๋ธ์ด ์๊ณ , ์ด๋ฒ์๋ ์ํ์ ๋ฃ์๋ค.
์ด๋, ์ด๋ ํฝ์
์์๋ ์ถ๋ ฅ ๊ฐ์ด 0.6์ด์๊ณ , ๋ค๋ฅธ ํฝ์
์์๋ ์ถ๋ ฅ ๊ฐ์ด 0.8์ด์์ผ๋ฉฐ, ๋ ํฝ์
๋ชจ๋ ์ค์ ๊ฐ์ด 1์ด๋ผ๊ณ ๊ฐ์ ํ์.
๊ทธ๋ฆฌ๊ณ , ํฐ๋ฌด๋์๊ฒ ์ง๋ง ๋ชจ๋ธ์ \(Model = \sigma(Wx+b), \:(\sigma = \text{acti function})\)๋ผ๊ณ ๊ฐ์ ํด ๋ณด์. ๋ ์ถ๋ ฅ 0.6๊ณผ 0.8์ ๋ํด์ \(W\)๋ฅผ ์
๋ฐ์ดํธํ๊ธฐ ์ํด์ Gradient Descent๋ฅผ ํ๋ค๊ณ ํ๋ฉด, ์์ ์๋์ ๊ฐ์ด ๋์ฌ ๊ฒ์ด๋ค. (์์ค ํจ์๋ MSE Loss๋ก ๊ฐ์ )
$$ \frac{\delta L}{\delta w} = \frac{\delta L}{\delta \sigma(z)} \cdot \frac{\delta\sigma(z)}{\delta z} \cdot \frac{\delta z}{\delta w} $$
๋ฏธ๋ถ์ ์๋ฆฌ์ ๋ฐ๋ผ ์ฒซ ๋ฒ์งธ ํญ์ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ์์กดํ ๊ฐ์ ๊ฐ๊ณ , ์ธ ๋ฒ์งธ ํญ์ ๋ชจ๋ธ์ ์
๋ ฅ์ ์์กดํ ๊ฐ์ ๊ฐ์ง๊ฒ ๋๋๋ฐ ๋ ๋ฒ์งธ ํญ์ ๋ชจ๋ธ์ ์ถ๋ ฅ์ด 0.6์ด๋ , 0.8์ด๋ ๊ด๊ณ์์ด ๋ฌด์กฐ๊ฑด 1์ ๊ฐ๊ฒ ๋๋ค. ReLU์ ์
๋ ฅ์ด ์์์ผ ๋ ๋ฏธ๋ถ ๊ฐ์ ๋ฌด์กฐ๊ฑด 1์ด๊ธฐ ๋๋ฌธ์ด๋ค.
๋น์ฐํ ์ 1๋ฒ์ฒ๋ผ ์ด๊ฒ์ ๋ฌธ์ ๊ฐ ๋์ง ์์ ์๋ ์๋ค. ์ด๋ฏธ ์ฒซ ๋ฒ์งธ ํญ๊ณผ ์ธ ๋ฒ์งธ ํญ์์ ์
์ถ๋ ฅ์ ์ํด ์์กดํ ๊ฐ์ ์
๋ฐ์ดํธํ ๊ฐ์ผ๋ก ์๋ ค์ฃผ๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋๋ ์ด๊ฒ ๋ง์๊น?
Sigmoid๋ผ๋ฉด, ์ด๊ฒ์ด ๋ฌธ์ ๊ฐ ๋ ๊ฑฐ๋ ์๊ฐ๋ ํ์ง ์๋๋ค. ์๋ํ๋ฉด, ์๋์ Sigmoid์ ์
๋ ฅ์ ๋ํ ๋ฏธ๋ถ ๊ฐ์ ์๊ฐํํ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ดํด๊ฐ ๋๋ค. ํน์, ์๋์ Sigmoid์ ๋ฏธ๋ถ์ ๋ณธ๋ค๋ฉด, ์ดํด๊ฐ ๋๋ค.
$$ \Phi'(x) = \Phi(x)(1-\Phi(x)) $$
![](https://blog.kakaocdn.net/dn/bXnO0i/btsHqQI6btO/CNNOvtSIccIkr2SV8tomCK/img.jpg)
๋ชจ๋ธ์ ์
์ถ๋ ฅ์ด ๊ฐ๋ค๋ฉด, Gradient Descent์ ์ฒซ ๋ฒ์งธ ํญ, ์ธ ๋ฒ์งธ ํญ์ ReLU๋ฅผ ์ฐ๋ , Sigmoid๋ฅผ ์ฐ๋ ํ์ฑํ ํจ์์ ์์กดํ์ง ์์์ ๊ฐ๊ธฐ ๋๋ฌธ์ ๊ณ ๋ คํ์ง ์๊ณ , ๋ ๋ฒ์งธ ํญ์ ๋จ๋
์ผ๋ก ๋ดค์ ๋, ๋ชจ๋ธ์ ์ถ๋ ฅ์ ๋ฐ๋ฅธ ๋ฏธ๋ถ ๊ฐ์ด ๋ฌ๋ผ์ง๋ค.
๋ชจ๋ธ์ ์ถ๋ ฅ์ด 0.6์ด์๋ค๋ฉด, 1์ ๋ ๊ฐ๊น์์ง๊ธฐ ์ํด \(\frac{\delta\sigma}{\delta z}\) ๊ฐ์ด 0.8์ผ ๋๋ณด๋ค ํฐ ๊ฐ์ ๊ฐ์ง๊ฒ ๋๋ค.
๋ค์ ๋งํด์ \(\frac{\delta\sigma}{\delta z}\)์ ๊ฐ์ด ReLU์ผ ๋๋ ์ถ๋ ฅ์ด ๋ฌ๋ผ๋ ๋ณํ์ง ์๋๋ฐ, Sigmoid์ผ ๋๋ ๋ณํ๋ ๊ฐ์ ๊ฐ๊ธฐ ๋๋ฌธ์ด๋ผ ๋ณผ ์ ์๋ค. ์๋ก ๋ค๋ฅธ ์ถ๋ ฅ์ ๋ํด์ ์
๋ฐ์ดํธํด์ผ ํ๋ ์์ด ๊ฐ์ผ๋ฉด ์ ๋๊ธฐ ๋๋ฌธ์ด๋ค. (๋ค์ ๋งํ์ง๋ง, ๋ค๋ฅด๊ธด ํ๋ค. ํ์ง๋ง, Gradient Descent์ ๋ ๋ฒ์งธ ํญ์ ๋ํด์๋ง ์๊ธฐ๋ฅผ ํด๋ณด๋ ๊ฒ์ด๋ค.)
์ฆ, ์ต์ข
Output์์๋ ReLU๊ฐ ์๋ Sigmoid๋ฅผ ์ฌ์ฉํด์ผ ๋ชจ๋ธ์ ์ต์ ํํ๋ ๊ณผ์ ์์ ๋ ์ ๊ตํ Gradient ๊ฐ์ ๊ฐ์ง ์ ์๊ฒ ๋๋ค.
+ ์ฌ์ค ์ด๋ฏธ ReLU๊ฐ ์๋ Sigmoid๋ฅผ ์ฐ๋ ์ด์ ๋ 'ํ๋ฅ ๊ฐ์ผ๋ก ํํํ๊ธฐ ์ํจ'์์ ๋์ด ๋ฌ๋ค. ํ์ง๋ง, 2๋ฒ์ ๋ํด์ ๋ฉํ ๋๋ค๊ณผ ์ด์ผ๊ธฐ๋ฅผ ํด๋ดค์ ๋, ๋ด ์๊ฒฌ์ ๋ฐ๋ก ์ ํ ์ ์๋ ์๋ก์ด ์๊ฐ์ด ๋ค์ด์ ์ด๋ฅผ ๋จ๊ฒจ๋๋ค.
Gradient Descent๋ฅผ ๊ตฌํ๋ ์ \(\frac{\delta L}{\delta w}\) ๋ ๋ฏธ๋ถ์ ์ฐ์ ๋ฒ์น์ ์ํด์ ์ฌ๋ฌ ํญ๋ค๋ก ํ์ด์ธ ์ ์๋ค. ์ฆ, ๋
๋ฆฝ์ ์ผ๋ก ํญ๋ค์ ์์ ๊ฐ๋จํํ์ฌ ๋ณผ ์๋ ์๋ค. ๊ทธ๋ฐ๋ฐ, ๋
๋ฆฝ์ ์ผ๋ก ๋ค๋ฃจ์ด ๋ณผ ์๋ ์์๊น? ์๋๋ค. ํฉ์ฑํจ์์ ๋ฏธ๋ถ๋ฒ์ ๋ฐ๋ฅด๋ฉด, ์ด๋ ๋ฌด์กฐ๊ฑด ๊ณฑํด์ ธ ์๋ ํํ์ด๊ณ , ๋ฐ๋ก ๋ถ๋ฆฌ๋ฅผ ํ ์ ์๊ธฐ ๋๋ฌธ์ ์ฐ์ ๋ฒ์น์ผ๋ก ํ์ด์ด ๊ฐ ํญ๋ค์ ๋ํด์ ๋
๋ฆฝ์ ์ธ ํด์์ ๋ถ๊ฐ๋ฅํ๋ฉฐ, ๋ฌด์กฐ๊ฑด ์ ์ฒด์ ์ธ ํญ๋ค์ ๊ณฑ์ผ๋ก ํด์์ ํด์ผ ํ๋ค.
์ฆ, ์์์ ๋งํ 2๋ฒ์งธ ํญ์ด ReLU๋ฅผ ์ฌ์ฉํ์ ๋๋ ์ด๋ค ์
์ถ๋ ฅ์ด๊ฑด ๊ฐ์ง ์๋๋?(์์๋ผ๋ ์กฐ๊ฑด ํ์)๋ผ๋ ์๋ฌธ์ ๋ํด์ 1๋ฒ์งธ ํญ๊ณผ 3๋ฒ์งธ ํญ์ด ์
์ถ๋ ฅ์ ์์กดํ์ฌ ๊ฒฐ๊ณผ์ ์๋ก ๋ค๋ฅธ ์ํฅ์ ๋ฏธ์น๊ณ ์๊ณ , ์ด๋ฅผ ํด์ํ ๋๋ ๋ชจ๋ ํ๋์ ํญ์ฒ๋ผ ํด์์ ํด์ผ ํ๊ธฐ ๋๋ฌธ์ Gradient Descent์ ๋๋ฑ์ฑ๊ณผ ์ ๊ตํจ์ด๋ผ๋ ๋ฌธ์ ๋ฅผ ์ธ๊ธํ๊ธฐ์๋ ๋ค์ ๋ถ์ ์ ํจ์ด ์์ ๊ฑฐ๋ผ๋ ๊ฒ์ด ์๋ก์ด ์๊ฒฌ์ด์ ๋ฐ๋ก ์ด๋ค.
๐ P.S.
์ด ๋ฌธ์ ๊ฐ ๊ฒฐ๊ตญ Binary Classifcation์ผ ๋๋ ๊ฐ์ ๋ฌธ์ ๋ผ๊ณ ๋ณผ ์ ์๋ค.
๊ทธ๋ฆฌ๊ณ , ์ด ๋ฌธ์ ์ ๋ํด์ ์๊ฐํ๋ฉด์ ์ ๋ต์ด ์ ํด์ ธ ์๋ ๋ฌธ์ ๋ ์๋ ์๋ ์๊ฒ ๋ค๋ ์๊ฐ์ด ๋ค๊ธฐ๋ ํ๋ค.
+ ์ด์ ๋ํด์ ๋ด๊ฐ ์๋ฌธ์ ํ์๋ ์ ๋ค ์ด์ธ์๋ ์๋กญ๊ฒ ์๊ฒ ๋๋ ๊ฒ๋ค์ด ์ ๋ง ๋ง์๋ค.
์๋์ธต์์ Sigmoid๊ฐ ์๋ ReLU๋ฅผ ์ฌ์ฉํ๋ ์ด์ ๋ Gradient Vanishing ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ๋ ๋ง์ง๋ง, ์์์ธ ์ถ๋ ฅ์ ๋ชจ๋ ๋ฒ๋ฆฌ๋ ReLU๋ฅผ ์ ์ฌ์ฉํ๋๋ ๊ด์ ์ ๋ํด์๋ ์ถ๋ ฅ์ Sparse ํ๊ฒ ๋ง๋ค์ด์ ์ฐ์ฐ์ ํจ์จ์ฑ์ด ์ฌ๋ผ๊ฐ๋ค๋ ์๊ฒฌ์ด ์์๋ค.
https://www.quora.com/Should-ReLU-be-avoided-for-input-data-that-has-a-lot-of-negative-values-in-machine-learning-models-as-an-activation-function-given-that-ReLU-totally-disregards-negative-values-by-returning-a-zero-output
Should ReLU be avoided for input data that has a lot of negative values in machine learning models as an activation function, gi
Answer: ReLU activations shouldnโt be avoided just because the input features are negative. The features are multiplied with weights that can be negative as well, thus making the actual inputs to the neuron positive. If you consider the topology of a sin
www.quora.com
๋ํ, ์์ฆ์ ReLU๊ฐ ์๋ GELU๋ฅผ ๋ง์ด ์ฌ์ฉํ๋ค๊ณ ํ๋ค. ์ต๊ทผ์ ConvNext๋ฅผ ๋ฆฌ๋ทฐํ๋ฉด์ ์ ํจ์๋ฅผ ๋ง์ด ๋ดค๋ ๊ฑฐ ๊ฐ์๋ฐ, ๋จ์ํ ์๊ฐํ๋ ๊ฒ๋ง ๋ดค์ ๋๋ ๋ชจ๋ ์ ์ ๋ฏธ๋ถ์ด ๊ฐ๋ฅํ ๊ฒ์ฒ๋ผ ๋ณด์ฌ์ ์ฐ๋ ๊ฑด๊ฐ?๋ผ๋ ์๋ฌธ์ด ๋ค๊ธฐ๋ ํ์๋ค. ์ด์ ๋ํด์๋ ์ถํ์ '์ GELU๋ก ๋์ฒด๋๊ณ ์์๊น?'๋ผ๋ ์ด์ ๋ก ์๊ฐ์ ํด๋ด์ผ๊ฒ ๋ค.
๋ง์ง๋ง์ผ๋ก, ๋ด๊ฐ ํ๋ ธ๋ ๋ฌธ์ ๋ Sigmoid๊ฐ 0.5๋ฅผ ๊ธฐ์ค์ผ๋ก 0๊ณผ 1์ ๋ถ๋ฅํ๋ค๊ณ ์ค๋ช
ํ๋ ๊ฒ์ด๋ผ ํ์
จ๋ค. 0.5๋ผ๋ ์๊ณ๊ฐ์ Sigmoid์ ์ฐ๊ด์ด ์๋ค๋ ๊ฒ์ด ๊ทธ์ ๋ํ ๋ต๋ณ์ด์๋ค.
๊ทธ๋์, ์ด ๋ถ๋ถ์ ๋ํด 0๊ณผ 1๋ก ๋ถ๋ฅํ๋ ์๊ณ๊ฐ์ ๊ตฌํ๋ ๊ฑด ROC Curve๋ฅผ ๊ทธ๋ ค์ ์๊ณ๊ฐ์ ๊ตฌํ ๋ค์์ ๋ถ๋ฅํ๋ ๊ฒ์ด ๋ง๊ณ , ์ผ๋ฐ์ ์ผ๋ก 0.5๋ฅผ ๋ง์ด ์ฐ๋ ๊ฒ์ ์ค๋ช
์ ์์ด ์กฐ๊ธ ๋ ์ฌ์ด ๊ด์ ์ ์ ์ํ๊ฑฐ๋ ๊ฒฐ๊ตญ์ ์ ์ ๋ง์์ด๋ผ๊ณ ํ์ ๋ค.
์์ง๋ ๋ฐฐ์ธ ๊ฒ ๋ง๋ค. ๋ค์ ํ๋ฒ, ๋ฆ์ ์๊ฐ์ ๋ฉ์ง ์๊ฒฌ๋ค์ ๋งํด์ค ๋ฉํ ๋๋ค๊ป ๊ฐ์ฌ๋๋ฆฝ๋๋ค..:)