๊ด€๋ฆฌ ๋ฉ”๋‰ด

Doby's Lab

์™œ U-Net์˜ Output์—์„œ๋Š” ReLU๊ฐ€ ์•„๋‹ˆ๋ผ Sigmoid๋ฅผ ์“ธ๊นŒ? ๋ณธ๋ฌธ

Thinking

์™œ U-Net์˜ Output์—์„œ๋Š” ReLU๊ฐ€ ์•„๋‹ˆ๋ผ Sigmoid๋ฅผ ์“ธ๊นŒ?

๋„๋น„(Doby) 2024. 5. 17. 00:49

๐Ÿค” Problem

์„ธ์…˜์„ ์ง„ํ–‰ํ•˜๋˜ ์ค‘ ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ์— ๋Œ€ํ•ด ํ”ผ๋“œ๋ฐฑ์„ ์ง„ํ–‰ํ•˜๋‹ค๊ฐ€ ์งˆ๋ฌธ์„ ๋ฐ›์•˜๋‹ค. '๋ชจ๋ธ ๋‚ด์—์„œ๋Š” ReLU๋ฅผ ์“ฐ๋Š”๋ฐ ์™œ ๋งˆ์ง€๋ง‰์—์„œ๋Š” ๊ฐ‘์ž๊ธฐ Sigmoid'๋ฅผ ์“ฐ๋‚˜์š”?', ์†”์งํ•˜๊ฒŒ ๋‹นํ™ฉํ–ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, ๊ฐ„๋‹จํžˆ ๋งํ•˜๋ฉด ์ด ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต์€ ํ™•๋ฅ ๋กœ ๊ฐ„๋‹จํ•˜๊ฒŒ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•จ์ด๋ผ ์ •๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค.
 
์ด์— ๋Œ€ํ•ด์„œ 'ReLU์— ๋น„ํ•ด ์ƒ๋Œ€์ ์œผ๋กœ Sigmoid์˜ Output์ด ๊ธฐ์ค€ ๊ฐ’ 0.5์— ์˜ํ•˜์—ฌ 0๊ณผ 1๋กœ ํŒ๋ณ„ํ•˜๊ธฐ ์‰ฝ๋‹ค.(?)'๋ผ๊ณ  ๋‹ตํ•œ ๊ฑฐ ๊ฐ™๋‹ค. ์‚ฌ์‹ค ์ •ํ™•ํ•˜๊ฒŒ ๊ธฐ์–ต์ด ์•ˆ ๋‚œ๋‹ค. ์•”ํŠผ ํ‹€๋ฆฐ ๋‹ต์ด์—ˆ๋‹ค. Sigmoid์˜ ์ถœ๋ ฅ์„ 0 ํ˜น์€ 1๋กœ ๊ฐ€์ง„๋‹ค๊ณ  ํ–ˆ์—ˆ๋‚˜? ๊ทธ๋žฌ๋‹ค๋ฉด, ์™œ ๊ทธ๋Ÿฐ ๋ง์„ ํ–ˆ์„๊นŒ...
 
๊ทธ๋ฆฌ๊ณ , ๋‚˜ ์Šค์Šค๋กœ๋„ ๋‹ต์ด ์‹œ์›์ฐฎ์•„์„œ '๋ชจ๋ธ ๋‚ด์—์„œ Sigmoid๋ฅผ ์“ฐ์ง€ ์•Š๋Š” ์ด์œ '๋ผ๋Š” ๋ฐ˜๋Œ€์˜ ๊ฒฝ์šฐ์—์„œ๋„ ์„ค๋ช…ํ–ˆ๋‹ค. ์ด๋Š” Sigmoid์˜ ๋ฏธ๋ถ„ ์ตœ๋Œ“๊ฐ’์ด 0.25์ด๊ธฐ ๋•Œ๋ฌธ์— ๋ชจ๋ธ์˜ ๊นŠ์œผ๋ฉด ๊นŠ์„์ˆ˜๋ก ์—ญ์ „ํŒŒ ์‹œ์— Gradient Vanishing ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์„ ๋†’์ด๊ธฐ ๋•Œ๋ฌธ์ด๋ผ ์„ค๋ช…ํ–ˆ๋‹ค. 
 
๊ทธ๋ž˜์„œ, ์„ธ์…˜์ด ๋๋‚˜๊ณ ๋„ ์ฐ์ฐํ•ด์„œ ์ด์— ๋Œ€ํ•ด ์ƒ๊ฐํ•ด ๋ณด๊ณ , ์ •๋‹ต์ด ์•„๋‹Œ ๋‚˜์˜ ์ƒ๊ฐ์„ ์ ์–ด๋ณธ๋‹ค.
 
์™œ Semantic Segmentation(U-Net)์˜ Output์—์„œ๋Š” ReLU๊ฐ€ ์•„๋‹ˆ๋ผ Sigmoid๋ฅผ ์“ธ๊นŒ?
(๋‹ค ์“ฐ๊ณ  ๋‚˜์„œ ์ƒ๊ฐํ•ด ๋ณด๋‹ˆ ์ด๊ฑด Binary Classification์ด๋ผ ์ƒ๊ฐํ•ด๋„ ๋  ๋ฌธ์ œ์˜€๋‹ค.)
 
+ ์ถ”๊ฐ€์ ์œผ๋กœ, ์ด์— ๋Œ€ํ•ด์„œ ๋‹ค์ด๋ธŒ์˜ ๋‹ค๋ฅธ ๋ถ„์•ผ ๋ฉ˜ํ† ๋‹˜๋“ค๊ณผ ์˜๊ฒฌ์„ ๋‚˜๋ˆ„์–ด๋ณด์•˜๋‹ค. ๋‹ค๋“ค ๋Šฆ์€ ๋ฐค์ธ๋ฐ๋„ ๋„ˆ๋ฌด ๊ฐ์‚ฌํ•˜๊ฒŒ ๋‹ค์–‘ํ•œ ๊ด€์ ์—์„œ ์˜๊ฒฌ์„ ์–˜๊ธฐํ•ด ์ฃผ์…”์„œ ์ด ๊ธ€์— ๋ฉ˜ํ† ๋‹˜๋“ค์˜ ์˜๊ฒฌ์„ ๋” ์ ์–ด๋‘”๋‹ค. ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค ๋ฉ˜ํ† ๋‹˜๋“ค :)


1๏ธโƒฃ ๊ธฐ์ค€ ๊ฐ’์— ๋Œ€ํ•œ ๋ฒ”์œ„์˜ ๋ฌธ์ œ

2๊ฐœ์˜ ์ƒ๊ฐ์ด ๋– ์˜ฌ๋ž๋Š”๋ฐ, 1๋ฒˆ์งธ ์ƒ๊ฐ์€ ReLU๊ฐ€ ๊ฐ€์ง€๋Š” ๋ฒ”์œ„๋ฅผ ์ƒ๊ฐํ–ˆ๋‹ค. ReLU๊ฐ€ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ๊ฐ’์˜ ๋ฒ”์œ„๋Š” \([0, \infty)\)์™€ ๊ฐ™๋‹ค. \(\infty\) ๊ฐ’์ด ํ„ฐ๋ฌด๋‹ˆ์—†์ด ๋„ˆ๋ฌด ํฌ๊ธฐ ๋•Œ๋ฌธ์—, ์ตœ์ข… ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ReLU๋ฅผ ๊ฐ€์ง€๋Š” ๋ชจ๋ธ์ด ํ•™์Šต์„ ํ–ˆ๋‹ค๋Š” ์ƒํ™ฉ๊ณผ ๊ทธ ๋ชจ๋ธ์— ์ž…๋ ฅ ์ƒ˜ํ”Œ์„ ์คฌ์„ ๋•Œ ์ƒํ™ฉ์„ ๊ฐ€์ •ํ•ด ๋ณด์ž.

Sigmoid & ReLU

๊ทธ๋•Œ ์ถœ๋ ฅ Mask์—์„œ ํ”ฝ์…€์˜ ์ตœ์†Ÿ๊ฐ’์ด 0์ด๊ณ , ์ตœ๋Œ“๊ฐ’์ด 1.2๋ผ๊ณ  ํ•ด๋ณด์ž. ๊ทธ๋Ÿฌ๋ฉด, ํ•ด๋‹น ์ถœ๋ ฅ Mask์—์„œ Positive์™€ Negative๋ฅผ ๊ฐ€๋ฅผ ์ˆ˜ ์žˆ๋Š” ๊ธฐ์ค€ ๊ฐ’์€ ๋ฌด์—‡์ด ๋˜์–ด์•ผ ํ•˜๋Š”๊ฐ€? 0.6์ด ๋˜์–ด์•ผ ํ•˜๋Š”๊ฐ€?
 
0.6์ด ๋œ๋‹ค๊ณ  ํ–ˆ์„ ๋•Œ, ๋‹ค๋ฅธ ์ƒ˜ํ”Œ์„ ์คฌ๋”๋‹ˆ ์ถœ๋ ฅ Mask์—์„œ 1.4๊ฐ€ ๋‚˜์˜จ๋‹ค๋ฉด, ๋‹ค์‹œ ๊ธฐ์ค€ ๊ฐ’์€ 0.7๋กœ ๋ฐ”๊ฟ”์•ผ ํ•˜๋Š”๊ฐ€?
 
๋ฌผ๋ก , ์ถœ๋ ฅ์ด 1์— ๊ฐ€๊น๊ฒŒ ํ•™์Šต์„ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ผ๋ฐ˜์ ์œผ๋กœ Sigmoid์—์„œ 0.5๋ฅผ ๊ธฐ์ค€ ๊ฐ’์œผ๋กœ ์จ์„œ Positive์™€ Negative๋ฅผ ๊ฐ€๋ฅด๋“ฏ์ด ReLU๋„ 0.5๋ฅผ ์“ด๋‹ค๊ณ  ํ•ด๋„ ํฐ ๋ฌธ์ œ๋Š” ์—†์„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒํ•œ๋‹ค.
 
ํ•˜์ง€๋งŒ, ์ด๊ฒƒ์€ Sigmoid์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ๋Š” ๋ฌธ์ œ์ ์ด๋ผ๋Š” ์ƒ๊ฐ๊นŒ์ง€ ๋“ ๋‹ค.
 
๊ทธ๋ž˜์„œ ReLU ๊ฐ’์ด ๊ฐ€์ง€๋Š” ๋ฒ”์œ„์— ๋Œ€ํ•ด Positive์™€ Negative๋ฅผ ๊ตฌ๋ถ„ ์ง€์„ ์ˆ˜ ์žˆ๋Š” ๊ธฐ์ค€ ๊ฐ’์„ ์ •ํ•˜๋Š” ๊ฒƒ์ด ๋ชจํ˜ธํ•˜๋‹ค.
 
์ด ๋•Œ๋ฌธ์— '\((0, 1)\)์„ ๋ฒ”์œ„๋กœ ๊ฐ–๋Š” Sigmoid๋ฅผ ์‚ฌ์šฉํ•ด์„œ ๋ณดํŽธ์ ์ธ ๊ธฐ์ค€ ๊ฐ’์ธ 0.5๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ReLU์— ๋น„ํ•ด ์•ˆ์ •์ ์œผ๋กœ Positive์™€ Negative๋ฅผ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹Œ๊ฐ€?'๋ผ๋Š” ๊ฒƒ์ด ์ฒซ ๋ฒˆ์งธ ์ƒ๊ฐ์ด๋‹ค.
 
+ ์ด์— ๋Œ€ํ•ด์„œ ๋ฉ˜ํ† ๋‹˜๋“ค์˜ ์˜๊ฒฌ์€ ์ด์ง„ ๋ถ„๋ฅ˜์—์„œ ๋‚˜์˜ค๋Š” ์ถœ๋ ฅ ๊ฐ’์„ ํด๋ž˜์Šค์— ๋Œ€ํ•œ 'ํ™•๋ฅ '๋กœ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ReLU๋กœ ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ, \([0, \infty)\)์˜ ๋ฒ”์œ„๋ฅผ ๋‹ค์‹œ \((0, 1)\)๋กœ ํ‘œํ˜„ํ•˜์—ฌ ํ™•๋ฅ ์ฒ˜๋Ÿผ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๋ฒˆ๊ฑฐ๋กœ์›€์ด ์ƒ๊ธด๋‹ค. ๊ฒฐ๋ก ์ ์œผ๋กœ, 1๋ฒˆ์— ๋Œ€ํ•ด์„œ๋Š” ๋‹ค๋“ค ๊ฐ™์€ ์ƒ๊ฐ์ด์—ˆ์Šต๋‹ˆ๋‹ค. 'ํ™•๋ฅ  ๊ฐ’์œผ๋กœ ํ‘œํ˜„'์ด๋ผ๋Š” ํ‚ค์›Œ๋“œ๋กœ ์ ‘๊ทผ์„ ํ–ˆ์„ ๋•Œ, ํƒ€๋‹น์„ฑ์ด ๋ถ€์—ฌ๋˜๋Š” ๋“ฏํ–ˆ์Šต๋‹ˆ๋‹ค.


2๏ธโƒฃ Gradient Descent์˜ ๋™๋“ฑ์„ฑ ๋ฌธ์ œ

+ ํ† ์˜๋ฅผ ํ†ตํ•ด์„œ ํ•ด๋‹น ๊ฐ€์„ค์€ ๋ฌธ์ œ๊ฐ€ ๋  ์ˆ˜ ์—†๋‹ค๋Š” ํ•ด์„์ด ๋˜์–ด์„œ ํ๊ธฐ๋ฅผ ์‹œ์ผœ์•ผ ํ•˜๋Š” ๊ฐ€์„ค์ด์ง€๋งŒ, ์ ‘๊ทผ์„ ํ•˜๋Š” ๊ณผ์ •์—์„œ ํฅ๋ฏธ๋กœ์› ๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ค์–ด์„œ ์ด๋ฅผ ๊ทธ๋Œ€๋กœ ๋‚จ๊ฒจ๋‘๊ณ , ๊ทธ ์•„๋ž˜์—์„œ ์™œ ๋ฌธ์ œ๊ฐ€ ๋˜์ง€ ์•Š๋Š” ๊ฒƒ์ธ์ง€์— ๋Œ€ํ•ด ์ƒˆ๋กœ์šด ํ•ด์„์„ ์ถ”๊ฐ€๋กœ ๊ธ€์„ ๋‚จ๊ฒจ๋‘์—ˆ์Šต๋‹ˆ๋‹ค.
 
์œ„์™€ ๋˜‘๊ฐ™์ด ReLU๋ฅผ ์ตœ์ข… ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋ชจ๋ธ์ด ์žˆ๊ณ , ์ด๋ฒˆ์—๋„ ์ƒ˜ํ”Œ์„ ๋„ฃ์—ˆ๋‹ค.
 
์ด๋•Œ, ์–ด๋Š ํ”ฝ์…€์—์„œ๋Š” ์ถœ๋ ฅ ๊ฐ’์ด 0.6์ด์—ˆ๊ณ , ๋‹ค๋ฅธ ํ”ฝ์…€์—์„œ๋Š” ์ถœ๋ ฅ ๊ฐ’์ด 0.8์ด์—ˆ์œผ๋ฉฐ, ๋‘ ํ”ฝ์…€ ๋ชจ๋‘ ์‹ค์ œ ๊ฐ’์ด 1์ด๋ผ๊ณ  ๊ฐ€์ •ํ•˜์ž. 
 
๊ทธ๋ฆฌ๊ณ , ํ„ฐ๋ฌด๋‹ˆ์—†๊ฒ ์ง€๋งŒ ๋ชจ๋ธ์„ \(Model = \sigma(Wx+b), \:(\sigma = \text{acti function})\)๋ผ๊ณ  ๊ฐ€์ •ํ•ด ๋ณด์ž. ๋‘ ์ถœ๋ ฅ 0.6๊ณผ 0.8์— ๋Œ€ํ•ด์„œ \(W\)๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๊ธฐ ์œ„ํ•ด์„œ Gradient Descent๋ฅผ ํ•œ๋‹ค๊ณ  ํ•˜๋ฉด, ์‹์€ ์•„๋ž˜์™€ ๊ฐ™์ด ๋‚˜์˜ฌ ๊ฒƒ์ด๋‹ค. (์†์‹ค ํ•จ์ˆ˜๋Š” MSE Loss๋กœ ๊ฐ€์ •)
 
$$ \frac{\delta L}{\delta w} = \frac{\delta L}{\delta \sigma(z)} \cdot \frac{\delta\sigma(z)}{\delta z} \cdot \frac{\delta z}{\delta w} $$
 
๋ฏธ๋ถ„์˜ ์›๋ฆฌ์— ๋”ฐ๋ผ ์ฒซ ๋ฒˆ์งธ ํ•ญ์€ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์— ์˜์กดํ•œ ๊ฐ’์„ ๊ฐ–๊ณ , ์„ธ ๋ฒˆ์งธ ํ•ญ์€ ๋ชจ๋ธ์˜ ์ž…๋ ฅ์— ์˜์กดํ•œ ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ๋˜๋Š”๋ฐ ๋‘ ๋ฒˆ์งธ ํ•ญ์€ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์ด 0.6์ด๋“ , 0.8์ด๋“  ๊ด€๊ณ„์—†์ด ๋ฌด์กฐ๊ฑด 1์„ ๊ฐ–๊ฒŒ ๋œ๋‹ค. ReLU์˜ ์ž…๋ ฅ์ด ์–‘์ˆ˜์ผ ๋•Œ ๋ฏธ๋ถ„ ๊ฐ’์€ ๋ฌด์กฐ๊ฑด 1์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.
 
๋‹น์—ฐํžˆ ์œ„ 1๋ฒˆ์ฒ˜๋Ÿผ ์ด๊ฒƒ์€ ๋ฌธ์ œ๊ฐ€ ๋˜์ง€ ์•Š์„ ์ˆ˜๋„ ์žˆ๋‹ค. ์ด๋ฏธ ์ฒซ ๋ฒˆ์งธ ํ•ญ๊ณผ ์„ธ ๋ฒˆ์งธ ํ•ญ์—์„œ ์ž…์ถœ๋ ฅ์— ์˜ํ•ด ์˜์กดํ•œ ๊ฐ’์„ ์—…๋ฐ์ดํŠธํ•  ๊ฐ’์œผ๋กœ ์•Œ๋ ค์ฃผ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ทธ๋ž˜๋„ ์ด๊ฒŒ ๋งž์„๊นŒ?
 
Sigmoid๋ผ๋ฉด, ์ด๊ฒƒ์ด ๋ฌธ์ œ๊ฐ€ ๋  ๊ฑฐ๋ž€ ์ƒ๊ฐ๋„ ํ•˜์ง€ ์•Š๋Š”๋‹ค. ์™œ๋ƒํ•˜๋ฉด, ์•„๋ž˜์˜ Sigmoid์— ์ž…๋ ฅ์— ๋Œ€ํ•œ ๋ฏธ๋ถ„ ๊ฐ’์„ ์‹œ๊ฐํ™”ํ•œ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ์ดํ•ด๊ฐ€ ๋œ๋‹ค. ํ˜น์€, ์•„๋ž˜์˜ Sigmoid์˜ ๋ฏธ๋ถ„์„ ๋ณธ๋‹ค๋ฉด, ์ดํ•ด๊ฐ€ ๋œ๋‹ค.
$$ \Phi'(x) = \Phi(x)(1-\Phi(x)) $$

Sigmoid์˜ ๋ฏธ๋ถ„ ๊ฐ’

๋ชจ๋ธ์˜ ์ž…์ถœ๋ ฅ์ด ๊ฐ™๋‹ค๋ฉด, Gradient Descent์˜ ์ฒซ ๋ฒˆ์งธ ํ•ญ, ์„ธ ๋ฒˆ์งธ ํ•ญ์€ ReLU๋ฅผ ์“ฐ๋“ , Sigmoid๋ฅผ ์“ฐ๋“  ํ™œ์„ฑํ™” ํ•จ์ˆ˜์— ์˜์กดํ•˜์ง€ ์•Š์•„์„œ ๊ฐ™๊ธฐ ๋•Œ๋ฌธ์— ๊ณ ๋ คํ•˜์ง€ ์•Š๊ณ , ๋‘ ๋ฒˆ์งธ ํ•ญ์„ ๋‹จ๋…์œผ๋กœ ๋ดค์„ ๋•Œ, ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์— ๋”ฐ๋ฅธ ๋ฏธ๋ถ„ ๊ฐ’์ด ๋‹ฌ๋ผ์ง„๋‹ค.
 
๋ชจ๋ธ์˜ ์ถœ๋ ฅ์ด 0.6์ด์—ˆ๋‹ค๋ฉด, 1์— ๋” ๊ฐ€๊นŒ์›Œ์ง€๊ธฐ ์œ„ํ•ด \(\frac{\delta\sigma}{\delta z}\) ๊ฐ’์ด 0.8์ผ ๋•Œ๋ณด๋‹ค ํฐ ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ๋œ๋‹ค.
 
๋‹ค์‹œ ๋งํ•ด์„œ \(\frac{\delta\sigma}{\delta z}\)์˜ ๊ฐ’์ด ReLU์ผ ๋•Œ๋Š” ์ถœ๋ ฅ์ด ๋‹ฌ๋ผ๋„ ๋ณ€ํ•˜์ง€ ์•Š๋Š”๋ฐ, Sigmoid์ผ ๋•Œ๋Š” ๋ณ€ํ•˜๋Š” ๊ฐ’์„ ๊ฐ–๊ธฐ ๋•Œ๋ฌธ์ด๋ผ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์„œ๋กœ ๋‹ค๋ฅธ ์ถœ๋ ฅ์— ๋Œ€ํ•ด์„œ ์—…๋ฐ์ดํŠธํ•ด์•ผ ํ•˜๋Š” ์–‘์ด ๊ฐ™์œผ๋ฉด ์•ˆ ๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. (๋‹ค์‹œ ๋งํ•˜์ง€๋งŒ, ๋‹ค๋ฅด๊ธด ํ•˜๋‹ค. ํ•˜์ง€๋งŒ, Gradient Descent์˜ ๋‘ ๋ฒˆ์งธ ํ•ญ์— ๋Œ€ํ•ด์„œ๋งŒ ์–˜๊ธฐ๋ฅผ ํ•ด๋ณด๋Š” ๊ฒƒ์ด๋‹ค.)
 
์ฆ‰, ์ตœ์ข… Output์—์„œ๋Š” ReLU๊ฐ€ ์•„๋‹Œ Sigmoid๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ๋ชจ๋ธ์„ ์ตœ์ ํ™”ํ•˜๋Š” ๊ณผ์ •์—์„œ ๋” ์ •๊ตํ•œ Gradient ๊ฐ’์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.
 
+ ์‚ฌ์‹ค ์ด๋ฏธ ReLU๊ฐ€ ์•„๋‹Œ Sigmoid๋ฅผ ์“ฐ๋Š” ์ด์œ ๋Š” 'ํ™•๋ฅ  ๊ฐ’์œผ๋กœ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•จ'์—์„œ ๋์ด ๋‚ฌ๋‹ค. ํ•˜์ง€๋งŒ, 2๋ฒˆ์— ๋Œ€ํ•ด์„œ ๋ฉ˜ํ† ๋‹˜๋“ค๊ณผ ์ด์•ผ๊ธฐ๋ฅผ ํ•ด๋ดค์„ ๋•Œ, ๋‚ด ์˜๊ฒฌ์— ๋ฐ˜๋ก ์„ ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ์ƒ๊ฐ์ด ๋“ค์–ด์„œ ์ด๋ฅผ ๋‚จ๊ฒจ๋‘”๋‹ค.
 
Gradient Descent๋ฅผ ๊ตฌํ•˜๋Š” ์‹ \(\frac{\delta L}{\delta w}\) ๋Š” ๋ฏธ๋ถ„์˜ ์—ฐ์‡„ ๋ฒ•์น™์— ์˜ํ•ด์„œ ์—ฌ๋Ÿฌ ํ•ญ๋“ค๋กœ ํ’€์–ด์“ธ ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰, ๋…๋ฆฝ์ ์œผ๋กœ ํ•ญ๋“ค์„ ์‹์„ ๊ฐ„๋‹จํ™”ํ•˜์—ฌ ๋ณผ ์ˆ˜๋Š” ์žˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ, ๋…๋ฆฝ์ ์œผ๋กœ ๋‹ค๋ฃจ์–ด ๋ณผ ์ˆ˜๋„ ์žˆ์„๊นŒ? ์•„๋‹ˆ๋‹ค. ํ•ฉ์„ฑํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„๋ฒ•์— ๋”ฐ๋ฅด๋ฉด, ์ด๋Š” ๋ฌด์กฐ๊ฑด ๊ณฑํ•ด์ ธ ์žˆ๋Š” ํ˜•ํƒœ์ด๊ณ , ๋”ฐ๋กœ ๋ถ„๋ฆฌ๋ฅผ ํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์— ์—ฐ์‡„ ๋ฒ•์น™์œผ๋กœ ํ’€์–ด์“ด ๊ฐ ํ•ญ๋“ค์— ๋Œ€ํ•ด์„œ ๋…๋ฆฝ์ ์ธ ํ•ด์„์€ ๋ถˆ๊ฐ€๋Šฅํ•˜๋ฉฐ, ๋ฌด์กฐ๊ฑด ์ „์ฒด์ ์ธ ํ•ญ๋“ค์˜ ๊ณฑ์œผ๋กœ ํ•ด์„์„ ํ•ด์•ผ ํ•œ๋‹ค.
 
์ฆ‰, ์œ„์—์„œ ๋งํ•œ 2๋ฒˆ์งธ ํ•ญ์ด ReLU๋ฅผ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ๋Š” ์–ด๋–ค ์ž…์ถœ๋ ฅ์ด๊ฑด ๊ฐ™์ง€ ์•Š๋Š๋ƒ?(์–‘์ˆ˜๋ผ๋Š” ์กฐ๊ฑด ํ•˜์—)๋ผ๋Š” ์˜๋ฌธ์— ๋Œ€ํ•ด์„œ 1๋ฒˆ์งธ ํ•ญ๊ณผ 3๋ฒˆ์งธ ํ•ญ์ด ์ž…์ถœ๋ ฅ์— ์˜์กดํ•˜์—ฌ ๊ฒฐ๊ณผ์— ์„œ๋กœ ๋‹ค๋ฅธ ์˜ํ–ฅ์„ ๋ฏธ์น˜๊ณ  ์žˆ๊ณ , ์ด๋ฅผ ํ•ด์„ํ•  ๋•Œ๋Š” ๋ชจ๋‘ ํ•˜๋‚˜์˜ ํ•ญ์ฒ˜๋Ÿผ ํ•ด์„์„ ํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— Gradient Descent์˜ ๋™๋“ฑ์„ฑ๊ณผ ์ •๊ตํ•จ์ด๋ผ๋Š” ๋ฌธ์ œ๋ฅผ ์–ธ๊ธ‰ํ•˜๊ธฐ์—๋Š” ๋‹ค์†Œ ๋ถ€์ ์ ˆํ•จ์ด ์žˆ์„ ๊ฑฐ๋ผ๋Š” ๊ฒƒ์ด ์ƒˆ๋กœ์šด ์˜๊ฒฌ์ด์ž ๋ฐ˜๋ก ์ด๋‹ค.


๐Ÿ˜€ P.S.

์ด ๋ฌธ์ œ๊ฐ€ ๊ฒฐ๊ตญ Binary Classifcation์ผ ๋•Œ๋„ ๊ฐ™์€ ๋ฌธ์ œ๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
 
๊ทธ๋ฆฌ๊ณ , ์ด ๋ฌธ์ œ์— ๋Œ€ํ•ด์„œ ์ƒ๊ฐํ•˜๋ฉด์„œ ์ •๋‹ต์ด ์ •ํ•ด์ ธ ์žˆ๋Š” ๋ฌธ์ œ๋Š” ์•„๋‹ ์ˆ˜๋„ ์žˆ๊ฒ ๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ค๊ธฐ๋„ ํ–ˆ๋‹ค.
 
+ ์ด์— ๋Œ€ํ•ด์„œ ๋‚ด๊ฐ€ ์˜๋ฌธ์„ ํ’ˆ์—ˆ๋˜ ์ ๋“ค ์ด์™ธ์—๋„ ์ƒˆ๋กญ๊ฒŒ ์•Œ๊ฒŒ ๋˜๋Š” ๊ฒƒ๋“ค์ด ์ •๋ง ๋งŽ์•˜๋‹ค.
 
์€๋‹‰์ธต์—์„œ Sigmoid๊ฐ€ ์•„๋‹Œ ReLU๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ๋Š” Gradient Vanishing ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๊ฒƒ๋„ ๋งž์ง€๋งŒ, ์Œ์ˆ˜์ธ ์ถœ๋ ฅ์„ ๋ชจ๋‘ ๋ฒ„๋ฆฌ๋Š” ReLU๋ฅผ ์™œ ์‚ฌ์šฉํ•˜๋ƒ๋Š” ๊ด€์ ์— ๋Œ€ํ•ด์„œ๋Š” ์ถœ๋ ฅ์„ Sparse ํ•˜๊ฒŒ ๋งŒ๋“ค์–ด์„œ ์—ฐ์‚ฐ์˜ ํšจ์œจ์„ฑ์ด ์˜ฌ๋ผ๊ฐ„๋‹ค๋Š” ์˜๊ฒฌ์ด ์žˆ์—ˆ๋‹ค.
https://www.quora.com/Should-ReLU-be-avoided-for-input-data-that-has-a-lot-of-negative-values-in-machine-learning-models-as-an-activation-function-given-that-ReLU-totally-disregards-negative-values-by-returning-a-zero-output

Should ReLU be avoided for input data that has a lot of negative values in machine learning models as an activation function, gi

Answer: ReLU activations shouldnโ€™t be avoided just because the input features are negative. The features are multiplied with weights that can be negative as well, thus making the actual inputs to the neuron positive. If you consider the topology of a sin

www.quora.com

 
๋˜ํ•œ, ์š”์ฆ˜์€ ReLU๊ฐ€ ์•„๋‹Œ GELU๋ฅผ ๋งŽ์ด ์‚ฌ์šฉํ•œ๋‹ค๊ณ  ํ•œ๋‹ค. ์ตœ๊ทผ์— ConvNext๋ฅผ ๋ฆฌ๋ทฐํ•˜๋ฉด์„œ ์ € ํ•จ์ˆ˜๋ฅผ ๋งŽ์ด ๋ดค๋˜ ๊ฑฐ ๊ฐ™์€๋ฐ, ๋‹จ์ˆœํžˆ ์‹œ๊ฐํ™”๋œ ๊ฒƒ๋งŒ ๋ดค์„ ๋•Œ๋Š” ๋ชจ๋“  ์ ์— ๋ฏธ๋ถ„์ด ๊ฐ€๋Šฅํ•œ ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์—ฌ์„œ ์“ฐ๋Š” ๊ฑด๊ฐ€?๋ผ๋Š” ์˜๋ฌธ์ด ๋“ค๊ธฐ๋„ ํ–ˆ์—ˆ๋‹ค. ์ด์— ๋Œ€ํ•ด์„œ๋Š” ์ถ”ํ›„์— '์™œ GELU๋กœ ๋Œ€์ฒด๋˜๊ณ  ์žˆ์„๊นŒ?'๋ผ๋Š” ์ด์œ ๋กœ ์ƒ๊ฐ์„ ํ•ด๋ด์•ผ๊ฒ ๋‹ค.
 
๋งˆ์ง€๋ง‰์œผ๋กœ, ๋‚ด๊ฐ€ ํ‹€๋ ธ๋˜ ๋ฌธ์ œ๋Š” Sigmoid๊ฐ€ 0.5๋ฅผ ๊ธฐ์ค€์œผ๋กœ 0๊ณผ 1์„ ๋ถ„๋ฅ˜ํ•œ๋‹ค๊ณ  ์„ค๋ช…ํ–ˆ๋˜ ๊ฒƒ์ด๋ผ ํ•˜์…จ๋‹ค. 0.5๋ผ๋Š” ์ž„๊ณ—๊ฐ’์€ Sigmoid์™€ ์—ฐ๊ด€์ด ์—†๋‹ค๋Š” ๊ฒƒ์ด ๊ทธ์— ๋Œ€ํ•œ ๋‹ต๋ณ€์ด์—ˆ๋‹ค.
 
๊ทธ๋ž˜์„œ, ์ด ๋ถ€๋ถ„์— ๋Œ€ํ•ด 0๊ณผ 1๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” ์ž„๊ณ—๊ฐ’์„ ๊ตฌํ•˜๋Š” ๊ฑด ROC Curve๋ฅผ ๊ทธ๋ ค์„œ ์ž„๊ณ—๊ฐ’์„ ๊ตฌํ•œ ๋‹ค์Œ์— ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ฒƒ์ด ๋งž๊ณ , ์ผ๋ฐ˜์ ์œผ๋กœ 0.5๋ฅผ ๋งŽ์ด ์“ฐ๋Š” ๊ฒƒ์€ ์„ค๋ช…์— ์žˆ์–ด ์กฐ๊ธˆ ๋” ์‰ฌ์šด ๊ด€์ ์„ ์ œ์•ˆํ•˜๊ฑฐ๋‚˜ ๊ฒฐ๊ตญ์— ์ €์ž ๋งˆ์Œ์ด๋ผ๊ณ  ํ•˜์‹ ๋‹ค.
 
์•„์ง๋„ ๋ฐฐ์šธ ๊ฒŒ ๋งŽ๋‹ค. ๋‹ค์‹œ ํ•œ๋ฒˆ, ๋Šฆ์€ ์‹œ๊ฐ„์— ๋ฉ‹์ง„ ์˜๊ฒฌ๋“ค์„ ๋งํ•ด์ค€ ๋ฉ˜ํ† ๋‹˜๋“ค๊ป˜ ๊ฐ์‚ฌ๋“œ๋ฆฝ๋‹ˆ๋‹ค..:)

 

728x90