์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ๋ฐฑํธ๋ํน
- pytorch
- ํฌ๋ฃจ์ค์นผ
- ์กฐํฉ๋ก
- DP
- ์๋ฐ์คํฌ๋ฆฝํธ
- ๋๋น ์ฐ์ ํ์
- ์ฐ์ ์์ ํ
- ๋ถํ ์ ๋ณต
- Overfitting
- 2023
- dfs
- ๋ฌธ์์ด
- ๋ค์ต์คํธ๋ผ
- ๊ฐ๋์_๋ง๋ก
- ํ๋ก์ด๋ ์์ฌ
- lazy propagation
- ์๊ณ ๋ฆฌ์ฆ
- c++
- ๋ฏธ๋๋_ํ์ฌ์_๊ณผ๊ฑฐ๋ก
- BFS
- ํ๊ณ ๋ก
- back propagation
- tensorflow
- dropout
- ์ด๋ถ ํ์
- ์ธ๊ทธ๋จผํธ ํธ๋ฆฌ
- object detection
- ๊ฐ๋์ ๋ง๋ก
- NEXT
- Today
- Total
Doby's Lab
Label Encoding์ ๋ฌธ์ ์ (with Chat GPT) ๋ณธ๋ฌธ
๐ Intro
Categorical Variables์ ๋ํ์ฌ ๋ชจ๋ธ์ ํ์ต์ํฌ ๋, Label Encoding์ ๋ฌธ์ ์ ์ผ๋ก ์ธํด One-Hot Enoding์ ์ถ์ฒํ๊ณ ์์ต๋๋ค.
ํ์ง๋ง, ์ดํด๊ฐ ๋์ง ์๋ ๋ถ๋ถ์ด ์์ด์ ํฌ์คํ ์ ์์ฑํ๊ฒ ๋์์ต๋๋ค. ์ด๋ฒ ํฌ์คํ ์ Chat GPT๋ฅผ ์ด์ฉํ์ฌ ์์ฑํ์์ต๋๋ค.
๐ Label Encoding์ ๋ฌธ์ ์
Chat GPT๋ Label Encoding์ ๋ฌธ์ ์ ์ 3๊ฐ์ง๋ก ์ ๋ฆฌํ์ต๋๋ค. (์ฐจ์ ์ฆ๊ฐ ๋ฌธ์ ๋ ์ ๊ณตํ์๋๋ฐ ์ฌ์ฐจ ๋ฌผ์์ ๋, ์ค๋ฅ์ธ ๊ฒ์ผ๋ก ํ์ธํ์ต๋๋ค.)
- ์์ ๋๋ ๋ฑ๊ธ ๋ถ์ฌ: ๋ ๋ฆฝ์ ์ธ Categorical Variables์ ์์๋ ๋ญํฌ๋ฅผ ๋ถ์ฌํ๋ ๊ฒ์ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํฅ์ ๋ฏธ์น๋ค.
- ๋ณ์ ํ๊ฐ ์๊ณก: Label Encoding์ ํตํด ๋์จ ์ซ์ ๊ฐ์ด ๋ณ์ ๊ฐ์ ์๋์ ์ธ ์ค์์ฑ๊ณผ ๊ฑฐ๋ฆฌ๋ก ๋ํ๋์ง๋ ์๋๋ค.
- ์์ธก์ ํ๊ณ: ์๋ก์ด ๋ฒ์ฃผ๊ฐ ๋ํ๋๋ฉด, ๋ฌธ์ ๊ฐ ๋ฐ์, ๋ชจ๋ธ์ ์๋ก์ด ๋ฒ์ฃผ๋ฅผ ์ธ์ํ ์ ์์ผ๋ฉฐ, ์ ํ๋๋ฅผ ๋ฎ์ถ๋ค.
์ด ๋ถ๋ถ์์ ์์ํ๋ ์ ์ด 1๋ฒ๊ณผ 2๋ฒ์ ๋๋ค. ์ ์ ์ง๋ฌธ์ '๋ ๋ฆฝ์ ์ธ ๋ฐ์ดํฐ๊ฐ ์์๋ ๋ญํฌ๋ฅผ ๊ฐ์ง๋ ์ฐ๊ด ์๋ ์ ๋ณด๋ฅผ ๊ฐ์ง๋ ๊ฒ์ ์ณ์ง๋ ์์ ๋ณด์ด๋, ํ์ต์ด ๊ทธ๋ ๊ฒ ๋์๋ค๋ฉด ๊ฒฐ๊ณผ๋ ์ ๋์ฌ ํ ๋ฐ ๋ฌธ์ ๋ก ์ผ๋ ์์ธ์ด ๋ฌด์์ธ๊ฐ?'์ ๋๋ค.
์ด์ ๋ํด Chat GPT๋ '๋ชจ๋ธ ์์ฒด์ ์์ธก ๊ฒฐ๊ณผ์๋ ํฐ ๋ณํ๊ฐ ์์ ์ ์์ผ๋, ๋ชจ๋ธ์ ๊ฐ์ถฉ์น๋ ํน์ฑ ์ค์๋๋ฅผ ํด์ํ๋ ค๊ณ ํ ๋, ๋ณ์๊ฐ ์ธ์ฝ๋ฉ ๋ ์ซ์ ๊ฐ์ ๋ฐ๋ผ ๋ชจ๋ธ์ ์ค์๋๊ฐ ์๊ณก๋ ์ ์์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ ํด์์ ์ด๋ ต๊ฒ ๋ง๋ค๊ณ , ์๋ชป๋ ๊ฒฐ๋ก ์ ๋์ถํ ๊ฐ๋ฅ์ฑ์ ๋ดํฌํฉ๋๋ค.'๋ผ๊ณ ์ฝ๋ฉํธ๋ฅผ ๋จ๊ฒผ์ต๋๋ค.
์ด๋ ์ ํ๋ชจ๋ธ, ํธ๋ฆฌ๊ธฐ๋ฐ๋ชจ๋ธ์ ๋ํ ์ค๋ช ์ด์๊ธฐ์ DNN์ ๋ํด์๋ ๋ฌผ์ด๋ณธ ๊ฒฐ๊ณผ, ์ ์๋ณด๋ค๋ ํด์์ด ์ด๋ ค์ฐ๋ ์ผ๋ถ ํด์์ด ๊ฐ๋ฅํ ๋ฐ๊ฐ ์์ผ๋ฉฐ ๊ด๋ จ ๋ฐฉ๋ฒ๋ค์ ์ค๋ช ํ์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ , ์ค๋๋ ฅ์ด ์๋ ๋ถ๋ถ์ 3๋ฒ ์์ธก์ ํ๊ณ์์ต๋๋ค. ์ด๋ฏธ train set์์ ํ์ต์ด ์๋ฃ๋ ๋ชจ๋ธ์ด test set์์ ์๋ก์ด Categorical Variable์ ๋ํด ์๋ก์ด Encoding ๊ฐ์ ๋ฐ์๋ค์ธ๋ค๋ฉด, ๋ชจ๋ธ์ด ์๋ชป๋ ํ๋จ์ ํ ์ ์๋ค๋ ์ ์์ ์ผ๋ฆฌ๊ฐ ์๋ค๊ณ ์๊ฐํ์ต๋๋ค.
๋ฌผ๋ก , Train Set์ ํตํด ํ์ต์ด ๋๋ ์ํฉ์ Test Set์์ ์๋ก์ด Categorical Variable์ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ๋ ์กด์ฌํฉ๋๋ค.
ํ์ง๋ง, ์ด๊ฑด One-Hot Encoding ๋ํ ๋ง์ฐฌ๊ฐ์ง์ ๋๋ค.
๐ก Conclusion
๊ฒฐ๋ก ์ ์ผ๋ก, Categorical Variable์ ๋ํ Label Encoding์ ์์๋ ๋ฑ๊ธ์ ๋งค๊น์ผ๋ก์จ ์ ์ฌ์ ๋ฌธ์ ๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง, ๋ชจ๋ธ์ ํด์ ๊ฐ๋ฅ์ฑ๊ณผ ์์ธก์ ํ๊ณ์ ๋ํ ๋ฌธ์ ์ ๋ ์กด์ฌํ๋ ๊ฒ์ผ๋ก ํ์ธํ์ต๋๋ค.
๐ Label Encoding vs One-Hot Encoding
๊ทธ๋์ Label Encoding๊ณผ One-Hot Encoding ์ค์์ ์ด๋ค Encoding์ด ๋ ๋์ ๊ฒ์ธ์ง๋ ์ํฉ์ ๋ฐ๋ผ์ ๋ค๋ฅด๋ค๋ ๊ฒ์ ์๋ Ref.2์์ ํ์ธํ ์ ์์ต๋๋ค.
๋ชจ๋ธ์ ํด์ ๊ฐ๋ฅ์ฑ ๋ฌธ์ ๋ฅผ ๋ฐฐ์ ํ๊ณ ๋ณธ๋ค๋ฉด, ์ฐ์ ์ ์ผ๋ก Label Encoding์ ์์์ฑ ๋ถ์ฌ ๋ฌธ์ ๋ก ์ธํด One-Hot Encoding์ ์ฑํํ ์ ์์ง๋ง, ์๋์ ๊ฐ์ ํญ๋ชฉ๋ค์ ๊ณ ๋ คํ๊ณ ์ฑํํด์ผ ํฉ๋๋ค.
- Categorical Variable์ด ์์์ฑ์ ์ง๋์ง์ ๋ํ ์ฌ๋ถ (๊ณ๊ธ, ํ๊ต ๋ฑ)
- ๊ณ ์ณ๊ฐ(Categorical Variable์ ์ข ๋ฅ)์ ๊ฐ์์ ๋ํ ๊ณ ๋ ค (๋ง์ ๊ฒฝ์ฐ์ One-Hot Encoding์ ๋ฉ๋ชจ๋ฆฌ ์๋น๊ฐ ๋ง์์ ๋นํจ์จ์ )
๋ํ, One-Hot Encoding๋ ๋ ๋ฆฝ ๋ณ์๋ค ๊ฐ์ ์๊ด๊ด๊ณ๊ฐ ๋์์ Multicollinearity ๊ฐ์ ๋ฌธ์ ๊ฐ ์๊ธฐ ๋๋ฌธ์ ์ฐ์ ์ ์ผ๋ก One-Hot Encoding์ด ์ข๋ค๊ณ ํ ์๋ ์์ต๋๋ค. (Ref.3 ์ฐธ๊ณ )
๊ทธ๋ฆฌ๊ณ , Encoding ๋ฐฉ๋ฒ์ ๋ํด์ 2๊ฐ์ง๋ง ์๋ ๊ฒ๋ ์๋๋ผ์ ์ฌ๋ฌ Encoding์ ๊ณ ๋ คํด ๋ณด๋ ๊ฒ์ด ์ข์ ๊ฒ์ ๋๋ค.
๐ Outro
์ด๋ฒ ๋ฌธ์ ๋ ํ์ํ๋ ๋ฐ ์ค๋ ์๊ฐ์ด ์์๋์ด Chat GPT๋ฅผ ์ฌ์ฉํด ๋ดค์ต๋๋ค. ๋ํ ๋ด์ฉ์ Ref.1๋ก ๋งํฌ๋ฅผ ๊ฑธ์ด๋์์ผ๋ ์ฐธ๊ณ ํ์๊ธธ ๋ฐ๋๋๋ค.
๐ Reference
https://chat.openai.com/share/7aeddf7f-caea-48d2-920d-585e6680f660
https://azanewta.tistory.com/46