일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- dfs
- 플로이드 와샬
- 문자열
- BFS
- 가끔은 말로
- 이분 탐색
- 백트래킹
- c++
- 알고리즘
- 세그먼트 트리
- 조합론
- dropout
- 2023
- NEXT
- 다익스트라
- 분할 정복
- DP
- pytorch
- lazy propagation
- 자바스크립트
- 회고록
- 크루스칼
- 미래는_현재와_과거로
- 너비 우선 탐색
- 우선 순위 큐
- back propagation
- Overfitting
- object detection
- tensorflow
- 가끔은_말로
Archives
- Today
- Total
목록Natural Language Processing (NLP) (1)
Doby's Lab
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bKzNIf/btsFcmWfdjv/tkw8e7mAp7ahdArU4M1BHK/img.jpg)
✅ Intro 이번 프로젝트의 중심은 LLM이다 보니 CLIP, 데이터 처리 등 다루어야 할 요소들이 많지만, 가장 근본적으로 공부해야 할 부분은 NLP(자연어 처리)입니다. NLP 관련 모델을 더 깊게 공부하기 앞서 '자연어를 어떻게 모델에 넣지?'라는 질문에 대해서 답을 찾아보았습니다. ✅ Tokenization 단편적으로, 자연어를 모델에 학습시킨다고 생각했을 때, 문장 자체를 넣어버리면 좋겠지만 세상에는 엄청나게 많은 조합들의 단어가 있고, 그 단어들의 조합으로 셀 수도 없는 문장을 만들어낼 수가 있습니다. 각 문장에 대해 숫자를 부여한다면 엄청나게 많은 숫자들로 구성이 되겠지만, 이건 관리 차원에서도 어렵고, 데이터가 숫자 하나로 정리되기에는 너무 간결하여 Representation이 떨어집니다..
Natural Language Processing (NLP)
2024. 2. 21. 23:34