일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 이분 탐색
- BFS
- Overfitting
- 미래는_현재와_과거로
- 플로이드 와샬
- back propagation
- 알고리즘
- 회고록
- 2023
- 백트래킹
- dropout
- dfs
- 문자열
- tensorflow
- 너비 우선 탐색
- 분할 정복
- 가끔은 말로
- c++
- DP
- lazy propagation
- 우선 순위 큐
- 가끔은_말로
- 자바스크립트
- object detection
- NEXT
- pytorch
- 세그먼트 트리
- 크루스칼
- 다익스트라
- 조합론
Archives
- Today
- Total
목록Natural Language Processing (NLP) (1)
Doby's Lab
Wordpiece Tokenizer, ['자연어', '를', '토큰', '으로', '만드는', '방법']
✅ Intro 이번 프로젝트의 중심은 LLM이다 보니 CLIP, 데이터 처리 등 다루어야 할 요소들이 많지만, 가장 근본적으로 공부해야 할 부분은 NLP(자연어 처리)입니다. NLP 관련 모델을 더 깊게 공부하기 앞서 '자연어를 어떻게 모델에 넣지?'라는 질문에 대해서 답을 찾아보았습니다. ✅ Tokenization 단편적으로, 자연어를 모델에 학습시킨다고 생각했을 때, 문장 자체를 넣어버리면 좋겠지만 세상에는 엄청나게 많은 조합들의 단어가 있고, 그 단어들의 조합으로 셀 수도 없는 문장을 만들어낼 수가 있습니다. 각 문장에 대해 숫자를 부여한다면 엄청나게 많은 숫자들로 구성이 되겠지만, 이건 관리 차원에서도 어렵고, 데이터가 숫자 하나로 정리되기에는 너무 간결하여 Representation이 떨어집니다..
Natural Language Processing (NLP)
2024. 2. 21. 23:34