'Natural Language Processing (NLP)' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

깃허브

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tags more

Archives

Today

Total

관리 메뉴

목록Natural Language Processing (NLP) (1)

Doby's Lab

Wordpiece Tokenizer, ['자연어', '를', '토큰', '으로', '만드는', '방법']

✅ Intro 이번 프로젝트의 중심은 LLM이다 보니 CLIP, 데이터 처리 등 다루어야 할 요소들이 많지만, 가장 근본적으로 공부해야 할 부분은 NLP(자연어 처리)입니다. NLP 관련 모델을 더 깊게 공부하기 앞서 '자연어를 어떻게 모델에 넣지?'라는 질문에 대해서 답을 찾아보았습니다. ✅ Tokenization 단편적으로, 자연어를 모델에 학습시킨다고 생각했을 때, 문장 자체를 넣어버리면 좋겠지만 세상에는 엄청나게 많은 조합들의 단어가 있고, 그 단어들의 조합으로 셀 수도 없는 문장을 만들어낼 수가 있습니다. 각 문장에 대해 숫자를 부여한다면 엄청나게 많은 숫자들로 구성이 되겠지만, 이건 관리 차원에서도 어렵고, 데이터가 숫자 하나로 정리되기에는 너무 간결하여 Representation이 떨어집니다..

Natural Language Processing (NLP) 2024. 2. 21. 23:34

이전 Prev 1 Next 다음

목록Natural Language Processing (NLP) (1)

Doby's Lab

티스토리툴바