'bert' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

깃허브

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록bert (2)

Doby's Lab

Wordpiece Tokenizer, ['자연어', '를', '토큰', '으로', '만드는', '방법']

✅ Intro 이번 프로젝트의 중심은 LLM이다 보니 CLIP, 데이터 처리 등 다루어야 할 요소들이 많지만, 가장 근본적으로 공부해야 할 부분은 NLP(자연어 처리)입니다. NLP 관련 모델을 더 깊게 공부하기 앞서 '자연어를 어떻게 모델에 넣지?'라는 질문에 대해서 답을 찾아보았습니다. ✅ Tokenization 단편적으로, 자연어를 모델에 학습시킨다고 생각했을 때, 문장 자체를 넣어버리면 좋겠지만 세상에는 엄청나게 많은 조합들의 단어가 있고, 그 단어들의 조합으로 셀 수도 없는 문장을 만들어낼 수가 있습니다. 각 문장에 대해 숫자를 부여한다면 엄청나게 많은 숫자들로 구성이 되겠지만, 이건 관리 차원에서도 어렵고, 데이터가 숫자 하나로 정리되기에는 너무 간결하여 Representation이 떨어집니다..

Natural Language Processing (NLP) 2024. 2. 21. 23:34

Attention에 대해 Attention!

✅ Introduction ViT라는 아키텍처를 공부하다가 새로운 메커니즘을 접하게 되었습니다. 그 새로운 메커니즘은 이번 글의 주제인 Attention입니다. 아직 NLP 분야의 Task를 다루어본 경험이 없기 때문에 등장하게 된 정확한 배경은 잘 모르지만, '어떠한 작동 원리인가?', '왜 성능이 더 좋은가?', '수식이 의미는 무엇인가?'에 대해서 집중적으로 다루어 보고자 합니다. 기존 자연어처리 분야에서는 Recurrence mechanism, 비전 분야에서는 Convolutional mechanism으로 엄청난 연구 및 아키텍처들이 나온 만큼 이미 각 분야에서 각 mechanism이 탄탄한 베이스가 되어있었습니다. 하지만, '세상에 완벽한 시스템은 없다'라는 말과 같이 훌륭한 연구와 고질적인 문..

AI/Concepts 2023. 12. 26. 21:36

이전 Prev 1 Next 다음

목록bert (2)

Doby's Lab

티스토리툴바