'tokenization' 태그의 글 목록

LLM이 단어를 이해하는 방법: Word Embedding으로 보는 자연어의 숫자화

LLM과 Word Embedding대규모 언어 모델 (LLM) 은 어떻게 인간의 언어인 자연어를 이해할 수 있을까요? 사실 따지고 보면, LLM도 결국 컴퓨터에서 구동되는거고, 컴퓨터는 기계이기 때문에 인간의 언어를 이해하지 못합니다. 결국 인간의 언어를 학습하기 위해서는 인간의 언어를 숫자로 바꾸는 과정이 필요한거죠! 결국, LLM은 입력 문장을 먼저 토큰화(tokenization) 해서 잘게 쪼갠 뒤, 각 토큰을 임베딩(embedding) 이라는 숫자 벡터로 바꿔서 처리합니다.이 두 과정이 바로 LLM이 인간 언어를 이해하는 출발점이 되는 거죠. Word Embedding 이란? Word Embedding은 쉽게 말하면 단어 의미를 반영한 숫자 벡터로 바꿔주는 방법입니다.LLM은 이 벡터를 받아들이..

공부/인공지능 2025.08.30

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

MotivationForSuccess

tokenization 1

티스토리툴바