LLM이 단어를 이해하는 방법: Word Embedding으로 보는 자연어의 숫자화

공부/인공지능

LLM이 단어를 이해하는 방법: Word Embedding으로 보는 자연어의 숫자화

Mosser 2025. 8. 30. 15:42

728x90

LLM과 Word Embedding

대규모 언어 모델 (LLM) 은 어떻게 인간의 언어인 자연어를 이해할 수 있을까요?

사실 따지고 보면, LLM도 결국 컴퓨터에서 구동되는거고, 컴퓨터는 기계이기 때문에 인간의 언어를 이해하지 못합니다.

결국 인간의 언어를 학습하기 위해서는 인간의 언어를 숫자로 바꾸는 과정이 필요한거죠!

결국, LLM은 입력 문장을 먼저 토큰화(tokenization) 해서 잘게 쪼갠 뒤, 각 토큰을 임베딩(embedding) 이라는 숫자 벡터로 바꿔서 처리합니다.
이 두 과정이 바로 LLM이 인간 언어를 이해하는 출발점이 되는 거죠.

Word Embedding 이란?

https://www.tensorflow.org/text/guide/word_embeddings?hl=ko

Word Embedding은 쉽게 말하면 단어 의미를 반영한 숫자 벡터로 바꿔주는 방법입니다.
LLM은 이 벡터를 받아들이고, 그 안에서 문맥적 관계를 계산하면서 학습을 이어갑니다.

예를 들어:

"사과"와 "바나나" → 벡터 공간에서 가까이 위치 (둘 다 과일)
"사과"와 "고양이" → 멀리 떨어져 있음 (의미적으로 무관)

즉, Embedding 덕분에 모델은 단순히 문자열을 넘어서, 단어 사이의 의미를 수학적으로 이해할 수 있게 되는 거죠.

https://en.wikipedia.org/wiki/Word_embedding

왜 중요한가?

LLM의 첫 단계는 언제나 “토큰을 임베딩으로 바꾸는 것”입니다.
즉, 우리가 입력한 문장은 토큰화(tokenization) → 임베딩(embedding) 과정을 거쳐서 거대한 신경망에 들어가요.
만약 이 단계가 부실하다면, 아무리 좋은 모델도 제대로 문맥을 이해하지 못합니다.

그래서 Word Embedding은 단순한 기초 개념이 아니라, LLM 전체 성능의 기반이라고 할 수 있습니다.

토큰화 (Tokenization)

위에서 자연어를 토큰화 한 후에, 임베딩으로 하는 것이 중요하다라고 했는데, 토큰화 (Tokenization) 은 무엇일까요?

https://medium.com/@lmpo/tokenization-and-word-embeddings-the-building-blocks-of-advanced-nlp-c203b78bfd07

사람이 쓰는 문장을 기계가 처리하려면 먼저 잘게 쪼개야 합니다.
이 과정을 토크나이제이션(Tokenization) 이라고 부릅니다.

이렇게 나눌 수 있어요.
현대 LLM은 보통 서브워드 단위 토크나이저를 사용합니다.
왜냐하면 단어 단위로만 하면 새로운 단어 (예: 신조어, 약어)에 취약하기 때문이죠.

예시로,

"나는 고양이를 좋아한다"

라는 문장을 토크나이제이션하면,

방식	결과 예시	특징
자모 단위	["ㄴ", "ㅏ", "는", " ", "ㄱ", "ㅗ", …]	지나치게 세분화되어 문맥 잃음
서브워드 단위	["나는", "고양이", "##를", "좋아", "##한다"]	신조어·희귀어에도 강함 → LLM 기본 방식
단어 단위	["나는", "고양이", "를", "좋아한다"]	직관적이지만 신조어에 약함

마치며...

이번 글에서는 LLM이 자연어를 어떻게 이해하는지에 대해 알아봤으며, 임베딩 및 토큰화에 대해서 알아봤습니다.

다음 글에서는 실제로 유명한 Word2Vec, GloVe, FastText 같은 임베딩 기법들이 어떻게 동작하는지 살펴볼 예정입니다.

728x90

'공부 > 인공지능' 카테고리의 다른 글

RAG (Retrieval-Augmented Generation) 이란 무엇인가? (0)	2025.09.20
LLM - 자연어 처리란? (3)	2025.08.24
LLM이란? (2)	2025.08.16

현재글LLM이 단어를 이해하는 방법: Word Embedding으로 보는 자연어의 숫자화

MotivationForSuccess

250x250

바이오인포매틱스, 우분투, llm, 세종시 카페, C/C++, 10039번, 블록체인, 기초통계학, 세종 카페, 제네시스블록, 기초 통계학, 완전노드, RNA-Sequencing, Fastq, 사건의 독립성, 평균, RNA-Sequencing 분석과정, 백준, 리눅스, 비트코인,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

MotivationForSuccess