공부/인공지능

LLM - 자연어 처리란?

Mosser 2025. 8. 24. 14:59
728x90
반응형

자연어 처리 (Natureal Language Processing ; NLP) 란 무엇일까?

LLM의 핵심인 Attention 메커니즘을 이해하려면 먼저 기초를 다져야 합니다.


바로 자연어 처리(Natural Language Processing ; NLP) 입니다.


사람이 사용하는 언어가 어떻게 컴퓨터 안에서 숫자로 바뀌고,


다시 문맥을 이해하는 모델로 발전하는지 그 과정을 이해하는 게 중요하죠.

자연어 처리란?

자연어 처리(NLP)는 사람이 일상적으로 사용하는 언어 (자연어) 를 컴퓨터가 이해하고 다루도록 만드는 기술입니다.


쉽게 말하면, 사람 ↔ 기계 간의 언어 장벽을 허무는 다리라고 볼 수 있죠.

 

예를 들어,

  • 우리가 “오늘 서울 날씨 어때?”라고 묻는다면
  • 컴퓨터는 이 문장에서 **“서울”, “오늘”, “날씨”**라는 핵심 단어를 뽑아내고,
  • 날씨 API를 호출해서 “서울은 오늘 맑습니다”라는 답을 돌려줘야 합니다.

이런 과정을 가능하게 해주는 게 바로 NLP입니다.

 

왜 필요한가?

사람은 문장과 말로 소통하지만,


컴퓨터는 0과 1, 숫자만 이해합니다.

 

즉, 텍스트 → 숫자 → 의미 해석이라는 변환 과정을 거쳐야 컴퓨터가 우리 언어를 처리할 수 있습니다.


이 과정을 연구하는 학문/기술이 바로 자연어 처리입니다.

 

 

주요 작업들

 

작업 설명 예시
토큰화 (Tokenization) 문장을 단어·형태소 단위로 쪼개기 "나는 밥을 먹는다" → ["나","는","밥","을","먹","는다"]
품사 태깅 (POS Tagging) 단어의 문법적 역할 파악 "밥(Noun)", "먹는다(Verb)"
개체명 인식 (NER) 이름/장소/기관 찾아내기 "서울(지역명)", "삼성(기관명)"
감성 분석 (Sentiment Analysis) 문장의 긍정/부정 감정 파악 "재미있다" → 긍정 / "별로다" → 부정
기계 번역 (Translation) 언어 변환 "안녕하세요" → "Hello"

 

이런 기본 처리들이 합쳐져서, 우리가 흔히 보는 검색, 챗봇, 번역기, 추천 시스템이 만들어집니다.

전통적 접근 vs 딥러닝 접근

자연어 처리는 오랫동안 발전해왔습니다.

  • 과거 (통계·규칙 기반)
    • 단순 규칙: "~다"로 끝나면 동사
    • 문서 분류: 단어 빈도 세서 계산(TF-IDF)
  • 현재 (딥러닝 기반)
    • Word2Vec, GloVe: 단어를 벡터로 바꿔서 의미 공간에 배치
    • RNN, LSTM, Transformer: 문맥까지 반영 가능
    • 오늘날의 **LLM(ChatGPT, Gemini, DeepSeek 등)**은 이 흐름의 연장선

즉, LLM이 갑자기 뚝 떨어진 기술이 아니라, NLP 연구의 진화 끝에 나온 결과물입니다.

 

정리

 

  • 자연어 처리(NLP)는 사람 언어를 기계가 이해하도록 만드는 기술
  • 텍스트를 숫자로 변환 → 다양한 작업(토큰화, 품사 태깅, 감성 분석, 번역 등)으로 확장
  • 과거엔 규칙/통계 기반, 지금은 딥러닝 기반
  • LLM을 이해하려면 반드시 NLP 기본 개념을 이해하고 넘어가야 함

 

728x90
반응형