서론
최근 몇 년 사이 인공지능 (AI) 의 가장 큰 화두는 단연 LLM(Large Language Model, 대규모 언어 모델)입니다. ChatGPT를 시작으로 메타의 LLaMA, 구글의 Gemini, 그리고 최근 주목받은 중국의 DeepSeek까지, 모두 이 기술을 기반으로 만들어졌습니다.
AI는 하루가 다르게 발전하고 있습니다. 이런 시대에 중요한 것은 무작정 새로운 서비스를 따라가는 것이 아니라, 핵심 원리를 이해하고 올바른 정보를 선별하는 능력입니다. 그래서 이번 글에서는 앞서 언급한 다양한 서비스들의 공통 기반인 LLM이 무엇인지부터 차근차근 살펴보겠습니다.

LLM이란 무엇인가?
LLM은 말 그대로 대규모 언어 모델입니다. 수많은 텍스트 데이터를 학습해 언어의 패턴을 이해하고, 새로운 문장을 만들어내는 인공지능 모델이죠.
쉽게 말해, "다음에 올 단어를 가장 잘 예측하는 프로그램" 이라고 할 수 있습니다.
예를 들어, “오늘 날씨가 너무”라고 입력하면 LLM은
“덥다”
“춥다”
“좋다”
와 같은 단어들을 후보로 두고, 그중 가장 확률이 높은 답을 선택합니다.
이 단순한 원리가 확장되면 질문에 답을 하거나, 코드를 작성하거나, 심지어 소설을 쓰는 것까지 가능해지는 겁니다.
왜 "대규모" 언어 모델인가?
- LLM이 특별한 이유는 바로 그 규모에 있습니다.
- 학습 데이터: 인터넷의 방대한 텍스트(뉴스, 논문, 책, 웹페이지 등)
- 파라미터(Parameter): 모델이 학습을 통해 얻은 “지식 저장 단위”로, 일종의 뇌세포 연결(시냅스) 같은 역할을 합니다. 숫자가 많을수록 더 많은 패턴을 기억하고 활용할 수 있습니다.
대표적인 LLM들을 규모별로 비교하면 다음과 같습니다.
| 모델 | 파라미터 수 (Parameter) | 학습 데이터 특징 | 비고 |
| GPT-3 (OpenAI, 2020) | 약 1,750억 | 수천억 단어 (웹, 책, 위키 등) | ChatGPT의 기반 모델 |
| GPT-4 (OpenAI, 2023) | 비공개 (GPT-3보다 훨씬 큼) | 멀티모달 데이터 포함 | ChatGPT Plus/Team에 적용 |
| LLaMA 2 (Meta, 2023) | 70억 / 130억 / 700억 | 공개 데이터셋 위주 | 오픈소스, 연구자 활용 활발 |
| LLaMA 4 Scout (Meta, 2025) | 17B active / 109B total | 40T 토큰, early‑fusion 멀티모달 | 16 experts, 10M 토큰 컨텍스트 |
| DeepSeek (중국, 2024) | 수십억~수천억 | 효율적 학습 + 공개 데이터 | 저비용·고성능으로 화제 |
지금까지 우리는 LLM이란 무엇인지, 왜 ‘대규모’인지, 그리고 왜 우리가 주목해야 하는지를 살펴봤습니다. LLM은 단순한 기술이 아니라, 앞으로 우리가 정보를 검색하고 배우고 활용하는 방식을 근본적으로 바꾸는 패러다임 전환의 도구입니다.
따라서 LLM을 이해하는 것은 단순한 호기심 차원을 넘어, 다가올 AI 시대를 준비하는 필수 지식이라고 할 수 있습니다.
다음 글에서는 LLM이 실제로 어떻게 작동하는지, 그 핵심 원리인 Transformer 구조와 Attention 메커니즘을 통해 자세히 알아보겠습니다.
'공부 > 인공지능' 카테고리의 다른 글
| RAG (Retrieval-Augmented Generation) 이란 무엇인가? (0) | 2025.09.20 |
|---|---|
| LLM이 단어를 이해하는 방법: Word Embedding으로 보는 자연어의 숫자화 (2) | 2025.08.30 |
| LLM - 자연어 처리란? (3) | 2025.08.24 |