LLM(대규모 언어 모델)

← 용어 사전

한 줄 정의

LLM(Large Language Model)은 텍스트를 입력받아 다음 토큰을 예측하는 방식으로 출력 토큰을 생성하는 모델이다.

LLM은 “무엇을 잘하고” “무엇을 못하나”

잘하는 것(대표)

문장 생성, 요약, 재작성, 형식 변환(표/목록)
패턴 기반 분류/정리(규칙이 명확할수록)
예시를 통한 스타일/포맷 따라하기(퓨샷)

약한 것(대표)

근거 없는 사실 질문(환각 가능)
최신 정보(학습 시점 이후)나 조직 내부 정보(접근 권한이 없으면)
정확한 계산/숫자 일관성(검증 필요)

핵심 이론(실무에 필요한 만큼)

1) “생성”은 곧 확률적 예측이다

LLM은 정답 DB를 조회하는 방식이 아니라, 주어진 입력 맥락에서 “그럴듯한 다음 토큰”을 예측해 이어 붙인다.
그래서 근거가 없는 영역에서는 **그럴듯하지만 틀린 답(환각)**이 나올 수 있다.

2) 컨텍스트 윈도우가 기억의 한계다

LLM은 한 번에 참고할 수 있는 입력 길이에 한계가 있다. 긴 문서/긴 대화는 누락이 생길 수 있다.
이 한계는 “모델이 멍청해서”가 아니라, 구조적으로 존재하는 제약이다.

3) 모델은 ‘운영 정책’에 의해 행동이 바뀐다

현대 LLM은 사전학습만으로 끝나지 않는다.
지시를 따르게 만들거나 안전하게 거절하도록 만드는 추가 학습(Instruction tuning, RLHF 등)이 적용된다. 이 과정 때문에 모델마다 거절 방식, 안전성, 출력 톤이 다르게 보일 수 있다.

실무에서 꼭 알아야 할 운영 포인트

1) “초안 + 검토”가 기본 설계다

LLM 결과를 최종으로 쓰면 사고가 난다.
특히 대외 문서, 정책/규정, 숫자/계약 관련 문서는 반드시 검토 게이트가 필요하다.

2) 비용은 토큰 기반으로 움직인다

가격/지연/할당량은 대체로 토큰 수에 비례한다.
현실적인 비용 예측은 “대표 업무 10건”을 실제로 실행해 평균 토큰을 기록하는 것이다.

3) 평가(Eval) 없이 운영하면 품질이 흔들린다

프롬프트/템플릿/모델 버전이 바뀌면 출력도 바뀐다.
골든 세트(대표 샘플)로 반복 평가해야 운영이 된다.

더 읽기

Transformer(기본 구조): https://arxiv.org/abs/1706.03762
NIST AI RMF 1.0(위험 관리 프레임워크): https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-ai-rmf-10
OWASP Top 10 for LLM Applications(운영/보안 위험): https://owasp.org/www-project-top-10-for-large-language-model-applications/

한 줄 정의​

LLM은 “무엇을 잘하고” “무엇을 못하나”​

잘하는 것(대표)​

약한 것(대표)​

핵심 이론(실무에 필요한 만큼)​

1) “생성”은 곧 확률적 예측이다​

2) 컨텍스트 윈도우가 기억의 한계다​

3) 모델은 ‘운영 정책’에 의해 행동이 바뀐다​

실무에서 꼭 알아야 할 운영 포인트​

1) “초안 + 검토”가 기본 설계다​

2) 비용은 토큰 기반으로 움직인다​

3) 평가(Eval) 없이 운영하면 품질이 흔들린다​

더 읽기​