본문으로 건너뛰기

Transformer / Attention

← 용어 사전

한 줄 정의

  • Attention(주의): 입력 토큰들이 서로를 “얼마나 참고할지” 가중치를 학습하는 메커니즘
  • Transformer: Attention을 핵심으로 쓰는 신경망 아키텍처(현대 LLM의 기반)

왜 알아야 하나(실무)

실무자가 수식을 외울 필요는 없다. 다만 다음을 이해하면 운영 판단이 쉬워진다.

  • 모델은 “사실 DB”가 아니라, 입력 맥락을 바탕으로 생성한다
  • 입력 맥락이 길어질수록 비용/지연이 늘고, 중요 정보가 묻힐 수 있다
  • 긴 문서는 RAG/요약 같은 “구조”가 필요하다

핵심 이론(쉽게)

1) Attention은 “현재 단어가 어떤 단어를 참고해야 하는지”를 학습한다

예: “그는 회의에서…”의 ‘그’가 누구인지 이해하려면 이전 문장을 참고해야 한다.
Attention은 이런 참조 관계를 확률적으로 학습한다.

2) Transformer는 왜 강했나

Transformer 이전에는 RNN/LSTM처럼 순차 처리가 많아, 길어질수록 학습/추론이 어려웠다.
Transformer는 Attention 기반으로 병렬 계산이 가능해, 대규모 학습에 유리했고 LLM 확산의 기반이 됐다.

3) Multi-Head Attention(직관)

한 번의 “참조”만으로는 부족할 수 있다.

  • 어떤 헤드는 문장 구조(주어-서술어)를,
  • 어떤 헤드는 지시어(그/이것)가 가리키는 대상을,
  • 어떤 헤드는 용어의 의미 유사성을 각각 포착할 수 있다.

실무 포인트

1) 긴 입력은 ‘많이 넣으면 해결’이 아니다

컨텍스트 윈도우가 크더라도, 너무 많은 정보는 중요한 신호를 희석시킬 수 있다.
실무에서는 “목표/근거/제약/출력”을 먼저 정리하고, 필요한 근거만 넣는 것이 안전하다.

2) 구조화가 성능을 만든다

모델 성능을 끌어올리려면 “더 좋은 모델”보다 먼저 “더 좋은 입력 구조”를 만들어야 한다.

  • 템플릿으로 출력 구조를 고정
  • RAG로 근거를 제한
  • 검토 체크리스트로 오류를 차단

자주 생기는 오해

  • 오해 1: Attention = ‘중요한 것만 본다’
    • 실제로는 “무엇을 중요하게 볼지”를 학습한 가중치일 뿐이고, 잘못된 중요도 판단도 가능하다.
  • 오해 2: Transformer를 알면 프롬프트가 필요 없다
    • 프롬프트는 모델 구조가 아니라, 업무 기준을 전달하기 위한 운영 장치다.

더 읽기