Transformer / Attention
한 줄 정의
- Attention(주의): 입력 토큰들이 서로를 “얼마나 참고할지” 가중치를 학습하는 메커니즘
- Transformer: Attention을 핵심으로 쓰는 신경망 아키텍처(현대 LLM의 기반)
왜 알아야 하나(실무)
실무자가 수식을 외울 필요는 없다. 다만 다음을 이해하면 운영 판단이 쉬워진다.
- 모델은 “사실 DB”가 아니라, 입력 맥락을 바탕으로 생성한다
- 입력 맥락이 길어질수록 비용/지연이 늘고, 중요 정보가 묻힐 수 있다
- 긴 문서는 RAG/요약 같은 “구조”가 필요하다
핵심 이론(쉽게)
1) Attention은 “현재 단어가 어떤 단어를 참고해야 하는지”를 학습한다
예: “그는 회의에서…”의 ‘그’가 누구인지 이해하려면 이전 문장을 참고해야 한다.
Attention은 이런 참조 관계를 확률적으로 학습한다.
2) Transformer는 왜 강했나
Transformer 이전에는 RNN/LSTM처럼 순차 처리가 많아, 길어질수록 학습/추론이 어려웠다.
Transformer는 Attention 기반으로 병렬 계산이 가능해, 대규모 학습에 유리했고 LLM 확산의 기반이 됐다.
3) Multi-Head Attention(직관)
한 번의 “참조”만으로는 부족할 수 있다.
- 어떤 헤드는 문장 구조(주어-서술어)를,
- 어떤 헤드는 지시어(그/이것)가 가리키는 대상을,
- 어떤 헤드는 용어의 의미 유사성을 각각 포착할 수 있다.
실무 포인트
1) 긴 입력은 ‘많이 넣으면 해결’이 아니다
컨텍스트 윈도우가 크더라도, 너무 많은 정보는 중요한 신호를 희석시킬 수 있다.
실무에서는 “목표/근거/제약/출력”을 먼저 정리하고, 필요한 근거만 넣는 것이 안전하다.
2) 구조화가 성능을 만든다
모델 성능을 끌어올리려면 “더 좋은 모델”보다 먼저 “더 좋은 입력 구조”를 만들어야 한다.
- 템플릿으로 출력 구조를 고정
- RAG로 근거를 제한
- 검토 체크리스트로 오류를 차단
자주 생기는 오해
- 오해 1: Attention = ‘중요한 것만 본다’
- 실제로는 “무엇을 중요하게 볼지”를 학습한 가중치일 뿐이고, 잘못된 중요도 판단도 가능하다.
- 오해 2: Transformer를 알면 프롬프트가 필요 없다
- 프롬프트는 모델 구조가 아니라, 업무 기준을 전달하기 위한 운영 장치다.
더 읽기
- Attention Is All You Need(2017): https://arxiv.org/abs/1706.03762
- Wikipedia(개념 잡기): https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)