Transformer / Attention

한 줄 정의

실무자가 수식을 외울 필요는 없다. 다만 다음을 이해하면 운영 판단이 쉬워진다.

예: “그는 회의에서…”의 ‘그’가 누구인지 이해하려면 이전 문장을 참고해야 한다.
Attention은 이런 참조 관계를 확률적으로 학습한다.

Transformer 이전에는 RNN/LSTM처럼 순차 처리가 많아, 길어질수록 학습/추론이 어려웠다.
Transformer는 Attention 기반으로 병렬 계산이 가능해, 대규모 학습에 유리했고 LLM 확산의 기반이 됐다.

한 번의 “참조”만으로는 부족할 수 있다.

컨텍스트 윈도우가 크더라도, 너무 많은 정보는 중요한 신호를 희석시킬 수 있다.
실무에서는 “목표/근거/제약/출력”을 먼저 정리하고, 필요한 근거만 넣는 것이 안전하다.

모델 성능을 끌어올리려면 “더 좋은 모델”보다 먼저 “더 좋은 입력 구조”를 만들어야 한다.

오해 1: Attention = ‘중요한 것만 본다’
- 실제로는 “무엇을 중요하게 볼지”를 학습한 가중치일 뿐이고, 잘못된 중요도 판단도 가능하다.
오해 2: Transformer를 알면 프롬프트가 필요 없다
- 프롬프트는 모델 구조가 아니라, 업무 기준을 전달하기 위한 운영 장치다.