본문으로 건너뛰기

Instruction Tuning / RLHF / DPO

← 용어 사전

한 줄 정의

  • Instruction tuning(SFT): “지시를 따르는” 데이터로 지도학습(슈퍼바이즈드 파인튜닝)하는 방식
  • RLHF: 사람 선호(좋은 답/나쁜 답)를 활용해 강화학습으로 정렬(alignment)하는 방식
  • DPO: 강화학습을 직접 돌리지 않고, 선호 데이터로 직접 최적화하는 방식(일부 RLHF 파이프라인을 단순화)

왜 중요한가(실무)

실무자가 체감하는 “모델 성격”은 사전학습보다, 이런 정렬 단계의 영향이 크다.

  • 거절/안전 행동이 다름
  • 답변 톤(확신/보수성)이 다름
  • 같은 질문에도 “추정/단정” 성향이 다름

그래서 운영에서는 “이 모델이 어떤 조건에서 거절하는지”를 테스트(평가/Eval)해야 한다.

핵심 이론(직관)

1) Instruction tuning: 예시로 ‘업무 규격’을 학습시킨다

모델에게 “이렇게 질문이 오면 이렇게 답한다”는 패턴을 학습시키는 단계다.
실무에서는 프롬프트 템플릿/퓨샷 예시가 하는 역할과 유사하다.

2) RLHF: 사람의 선호를 기준으로 ‘행동’을 조정한다

사람이 선호하는 답을 더 자주 내도록 정책을 조정한다.
안전/거절 정책, 공격적 요청 거부, 유해 출력 완화가 이 단계에서 크게 다뤄진다.

3) DPO: 선호 데이터를 더 단순한 방식으로 반영한다

강화학습 루프를 단순화해 선호 데이터로 직접 최적화한다.
모델/데이터/목표에 따라 장단점이 있지만, 실무 관점에서는 “정렬 방식이 다르면 모델 행동이 달라진다”만 이해해도 충분하다.

실무 포인트

1) 모델 교체는 ‘기능 변경’이 아니라 ‘정책 변경’일 수 있다

새 모델이 더 똑똑해 보여도, 조직 기준(보안/거절/근거 표시)에 맞지 않을 수 있다.

2) 테스트해야 할 항목

  • 민감정보 요청에 대한 거절/마스킹
  • 근거가 없는 질문에서의 “확인 필요” 표기
  • 대외 문서 톤(과장/단정/법적 표현)

더 읽기