Instruction Tuning / RLHF / DPO
한 줄 정의
- Instruction tuning(SFT): “지시를 따르는” 데이터로 지도학습(슈퍼바이즈드 파인튜닝)하는 방식
- RLHF: 사람 선호(좋은 답/나쁜 답)를 활용해 강화학습으로 정렬(alignment)하는 방식
- DPO: 강화학습을 직접 돌리지 않고, 선호 데이터로 직접 최적화하는 방식(일부 RLHF 파이프라인을 단순화)
왜 중요한가(실무)
실무자가 체감하는 “모델 성격”은 사전학습보다, 이런 정렬 단계의 영향이 크다.
- 거절/안전 행동이 다름
- 답변 톤(확신/보수성)이 다름
- 같은 질문에도 “추정/단정” 성향이 다름
그래서 운영에서는 “이 모델이 어떤 조건에서 거절하는지”를 테스트(평가/Eval)해야 한다.
핵심 이론(직관)
1) Instruction tuning: 예시로 ‘업무 규격’을 학습시킨다
모델에게 “이렇게 질문이 오면 이렇게 답한다”는 패턴을 학습시키는 단계다.
실무에서는 프롬프트 템플릿/퓨샷 예시가 하는 역할과 유사하다.
2) RLHF: 사람의 선호를 기준으로 ‘행동’을 조정한다
사람이 선호하는 답을 더 자주 내도록 정책을 조정한다.
안전/거절 정책, 공격적 요청 거부, 유해 출력 완화가 이 단계에서 크게 다뤄진다.
3) DPO: 선호 데이터를 더 단순한 방식으로 반영한다
강화학습 루프를 단순화해 선호 데이터로 직접 최적화한다.
모델/데이터/목표에 따라 장단점이 있지만, 실무 관점에서는 “정렬 방식이 다르면 모델 행동이 달라진다”만 이해해도 충분하다.
실무 포인트
1) 모델 교체는 ‘기능 변경’이 아니라 ‘정책 변경’일 수 있다
새 모델이 더 똑똑해 보여도, 조직 기준(보안/거절/근거 표시)에 맞지 않을 수 있다.
2) 테스트해야 할 항목
- 민감정보 요청에 대한 거절/마스킹
- 근거가 없는 질문에서의 “확인 필요” 표기
- 대외 문서 톤(과장/단정/법적 표현)
더 읽기
- InstructGPT(RLHF 계열 개요): https://arxiv.org/abs/2203.02155
- DPO: https://arxiv.org/abs/2305.18290