Instruction Tuning / RLHF / DPO

Instruction tuning(SFT): “지시를 따르는” 데이터로 지도학습(슈퍼바이즈드 파인튜닝)하는 방식
RLHF: 사람 선호(좋은 답/나쁜 답)를 활용해 강화학습으로 정렬(alignment)하는 방식
DPO: 강화학습을 직접 돌리지 않고, 선호 데이터로 직접 최적화하는 방식(일부 RLHF 파이프라인을 단순화)

한 줄 정의

실무자가 체감하는 “모델 성격”은 사전학습보다, 이런 정렬 단계의 영향이 크다.

그래서 운영에서는 “이 모델이 어떤 조건에서 거절하는지”를 테스트(평가/Eval)해야 한다.

모델에게 “이렇게 질문이 오면 이렇게 답한다”는 패턴을 학습시키는 단계다.
실무에서는 프롬프트 템플릿/퓨샷 예시가 하는 역할과 유사하다.

사람이 선호하는 답을 더 자주 내도록 정책을 조정한다.
안전/거절 정책, 공격적 요청 거부, 유해 출력 완화가 이 단계에서 크게 다뤄진다.

강화학습 루프를 단순화해 선호 데이터로 직접 최적화한다.
모델/데이터/목표에 따라 장단점이 있지만, 실무 관점에서는 “정렬 방식이 다르면 모델 행동이 달라진다”만 이해해도 충분하다.

새 모델이 더 똑똑해 보여도, 조직 기준(보안/거절/근거 표시)에 맞지 않을 수 있다.