드리프트(Model Drift)
한 줄 정의
모델 드리프트란 시간이 지남에 따라 실제 데이터의 패턴이 변화하면서 AI 모델의 예측 성능이 점진적으로 저하되는 현상이다.
왜 중요한가(실무)
AI 모델은 과거 데이터를 기반으로 학습된다. 그런데 현실 세계는 끊임없이 변한다. 고객의 구매 패턴, 시장 트렌드, 규제 환경 등이 달라지면 모델이 학습한 과거의 패턴은 더 이상 현재를 정확히 반영하지 못한다. 이것이 드리프트다.
실무에서 드리프트를 방치하면 의사결정의 질이 서서히 나빠진다. 문제는 성능 저하가 갑자기 나타나지 않고 천천히 진행된다는 점이다. 마치 서서히 빛이 바래는 사진처럼, 어느 순간 "이 모델 결과가 왜 이상하지?"라고 느낄 때는 이미 상당한 손실이 발생한 뒤일 수 있다.
따라서 AI를 도입한 조직은 모델 배포 이후에도 성능을 지속적으로 모니터링하고, 드리프트가 감지되면 재학습이나 모델 교체를 수행하는 운영 체계(MLOps)를 갖추어야 한다.
핵심 이론(직관)
1) 데이터 드리프트 vs 컨셉 드리프트
데이터 드리프트는 입력 데이터의 분포 자체가 변하는 것이다. 예를 들어, 코로나 이후 온라인 쇼핑 비중이 급증하면 기존 오프라인 중심 데이터로 학습한 모델은 맞지 않게 된다. 컨셉 드리프트는 입력과 결과 간의 관계가 변하는 것이다. 같은 조건의 고객이라도 경제 상황에 따라 구매 결정이 달라질 수 있다.
2) 점진적 드리프트와 급격한 드리프트
드리프트는 계절 변화처럼 서서히 진행되기도 하고, 팬데믹이나 정책 변경처럼 갑자기 발생하기도 한다. 급격한 드리프트는 발견이 비교적 쉽지만, 점진적 드리프트는 모니터링 시스템 없이는 놓치기 쉽다.
실무 포인트
1) 모니터링 체계 구축
모델 배포 후 핵심 성능 지표(정확도, 정밀도, 재현율 등)를 주기적으로 측정하는 대시보드를 운영한다. 입력 데이터의 통계적 분포 변화도 함께 추적하면 드리프트를 조기에 감지할 수 있다.
2) 재학습 주기와 트리거 설정
"분기마다 한 번 재학습"처럼 고정 주기를 정하거나, 성능 지표가 임계값 이하로 떨어지면 자동으로 재학습을 트리거하는 방식을 병행한다. 도메인 특성에 따라 적절한 주기가 다르므로 초기에는 보수적으로 자주 점검하는 것이 안전하다.
3) 벤더 계약 시 재학습 조건 확인
외부 AI 솔루션을 사용할 경우, 모델 업데이트 주기와 비용이 계약에 포함되어 있는지 반드시 확인한다. 드리프트 대응이 추가 비용으로 청구되는 경우가 많다.
체크리스트
- 모델 배포 후 성능 모니터링 체계가 마련되어 있는가?
- 데이터 분포 변화를 추적하는 도구 또는 프로세스가 있는가?
- 재학습 주기 또는 성능 저하 시 트리거 조건이 정의되어 있는가?
- 드리프트 발생 시 대응 절차(담당자, 의사결정 기준)가 문서화되어 있는가?
- 외부 벤더 사용 시 모델 업데이트·재학습 조건이 계약에 명시되어 있는가?
- 골든셋을 활용한 정기 성능 검증을 수행하고 있는가?