모니터링(Monitoring) / 관측성(Observability)
한 줄 정의
- 모니터링(Monitoring): 운영 중 지표/알림으로 상태를 관찰하는 것
- 관측성(Observability): 문제가 생겼을 때 “왜” 그런지 추적할 수 있게 로그/트레이스/컨텍스트를 갖추는 것
왜 중요한가(실무)
LLM 시스템은 운영 중에 품질이 변할 수 있다(드리프트, 문서 변경, 모델 업데이트).
관측성이 없으면 “문제가 생겼다”는 사실만 알고 원인을 모른다.
핵심 개념(LLM 운영에 맞춘 관측성)
1) 무엇을 봐야 하나(최소)
- 오류 유형 TOP 3(사실/숫자/정책/톤 등)
- 민감정보 입력 시도/차단 여부
- 근거 문서 버전(최신 여부)
- 응답 지연/타임아웃
- 비용(토큰, 호출 수, 초과 비용)
2) 로그는 남기는 것만큼 ‘지키는 것’도 중요하다
질문/근거/출력 로그에는 민감정보가 섞일 수 있다.
보관 기간, 접근 권한, 마스킹 정책을 같이 설계해야 한다.
3) 운영 리뷰가 있어야 관측성이 의미가 있다
로그를 쌓기만 하면 비용만 늘어난다.
월 1회라도 “로그 리뷰 리포트”를 만들어 개선으로 연결해야 한다.
실무 체크리스트
- 누가 언제 어떤 로그를 리뷰하는지 정해져 있는가
- 민감정보가 로그에 그대로 남지 않도록 설계했는가
- 오류가 누적되면 중단(롤백)하는 기준이 있는가
- 문서(RAG) 업데이트가 품질 변화로 이어지는지 추적하는가