본문으로 건너뛰기

모니터링(Monitoring) / 관측성(Observability)

← 용어 사전

한 줄 정의

  • 모니터링(Monitoring): 운영 중 지표/알림으로 상태를 관찰하는 것
  • 관측성(Observability): 문제가 생겼을 때 “왜” 그런지 추적할 수 있게 로그/트레이스/컨텍스트를 갖추는 것

왜 중요한가(실무)

LLM 시스템은 운영 중에 품질이 변할 수 있다(드리프트, 문서 변경, 모델 업데이트).
관측성이 없으면 “문제가 생겼다”는 사실만 알고 원인을 모른다.

핵심 개념(LLM 운영에 맞춘 관측성)

1) 무엇을 봐야 하나(최소)

  • 오류 유형 TOP 3(사실/숫자/정책/톤 등)
  • 민감정보 입력 시도/차단 여부
  • 근거 문서 버전(최신 여부)
  • 응답 지연/타임아웃
  • 비용(토큰, 호출 수, 초과 비용)

2) 로그는 남기는 것만큼 ‘지키는 것’도 중요하다

질문/근거/출력 로그에는 민감정보가 섞일 수 있다.
보관 기간, 접근 권한, 마스킹 정책을 같이 설계해야 한다.

3) 운영 리뷰가 있어야 관측성이 의미가 있다

로그를 쌓기만 하면 비용만 늘어난다.
월 1회라도 “로그 리뷰 리포트”를 만들어 개선으로 연결해야 한다.

실무 체크리스트

  • 누가 언제 어떤 로그를 리뷰하는지 정해져 있는가
  • 민감정보가 로그에 그대로 남지 않도록 설계했는가
  • 오류가 누적되면 중단(롤백)하는 기준이 있는가
  • 문서(RAG) 업데이트가 품질 변화로 이어지는지 추적하는가