본문으로 건너뛰기

SLA(Service Level Agreement)

← 용어 사전

한 줄 정의

AI 서비스나 도구의 가용성, 응답 시간, 지원 수준 등을 수치로 보장하는 공식 계약이다.

왜 중요한가(실무)

AI 솔루션을 도입할 때 기능과 성능만 평가하고 SLA를 간과하는 경우가 많다. 그러나 실제 운영 환경에서는 "이 서비스가 얼마나 안정적으로 작동하는가"가 비즈니스 연속성을 좌우한다. 예를 들어, 고객 응대용 AI 챗봇이 하루 2시간씩 다운되면 매출 손실은 물론 고객 신뢰가 크게 훼손된다.

SLA는 공급자와 수요자 사이의 기대치를 명확히 하는 장치다. "99.9% 가용성"이라는 숫자는 연간 약 8.7시간의 다운타임을 의미하고, "99.99%"는 약 52분을 의미한다. 이 차이가 비즈니스에 미치는 영향을 사전에 계산하고, 조직의 요구 수준에 맞는 SLA를 협상해야 한다. SLA가 없으면 장애 발생 시 책임 소재가 불명확해지고, 보상이나 개선 요구의 근거도 없어진다.

AI 서비스 특유의 SLA 항목도 존재한다. 모델 응답 지연 시간(latency), 처리량(throughput), 모델 정확도 유지 수준, 데이터 처리 지역 제한 등이 그것이다. 전통적인 IT 서비스 SLA에서 한 단계 더 나아간 협상이 필요하다.

핵심 이론(직관)

1) SLA의 3요소: 지표·목표·보상

SLA는 측정 지표(metric), 목표 수준(target), 미달 시 보상(remedy)의 세 가지로 구성된다. "가용성 99.9% 미달 시 월 사용료 10% 크레딧 제공"처럼 구체적이어야 실효성이 있다. 지표 없이 "최선을 다하겠다"는 문구는 SLA가 아니다.

2) SLO와 SLI의 구분

SLA 내부에는 SLO(Service Level Objective, 서비스 수준 목표)와 SLI(Service Level Indicator, 서비스 수준 지표)가 있다. SLI는 실제 측정값(예: 평균 응답 시간 200ms), SLO는 목표 기준(예: 응답 시간 95퍼센타일 500ms 이하), SLA는 SLO를 계약으로 공식화한 것이다. 이 구조를 이해해야 모니터링과 협상을 정확히 할 수 있다.

3) 서비스 티어별 차등 설계

모든 기능에 동일한 SLA를 적용하면 비용이 과도해진다. 핵심 업무(결제, 인증)에는 높은 SLA를, 부가 기능(리포트 생성, 추천)에는 상대적으로 낮은 SLA를 적용하는 티어별 설계가 합리적이다.

실무 포인트

1) AI 서비스 계약 시 확인할 SLA 항목

API 가용성(uptime), 응답 지연 시간(p50/p95/p99), 처리 용량 한도(rate limit), 장애 통보 시간, 데이터 보존 및 삭제 정책, 모델 업데이트 사전 고지 기간 등을 반드시 확인해야 한다. 특히 AI 모델이 예고 없이 변경되면 기존 워크플로우가 깨질 수 있으므로, 모델 변경 고지 조항은 필수다.

2) 내부 AI 서비스에도 SLA 적용

외부 벤더뿐 아니라 내부 AI 팀이 제공하는 서비스에도 SLA를 설정하는 것이 좋다. 내부 SLA는 팀 간 기대치를 조율하고, AI 인프라 투자의 우선순위를 결정하는 기준이 된다. "우리 팀의 추론 API는 p99 응답 시간 2초 이내를 보장한다"처럼 내부적으로도 명확한 약속이 필요하다.

3) SLA 모니터링 체계 구축

SLA를 계약서에만 남겨두면 의미가 없다. 실시간 대시보드로 SLI를 모니터링하고, SLO 위반 징후가 보이면 사전 알림을 받는 체계를 갖춰야 한다. 월별·분기별로 SLA 달성률을 리뷰하고, 미달 시 원인 분석과 개선 계획을 수립하는 프로세스를 정례화한다.

체크리스트

  • AI 서비스 계약서에 가용성, 응답 시간, 처리량 등 측정 가능한 SLA 지표가 명시되어 있는가
  • SLA 미달 시 보상(크레딧, 계약 해지 등) 조항이 포함되어 있는가
  • 모델 변경·업데이트에 대한 사전 고지 기간이 명시되어 있는가
  • 장애 발생 시 통보 채널과 대응 시간이 정의되어 있는가
  • SLI를 실시간으로 모니터링할 수 있는 대시보드가 구축되어 있는가
  • 데이터 처리 지역 및 보존 기간에 대한 조항이 포함되어 있는가
  • 정기적인 SLA 달성률 리뷰 프로세스가 운영되고 있는가