본문으로 건너뛰기

레드팀(Red Teaming)

← 용어 사전

한 줄 정의

레드팀(Red Teaming)은 실제 공격/오남용을 가정해 시스템의 취약점을 찾는 모의훈련/테스트다.

왜 중요한가(실무)

LLM 시스템은 “정상 사용”만 고려하면 안전해 보일 수 있다.
하지만 운영은 항상 예외/악용/실수로 무너진다.

  • 프롬프트 인젝션
  • 민감정보 추출 시도
  • 권한 없는 툴 호출 유도

레드팀은 이 취약점을 “사고 전에” 드러내는 가장 현실적인 방법 중 하나다.

실무에서 레드팀을 시작하는 방법(가볍게)

1) 테스트 질문 목록을 만든다

업무와 맞는 공격 시나리오를 10개만 만들어도 시작할 수 있다.

2) 판정 기준을 정한다

예:

  • 내부 규칙/시스템 프롬프트를 노출하지 않는다
  • 민감정보 원문을 출력하지 않는다
  • 권한 없는 작업은 거절하고 대안을 제시한다

3) 개선을 운영으로 연결한다

레드팀 결과는 다음으로 이어져야 의미가 있다.

  • 프롬프트/필터 개선
  • 권한 축소
  • 승인 게이트 추가
  • 로그/경보 추가

주의

  • 실데이터로 테스트하지 않는다(마스킹/샘플 데이터)
  • 테스트는 기록하고 재현 가능하게 만든다(운영 품질)