레드팀(Red Teaming)
한 줄 정의
레드팀(Red Teaming)은 실제 공격/오남용을 가정해 시스템의 취약점을 찾는 모의훈련/테스트다.
왜 중요한가(실무)
LLM 시스템은 “정상 사용”만 고려하면 안전해 보일 수 있다.
하지만 운영은 항상 예외/악용/실수로 무너진다.
- 프롬프트 인젝션
- 민감정보 추출 시도
- 권한 없는 툴 호출 유도
레드팀은 이 취약점을 “사고 전에” 드러내는 가장 현실적인 방법 중 하나다.
실무에서 레드팀을 시작하는 방법(가볍게)
1) 테스트 질문 목록을 만든다
업무와 맞는 공격 시나리오를 10개만 만들어도 시작할 수 있다.
2) 판정 기준을 정한다
예:
- 내부 규칙/시스템 프롬프트를 노출하지 않는다
- 민감정보 원문을 출력하지 않는다
- 권한 없는 작업은 거절하고 대안을 제시한다
3) 개선을 운영으로 연결한다
레드팀 결과는 다음으로 이어져야 의미가 있다.
- 프롬프트/필터 개선
- 권한 축소
- 승인 게이트 추가
- 로그/경보 추가
주의
- 실데이터로 테스트하지 않는다(마스킹/샘플 데이터)
- 테스트는 기록하고 재현 가능하게 만든다(운영 품질)