데이터 최소화(Data Minimization)
한 줄 정의
데이터 최소화란 목적 달성에 필요한 최소한의 개인정보만 수집·처리·보관하는 원칙이다.
왜 중요한가(실무)
AI 프로젝트에서는 "데이터가 많을수록 좋다"는 통념이 있다. 그러나 불필요한 데이터를 과도하게 수집하면 보관 비용 증가, 유출 시 피해 범위 확대, 규제 위반 리스크 등 실질적인 문제가 발생한다. GDPR 제5조는 데이터 최소화를 법적 의무로 규정하고 있으며, 한국 개인정보보호법도 "필요 최소한의 개인정보 수집" 원칙을 명시한다.
실무에서 데이터 최소화가 중요한 또 다른 이유는 데이터 품질과 직결되기 때문이다. 무분별하게 수집된 데이터는 노이즈가 많고 관리가 어렵다. 반면 목적에 맞게 선별된 데이터는 모델 성능 향상에도 효과적이다. "적게 모으되 잘 모은다"는 전략이 AI 프로젝트의 효율성과 안전성을 동시에 높인다.
조직의 데이터 거버넌스 성숙도를 판단하는 핵심 지표이기도 하다. 데이터 최소화 원칙이 체계적으로 적용되고 있다면, 해당 조직은 데이터 관리에 대한 의식적이고 책임 있는 접근을 하고 있다고 볼 수 있다.
핵심 이론(직관)
1) 목적 제한 원칙과의 관계
데이터 최소화는 독립적으로 존재하지 않는다. "수집 목적을 먼저 명확히 한 뒤, 그 목적에 필요한 만큼만 수집한다"는 목적 제한 원칙과 짝을 이룬다. 목적이 모호하면 최소화 기준도 세울 수 없으므로, AI 프로젝트 시작 시 데이터 수집 목적을 구체적으로 정의하는 것이 선행되어야 한다.
2) 비례성(Proportionality) 원칙
수집하는 데이터의 양과 민감도가 달성하려는 목적에 비례해야 한다. 단순 추천 기능에 건강 정보나 금융 정보까지 수집하는 것은 비례성을 위반한 것이다. AI가 필요로 하는 데이터 항목을 기능 단위로 매핑하면 불필요한 수집을 줄일 수 있다.
실무 포인트
1) 데이터 인벤토리와 필요성 검증
현재 수집 중인 데이터 항목을 전수 조사하고, 각 항목이 어떤 비즈니스 목적이나 AI 기능에 사용되는지 매핑한다. 매핑되지 않는 항목은 수집 중단 또는 삭제를 검토한다.
2) 수집 시점의 기술적 제한
시스템 설계 시 필수 항목과 선택 항목을 구분하고, 선택 항목은 사용자 동의 후에만 수집하도록 구현한다. API 설계에서도 필요 이상의 데이터 필드를 요청하지 않도록 인터페이스를 제한한다.
3) 보관 기간 관리와 자동 삭제
데이터 항목별 보관 기간을 정의하고, 기간 만료 시 자동 삭제되는 정책을 시스템에 구현한다. "혹시 나중에 쓸지 모르니 보관"하는 관행은 최소화 원칙에 반한다.
체크리스트
- 수집하는 모든 데이터 항목의 수집 목적이 문서화되어 있는가?
- 각 데이터 항목이 실제 사용되는 기능에 매핑되어 있는가?
- 목적에 비해 과도한 데이터를 수집하고 있지 않은가?
- 필수 항목과 선택 항목이 명확히 구분되어 있는가?
- 데이터 항목별 보관 기간이 정의되어 있는가?
- 보관 기간 만료 시 자동 삭제 메커니즘이 작동하는가?
- AI 학습에 사용되는 데이터가 비식별화 처리되어 있는가?