데이터 거버넌스(Data Governance)
한 줄 정의
데이터 거버넌스는 조직의 데이터에 대해 소유권·접근 권한·품질 기준·생명주기를 체계적으로 관리하는 정책과 프로세스다.
왜 중요한가(실무)
AI의 품질은 데이터 품질에 정비례한다. 아무리 좋은 모델을 쓰더라도, 데이터가 엉망이면 결과도 엉망이다. 데이터 거버넌스가 실무에서 중요한 이유는 세 가지다.
첫째, AI 입력 데이터의 품질 보장이다. RAG에 넣을 문서가 오래되었거나, 학습 데이터에 중복·오류가 섞여 있으면 AI 출력이 틀린다. 데이터 거버넌스는 "어떤 데이터가 최신이고 신뢰할 수 있는가"를 관리하는 기본 토대다.
둘째, 보안과 프라이버시다. AI에 입력되는 데이터에 고객 개인정보, 내부 기밀, 의료 정보가 포함될 수 있다. 누가 어떤 데이터에 접근할 수 있는지, AI API로 전송해도 되는 데이터인지를 데이터 등급별로 정의해야 유출 사고를 방지한다.
셋째, 규제 준수다. 개인정보보호법, GDPR, 의료법 등은 데이터의 수집·저장·처리·삭제에 대한 명확한 규칙을 요구한다. AI가 이 데이터를 활용한다면, 데이터 거버넌스 없이는 컴플라이언스를 입증할 수 없다.
핵심 이론(직관)
1) 데이터 거버넌스의 네 축
- 소유권(Ownership): 각 데이터셋에 대해 "이 데이터의 최종 책임자는 누구인가"를 지정한다. 오너가 없는 데이터는 아무도 관리하지 않는다.
- 접근 제어(Access Control): 데이터 등급(공개/내부/기밀/극비)에 따라 누가 읽고, 쓰고, AI에 입력할 수 있는지를 정한다.
- 품질 관리(Quality): 정확성, 완전성, 일관성, 최신성을 주기적으로 점검한다. 품질 기준이 없으면 "나쁜 데이터"를 식별할 수 없다.
- 생명주기(Lifecycle): 데이터의 생성 → 저장 → 활용 → 보관 → 폐기까지 전체 흐름을 관리한다. 보관 기간이 지난 데이터가 AI 학습에 사용되면 법적 리스크가 된다.
2) AI 시대에 달라지는 점
기존 데이터 거버넌스에 AI 관련 항목이 추가된다:
- AI 입력 허용 범위: 어떤 등급의 데이터까지 외부 LLM API에 전송할 수 있는가
- AI 생성 데이터 관리: AI가 만든 출력물의 소유권·신뢰도·보관 정책은 무엇인가
- 학습 데이터 추적: 모델 파인튜닝이나 RAG에 사용된 데이터의 출처·버전을 추적하는가
3) 데이터 카탈로그의 역할
조직이 보유한 데이터가 무엇인지, 어디에 있는지, 누가 관리하는지를 한 곳에서 조회할 수 있는 목록이 데이터 카탈로그다. AI 프로젝트를 시작할 때 "쓸 수 있는 데이터가 뭐가 있지?"라는 질문에 답하는 기본 인프라다.
실무 포인트
1) 최소 데이터 분류 체계
| 등급 | 설명 | AI 입력 허용 |
|---|---|---|
| 공개 | 외부 공개 가능 (보도자료, 제품 카탈로그) | 제한 없음 |
| 내부 | 조직 내 공유 (내부 보고서, 회의록) | 익명화 후 허용 |
| 기밀 | 접근 제한 (고객 개인정보, 재무 데이터) | 원칙적 금지 |
| 극비 | 최소 인원만 접근 (영업 비밀, 전략 문서) | 절대 금지 |
2) 데이터 거버넌스 도입 순서
- 현재 보유 데이터를 목록화한다 (데이터 카탈로그 초안).
- 각 데이터에 오너를 지정한다.
- 데이터 등급을 분류한다.
- 등급별 접근 권한과 AI 입력 허용 범위를 정의한다.
- 품질 점검 주기와 책임자를 정한다.
- 생명주기 정책(보관 기간, 폐기 절차)을 수립한다.
체크리스트
- 조직 보유 데이터의 목록(카탈로그)이 존재하는가
- 각 데이터셋에 오너(최종 책임자)가 지정되어 있는가
- 데이터 등급 분류(공개/내부/기밀/극비) 체계가 있는가
- 등급별 AI 입력 허용 범위가 명시되어 있는가
- 데이터 품질 점검 주기와 기준이 정의되어 있는가
- 데이터 보관 기간·폐기 절차가 문서화되어 있는가
- AI가 생성한 데이터(출력물)의 관리 정책이 있는가