데이터 거버넌스(Data Governance)

한 줄 정의

데이터 거버넌스는 조직의 데이터에 대해 소유권·접근 권한·품질 기준·생명주기를 체계적으로 관리하는 정책과 프로세스다.

AI의 품질은 데이터 품질에 정비례한다. 아무리 좋은 모델을 쓰더라도, 데이터가 엉망이면 결과도 엉망이다. 데이터 거버넌스가 실무에서 중요한 이유는 세 가지다.

첫째, AI 입력 데이터의 품질 보장이다. RAG에 넣을 문서가 오래되었거나, 학습 데이터에 중복·오류가 섞여 있으면 AI 출력이 틀린다. 데이터 거버넌스는 "어떤 데이터가 최신이고 신뢰할 수 있는가"를 관리하는 기본 토대다.

둘째, 보안과 프라이버시다. AI에 입력되는 데이터에 고객 개인정보, 내부 기밀, 의료 정보가 포함될 수 있다. 누가 어떤 데이터에 접근할 수 있는지, AI API로 전송해도 되는 데이터인지를 데이터 등급별로 정의해야 유출 사고를 방지한다.

셋째, 규제 준수다. 개인정보보호법, GDPR, 의료법 등은 데이터의 수집·저장·처리·삭제에 대한 명확한 규칙을 요구한다. AI가 이 데이터를 활용한다면, 데이터 거버넌스 없이는 컴플라이언스를 입증할 수 없다.

소유권(Ownership): 각 데이터셋에 대해 "이 데이터의 최종 책임자는 누구인가"를 지정한다. 오너가 없는 데이터는 아무도 관리하지 않는다.
접근 제어(Access Control): 데이터 등급(공개/내부/기밀/극비)에 따라 누가 읽고, 쓰고, AI에 입력할 수 있는지를 정한다.
품질 관리(Quality): 정확성, 완전성, 일관성, 최신성을 주기적으로 점검한다. 품질 기준이 없으면 "나쁜 데이터"를 식별할 수 없다.
생명주기(Lifecycle): 데이터의 생성 → 저장 → 활용 → 보관 → 폐기까지 전체 흐름을 관리한다. 보관 기간이 지난 데이터가 AI 학습에 사용되면 법적 리스크가 된다.

기존 데이터 거버넌스에 AI 관련 항목이 추가된다:

조직이 보유한 데이터가 무엇인지, 어디에 있는지, 누가 관리하는지를 한 곳에서 조회할 수 있는 목록이 데이터 카탈로그다. AI 프로젝트를 시작할 때 "쓸 수 있는 데이터가 뭐가 있지?"라는 질문에 답하는 기본 인프라다.