본문으로 건너뛰기

데이터 사전(Data Dictionary)

← 용어 사전

한 줄 정의

조직에서 사용하는 핵심 용어와 데이터 항목의 정의, 형식, 허용 값 등을 표준화하여 정리한 공식 문서이다.

왜 중요한가(실무)

"매출"이라는 단어 하나도 부서마다 의미가 다를 수 있다. 마케팅팀은 총 결제액을, 재무팀은 환불 차감 후 순매출을, 물류팀은 출하 기준 매출을 의미할 수 있다. 이런 상태에서 AI 모델을 학습시키면 "매출 예측 모델"이 어떤 매출을 예측하는지조차 불명확해진다. 데이터 사전은 이러한 혼란을 방지하는 조직의 공통 언어 규약이다.

AI 프로젝트에서 데이터 사전의 부재는 치명적이다. 분석가가 "고객"을 회원 가입자로 정의하고 모델을 만들었는데, 실제 비즈니스에서 "고객"은 최근 1년 내 구매 이력이 있는 사람만을 의미한다면 모델의 결과 자체가 무의미해진다. 프로젝트 초기에 데이터 사전을 수립하면 이런 정의 불일치로 인한 재작업을 대폭 줄일 수 있다.

또한 데이터 사전은 조직의 데이터 리터러시를 높이는 교육 자료이기도 하다. 신규 입사자, 외부 컨설턴트, 다른 부서 협업자가 조직의 데이터를 빠르게 이해할 수 있는 진입점 역할을 한다. AI 도입이 확산될수록 더 많은 사람이 데이터를 다루게 되므로, 데이터 사전의 중요성은 계속 커진다.

핵심 이론(직관)

1) 비즈니스 용어 사전 vs. 기술 데이터 사전

비즈니스 용어 사전(business glossary)은 "매출", "활성 사용자", "이탈률" 같은 비즈니스 개념의 정의를 담는다. 기술 데이터 사전(technical data dictionary)은 테이블명, 컬럼명, 데이터 타입, 허용 값 범위 등 시스템 수준의 명세를 담는다. 실무에서는 이 두 가지를 연결하여, 비즈니스 용어가 실제 어떤 테이블의 어떤 컬럼에 대응하는지를 명시해야 한다.

2) 골든 레코드(Golden Record) 원칙

하나의 용어에 대해 하나의 공식 정의만 존재해야 한다는 원칙이다. 여러 부서가 각자의 정의를 고집하면 데이터 사전의 의미가 퇴색된다. 이해관계자 간 합의를 통해 "이 조직에서 매출이란 X를 의미한다"를 확정하고, 예외가 필요한 경우 별도 용어(총매출, 순매출 등)로 분리한다.

3) 지속적 갱신 체계

데이터 사전은 한 번 만들고 끝나는 문서가 아니다. 새로운 데이터 소스가 추가되거나, 비즈니스 모델이 변경되거나, 규제 요건이 바뀔 때마다 갱신되어야 한다. 데이터 사전에 소유자(owner)를 지정하고, 변경 요청과 승인 프로세스를 두는 것이 핵심이다.

실무 포인트

1) AI 프로젝트 킥오프 시 데이터 사전 점검

프로젝트 시작 단계에서 사용할 핵심 용어를 데이터 사전에서 확인하고, 없는 항목은 이해관계자와 합의하여 추가한다. 특히 AI 모델의 입력 변수(feature)와 출력 변수(target)에 해당하는 용어의 정의를 프로젝트 참여자 전원이 동일하게 이해하고 있는지 확인해야 한다.

2) 데이터 사전과 메타데이터의 연동

데이터 사전의 용어 정의와 메타데이터 카탈로그를 연결하면, "매출"이라는 용어를 검색했을 때 정의뿐 아니라 관련 테이블, 갱신 주기, 데이터 소유자까지 한 번에 파악할 수 있다. 이 연동이 이루어지면 데이터 탐색 시간이 크게 단축된다.

3) 부서 간 합의 프로세스

데이터 사전 구축에서 가장 어려운 부분은 기술이 아니라 합의다. 각 부서의 데이터 담당자가 참여하는 워킹그룹을 구성하고, 정기적으로 용어 정의를 검토·확정하는 거버넌스 체계를 만들어야 한다. 초기에는 핵심 용어 20~30개부터 시작하여 점진적으로 확장하는 것이 현실적이다.

체크리스트

  • 조직의 핵심 비즈니스 용어(매출, 고객, 비용 등)에 대한 공식 정의가 문서화되어 있는가
  • AI 프로젝트에서 사용하는 주요 변수(feature/target)의 정의가 데이터 사전에 포함되어 있는가
  • 각 용어에 소유자(담당 부서/담당자)가 지정되어 있는가
  • 비즈니스 용어와 실제 데이터베이스 테이블/컬럼 간의 매핑이 명시되어 있는가
  • 데이터 사전의 변경 요청 및 승인 프로세스가 정의되어 있는가
  • 데이터 사전이 정기적으로 검토·갱신되고 있는가
  • 신규 프로젝트 시작 시 데이터 사전 점검이 표준 절차에 포함되어 있는가