본문으로 건너뛰기

CRISP-DM

← 용어 사전

한 줄 정의

데이터 분석 프로젝트를 체계적으로 수행하기 위한 6단계 표준 프로세스 프레임워크이다.

왜 중요한가(실무)

AI 프로젝트는 "데이터만 넣으면 결과가 나온다"는 오해 속에서 시작되는 경우가 많다. 실제로는 비즈니스 목표 정의부터 배포 후 운영까지 여러 단계를 거쳐야 하며, 각 단계를 건너뛰면 프로젝트 실패 확률이 급격히 높아진다. CRISP-DM은 이 전체 과정을 구조화하여 "지금 어디쯤 와 있는지"를 팀 전체가 공유할 수 있게 해준다.

특히 비기술 실무자에게 CRISP-DM은 AI 프로젝트의 진행 상황을 이해하고 의사결정에 참여할 수 있는 공통 언어 역할을 한다. 예를 들어, "지금 데이터 준비 단계입니다"라는 말이 구체적으로 무엇을 의미하는지 팀원 모두가 같은 맥락으로 이해할 수 있다.

컨설팅 현장에서는 CRISP-DM을 프로젝트 계획서와 마일스톤의 골격으로 활용하는 경우가 많다. 프레임워크가 있으면 일정 산정, 리소스 배분, 리스크 식별이 훨씬 수월해진다.

핵심 이론(직관)

1) 6단계 순환 구조

CRISP-DM은 다음 6단계로 구성된다: 비즈니스 이해(Business Understanding) → 데이터 이해(Data Understanding) → 데이터 준비(Data Preparation) → 모델링(Modeling) → 평가(Evaluation) → 배포(Deployment). 핵심은 이 과정이 일직선이 아니라 순환형이라는 점이다. 평가 결과가 부족하면 데이터 준비로 돌아가고, 배포 후에도 비즈니스 이해 단계를 다시 점검한다.

2) 비즈니스 이해가 출발점

많은 조직이 데이터 수집부터 시작하지만, CRISP-DM은 "해결할 문제가 무엇인가?"를 먼저 정의하도록 강제한다. 비즈니스 목표가 명확하지 않으면 아무리 정교한 모델도 실무에서 쓸모없는 결과를 만들어낸다. 첫 단계에 가장 많은 시간을 투자하는 것이 프로젝트 성공률을 높이는 핵심이다.

실무 포인트

1) 단계별 산출물을 명확히 정의하라

각 단계가 끝날 때 "무엇이 완성되어야 다음으로 넘어가는지"를 미리 합의해야 한다. 비즈니스 이해 단계라면 문제 정의서와 성공 기준, 데이터 준비 단계라면 정제된 데이터셋과 품질 보고서가 산출물이 된다. 산출물 없이 단계를 넘기면 나중에 되돌아오는 비용이 크다.

2) 반복을 두려워하지 마라

CRISP-DM의 순환 구조는 "실패"가 아니라 "학습"이다. 첫 번째 모델링 결과가 기대에 못 미치면 데이터 준비 단계로 돌아가 변수를 추가하거나 정제 방식을 바꾸는 것이 정상적인 흐름이다. 프로젝트 일정에 이 반복 주기를 미리 반영해 두어야 한다.

체크리스트

  • 프로젝트 시작 전 비즈니스 목표와 성공 기준을 문서화했는가
  • 각 단계별 산출물과 완료 조건을 팀과 합의했는가
  • 데이터 이해 단계에서 데이터 품질과 가용성을 충분히 점검했는가
  • 모델 평가 시 비즈니스 관점의 성과 지표를 함께 검토하고 있는가
  • 배포 후 모니터링 및 재학습 주기를 계획에 포함했는가
  • 단계 간 되돌아가는 반복 주기를 일정에 반영했는가