본문으로 건너뛰기

청킹(Chunking) / 리랭킹(Reranking) / 하이브리드 검색

← 용어 사전

한 줄 정의

  • 청킹(Chunking): 문서를 검색 가능한 단위(청크)로 나누는 것
  • 리랭킹(Reranking): 1차 검색 후보를 더 정교한 모델/스코어링으로 재정렬하는 것
  • 하이브리드 검색(Hybrid Search): 키워드(BM25 등) + 벡터 검색을 함께 쓰는 것

왜 중요한가(실무)

RAG 품질 이슈는 “임베딩이 별로라서”가 아니라, 청킹/리랭킹/하이브리드 설계가 없어서 생기는 경우가 많다.

청킹: 어떻게 나눌까

너무 작으면

  • 근거가 끊긴다(정책 문장의 예외/조건이 떨어져 나감)
  • 답이 단정적으로 변할 수 있다

너무 크면

  • 검색이 둔해진다(잡음이 많아짐)
  • 컨텍스트 비용이 늘고, 중요한 문장이 묻힐 수 있다

실무 팁

  • 제목/소제목 기준으로 우선 나누고
  • 표/리스트는 의미 단위가 유지되게 유지하며
  • “정책의 조건/예외”가 함께 붙도록 조정한다

리랭킹: 왜 필요한가

벡터/키워드 검색은 빠르지만 “정답 문서”를 1위로 못 올리는 경우가 있다.
리랭킹은 후보를 좁힌 뒤 더 비싼/정확한 판단으로 순서를 다시 세운다.

실무 팁

  • 리랭킹이 항상 필요한 건 아니다. 먼저 문서 품질/버전/청킹을 해결하는 게 우선이다.

하이브리드 검색: 언제 유리한가

  • 제품명/약어/코드/정확한 키워드가 중요한 업무
  • 벡터만 쓰면 “의미는 비슷하지만 다른 문서”가 올라오는 경우

운영 체크리스트

  • 청킹 기준이 문서화되어 있고 변경 이력이 남는가
  • 대표 질문 세트로 검색 품질을 주기적으로 점검하는가
  • 키워드가 중요한 도메인은 하이브리드를 고려했는가
  • 리랭킹 도입 시 비용/지연이 허용 범위인지 측정했는가