청킹(Chunking) / 리랭킹(Reranking) / 하이브리드 검색
한 줄 정의
- 청킹(Chunking): 문서를 검색 가능한 단위(청크)로 나누는 것
- 리랭킹(Reranking): 1차 검색 후보를 더 정교한 모델/스코어링으로 재정렬하는 것
- 하이브리드 검색(Hybrid Search): 키워드(BM25 등) + 벡터 검색을 함께 쓰는 것
왜 중요한가(실무)
RAG 품질 이슈는 “임베딩이 별로라서”가 아니라, 청킹/리랭킹/하이브리드 설계가 없어서 생기는 경우가 많다.
청킹: 어떻게 나눌까
너무 작으면
- 근거가 끊긴다(정책 문장의 예외/조건이 떨어져 나감)
- 답이 단정적으로 변할 수 있다
너무 크면
- 검색이 둔해진다(잡음이 많아짐)
- 컨텍스트 비용이 늘고, 중요한 문장이 묻힐 수 있다
실무 팁
- 제목/소제목 기준으로 우선 나누고
- 표/리스트는 의미 단위가 유지되게 유지하며
- “정책의 조건/예외”가 함께 붙도록 조정한다
리랭킹: 왜 필요한가
벡터/키워드 검색은 빠르지만 “정답 문서”를 1위로 못 올리는 경우가 있다.
리랭킹은 후보를 좁힌 뒤 더 비싼/정확한 판단으로 순서를 다시 세운다.
실무 팁
- 리랭킹이 항상 필요한 건 아니다. 먼저 문서 품질/버전/청킹을 해결하는 게 우선이다.
하이브리드 검색: 언제 유리한가
- 제품명/약어/코드/정확한 키워드가 중요한 업무
- 벡터만 쓰면 “의미는 비슷하지만 다른 문서”가 올라오는 경우
운영 체크리스트
- 청킹 기준이 문서화되어 있고 변경 이력이 남는가
- 대표 질문 세트로 검색 품질을 주기적으로 점검하는가
- 키워드가 중요한 도메인은 하이브리드를 고려했는가
- 리랭킹 도입 시 비용/지연이 허용 범위인지 측정했는가