임베딩(Embedding)
한 줄 정의
임베딩(Embedding)은 문장/문서를 숫자 벡터로 표현해 “의미가 가까운 것”을 찾을 수 있게 하는 표현 방식이다.
왜 중요한가(실무)
RAG(검색+생성)에서 검색 품질을 결정하는 핵심 요소 중 하나가 임베딩이다.
임베딩이 잘못되면 “근거 문서”가 틀리게 붙고, 답도 함께 흔들린다.
핵심 이론(직관)
1) 임베딩은 ‘좌표’다
문장을 고차원 공간의 점으로 바꾼다고 생각하면 된다. 의미가 비슷한 문장은 가까운 점이 되도록 학습된다.
2) 유사도(Similarity)는 완벽한 의미 이해가 아니다
임베딩은 강력하지만, 도메인 용어/약어/숫자/표 같은 데이터에서 엣지 케이스가 생길 수 있다.
따라서 운영에서는 임베딩 변경도 “회귀 테스트” 대상이다.
실무 포인트
1) 검색 품질은 임베딩만의 문제가 아니다
대부분의 실패는 다음에서 먼저 터진다.
- 문서가 최신이 아니다(버전/승인 문제)
- 청킹이 잘못됐다(근거가 끊김/너무 커서 잡음)
- 질문이 제각각이다(질문 템플릿 부재)
2) 임베딩/검색 변경은 반드시 A/B로
임베딩 모델을 바꾸거나 청킹 기준을 바꾸면, 대표 질문 세트로 “근거 적중률”이 좋아졌는지 확인한다.
체크리스트
- 문서에 버전/최종 수정일/승인자가 있는가
- 대표 질문 세트가 있고, 검색 결과를 사람이 점검했는가
- 임베딩/청킹/리랭킹 변경 이력이 기록되는가