한국어 법률 문서 임베딩 모델 비교 평가 보고서

1. 평가 개요

목적 한국어 법령 및 조례 검색(RAG) 시스템에 최적화된 임베딩 모델 선정

평가 데이터셋

KCL-MCQA (Korean Canonical Legal Benchmark)
282개 질문, 867개 판례 (전문가 태깅 Ground Truth)

평가 데이터 선정 이유

현재 한국어 법령/조례에 대한 공개 벤치마크 데이터셋이 부재
KCL-MCQA는 법률 도메인에서 검증된 유일한 한국어 검색 평가 데이터셋
판례와 법령/조례는 동일한 법률 용어 및 문체를 공유하여 유사한 임베딩 성능 예상
향후 법령/조례 특화 평가 데이터셋 구축 시 재평가 권장

평가 환경

검색 엔진: PostgreSQL pgvector with HNSW index
평가 지표: Recall@5, Precision@5, MRR, NDCG@5

2. 비교 모델

모델	Provider	Dimension	특징
Amazon Titan V2	AWS Bedrock	1024	AWS 네이티브, 저비용
Cohere Embed V4	AWS Bedrock	1536	다국어 특화, 고성능
KURE-v1	HuggingFace (SageMaker 서빙 필요)	1024	한국어 특화 오픈소스

3. 평가 지표 설명

Recall@K (재현율) ⭐⭐⭐

정의: 실제 관련 문서 중 상위 K개 결과에 포함된 비율
계산식: (상위 K개에서 찾은 관련 문서 수) / (전체 관련 문서 수)
해석

높을수록 관련 문서를 빠짐없이 잘 찾음
법률 검색에서 가장 중요한 지표 (누락 방지)

예시: 관련 판례가 5건인데 상위 5개 결과에 3건이 포함됨 → Recall@5 = 60%

Precision@K (정밀도) ⭐

정의: 상위 K개 결과 중 실제 관련 문서의 비율
계산식: (상위 K개에서 찾은 관련 문서 수) / K
해석

높을수록 검색 결과에 불필요한 문서가 적음
사용자가 확인해야 할 문서 수를 줄여줌

예시: 상위 5개 결과 중 3건이 실제 관련 문서 → Precision@5 = 60%

MRR (Mean Reciprocal Rank, 평균 역순위) ⭐⭐

정의: 첫 번째 관련 문서가 나타난 순위의 역수 평균
계산식: 1 / (첫 번째 관련 문서의 순위)
해석

높을수록 관련 문서가 상위에 빨리 등장
사용자가 첫 번째로 보는 결과의 품질 측정

예시

첫 번째 결과가 관련 문서 → MRR = 1.0
세 번째 결과가 첫 관련 문서 → MRR = 0.33

NDCG@K (Normalized Discounted Cumulative Gain) ⭐⭐

정의: 순위를 고려한 검색 품질 종합 점수
해석

관련 문서가 상위에 있을수록 높은 점수
단순히 “있다/없다"가 아닌 “어디에 있는가"를 평가
0~1 사이 값, 1에 가까울수록 이상적인 순위

예시: 관련 문서가 1, 2위에 있으면 높은 점수, 8, 9위에 있으면 낮은 점수

4. 평가 결과

4.1 성능 지표 비교

모델	Recall@5	Precision@5	MRR	NDCG@5	순위
Cohere Embed V4	55.60%	34.54%	69.45%	55.14%	1위
KURE-v1	47.15%	29.36%	63.57%	47.02%	2위
Amazon Titan V2	40.09%	24.18%	59.00%	40.68%	3위

4.2 성능 비교 차트

Cohere vs. KURE-v1 vs. Amazon Titan V2

그림: 세 모델의 성능 지표 비교

4.3 성능 차이 분석

비교	Recall 차이	향상률	MRR 차이	향상률
Cohere vs Titan	+15.5%p	38.7%	+10.5%p	17.7%
Cohere vs KURE	+8.5%p	17.9%	+5.9%p	9.3%
KURE vs Titan	+7.1%p	17.6%	+4.6%p	7.7%

4.4 핵심 발견

Cohere Embed V4가 모든 지표에서 1위
한국어 특화 KURE-v1이 범용 Titan V2보다 우수하나, Cohere에는 미치지 못함
MRR 차이가 Recall보다 작음 → 모든 모델이 “첫 번째 결과"는 비교적 잘 찾음

5. 비용 분석

5.1 임베딩 API 비용 (Bedrock)

모델	가격 (1K tokens)	1,000문서 비용	100만 문서 비용
Amazon Titan V2	$0.00002	$0.012	$12.30
Cohere Embed V4	$0.00012	$0.060	$60.00

5.2 KURE-v1 서빙 비용 (SageMaker)

KURE-v1은 오픈소스이지만 서빙을 위해 SageMaker 인프라가 필요합니다.

서빙 방식	메모리/인스턴스	시간당 비용	월 10만 요청	비고
Serverless	4GB	~$0.0000467/초	$5-10	가변비용
Real-time	ml.g4dn.xlarge	~$0.7364/시간	$530	고정비용

5.3 월간 운영 비용 비교 (10만 요청 기준)

모델	서빙 방식	월 비용	관리 부담
Titan V2	Bedrock API	~$1.23	없음
Cohere V4	Bedrock API	~$6.00	없음
KURE-v1	SageMaker Serverless	~$5-10	중간 (콜드 스타트)
KURE-v1	SageMaker Real-time	~$50-100	높음 (인스턴스 관리)

6. 모델별 상세 분석

6.1 Cohere Embed V4

구분	내용
강점	- 최고 성능 (Recall 55.6%) - 다국어 학습으로 한국어 법률 용어 이해도 높음 - Bedrock 통합으로 운영 간편
약점	- Titan 대비 약 5배 높은 비용
적합한 경우	법률 서비스, 정확성이 중요한 B2B 서비스

6.2 KURE-v1 (Korea University)

구분	내용
강점	- 한국어 특화 학습 - 오픈소스로 커스터마이징 가능 - 1024 dim으로 저장 효율적
약점	- SageMaker 서빙 필요 (추가 인프라 관리) - Serverless 콜드 스타트 지연 (수 초) - Real-time 엔드포인트는 비용 부담 - Cohere 대비 성능 8.5%p 낮음
적합한 경우	파인튜닝/커스터마이징 필요 시, 내부 시스템 (지연 허용 가능)

6.3 Amazon Titan V2

구분	내용
강점	- 가장 저렴한 비용 - Bedrock 네이티브 통합 - 운영 복잡도 최소
약점	- 가장 낮은 성능 (Recall 40.1%) - 한국어 법률 도메인 최적화 부족
적합한 경우	MVP/프로토타입, 비용 민감 서비스, 정확성보다 속도/비용 중요

7. 권장 사항

7.1 최종 권장

Cohere Embed V4
법률 도메인에서 15%p의 Recall 차이는 비용 차이보다 훨씬 중요합니다.

7.2 권장 이유

법률 도메인 특수성
관련 법령/조례 누락은 잘못된 법률 해석으로 이어질 수 있습니다.

Recall 55.6% vs 40.1% = 10건 중 1.5건 추가 발견
이 1.5건이 핵심 조문일 수 있음

비용의 상대적 의미

항목	비용
Cohere 추가 비용 (월 10만 요청)	$4.77
법률 서비스 1건 수임료	수백만 원~

→ ROI 관점에서 Cohere 비용은 미미함

운영 편의성

Bedrock API로 인프라 관리 불필요
KURE-v1 대비 SageMaker 운영 부담 없음

8. 결론

성능 순위

순위	모델	Recall@5	특징
1	Cohere Embed V4	55.6%	최고 성능
2	KURE-v1	47.2%	한국어 특화
3	Amazon Titan V2	40.1%	저비용

핵심 인사이트

관점	결론
절대 성능	Cohere V4가 모든 지표에서 우수
비용 효율	Titan V2가 가장 효율적이나 성능 희생 큼
한국어 특화	KURE-v1이 Titan보다 우수하나 Cohere에 미치지 못함
운영 편의성	Bedrock 모델(Titan, Cohere)이 SageMaker보다 간편

최종 결론

법률 도메인의 핵심 가치는 “신뢰성"입니다. Cohere V4의 55.6% Recall은 완벽하지 않지만, Titan V2의 40.1%나 KURE-v1의 47.2%보다 훨씬 신뢰할 수 있습니다.
법령/조례 검색에서 “찾지 못한 조문"으로 인한 리스크는 월 몇 달러의 비용 절감으로 상쇄할 수 없습니다.
따라서 Cohere Embed V4를 권장합니다.

부록: 평가 환경

항목	내용
평가 일자	2025년 1월
데이터셋	KCL-MCQA (lbox/kcl)
평가 쿼리	282개
코퍼스	867개 판례 (500자 이상)
검색 엔진	PostgreSQL 16 + pgvector 0.7
인덱스	HNSW (m=16, ef_construction=64)

1. 평가 개요#

2. 비교 모델#

3. 평가 지표 설명#

Recall@K (재현율) ⭐⭐⭐#

Precision@K (정밀도) ⭐#

MRR (Mean Reciprocal Rank, 평균 역순위) ⭐⭐#

NDCG@K (Normalized Discounted Cumulative Gain) ⭐⭐#

4. 평가 결과#

4.1 성능 지표 비교#

4.2 성능 비교 차트#

4.3 성능 차이 분석#

4.4 핵심 발견#

5. 비용 분석#

5.1 임베딩 API 비용 (Bedrock)#

5.2 KURE-v1 서빙 비용 (SageMaker)#

5.3 월간 운영 비용 비교 (10만 요청 기준)#

6. 모델별 상세 분석#

6.1 Cohere Embed V4#

6.2 KURE-v1 (Korea University)#

6.3 Amazon Titan V2#

7. 권장 사항#

7.1 최종 권장#

7.2 권장 이유#

8. 결론#

성능 순위#

핵심 인사이트#

최종 결론#

부록: 평가 환경#