1. 평가 개요

목적 한국어 법령 및 조례 검색(RAG) 시스템에 최적화된 임베딩 모델 선정

평가 데이터셋

  • KCL-MCQA (Korean Canonical Legal Benchmark)
  • 282개 질문, 867개 판례 (전문가 태깅 Ground Truth)

평가 데이터 선정 이유

  • 현재 한국어 법령/조례에 대한 공개 벤치마크 데이터셋이 부재
  • KCL-MCQA는 법률 도메인에서 검증된 유일한 한국어 검색 평가 데이터셋
  • 판례와 법령/조례는 동일한 법률 용어 및 문체를 공유하여 유사한 임베딩 성능 예상
  • 향후 법령/조례 특화 평가 데이터셋 구축 시 재평가 권장

평가 환경

  • 검색 엔진: PostgreSQL pgvector with HNSW index
  • 평가 지표: Recall@5, Precision@5, MRR, NDCG@5

2. 비교 모델

모델 Provider Dimension 특징
Amazon Titan V2 AWS Bedrock 1024 AWS 네이티브, 저비용
Cohere Embed V4 AWS Bedrock 1536 다국어 특화, 고성능
KURE-v1 HuggingFace (SageMaker 서빙 필요) 1024 한국어 특화 오픈소스

3. 평가 지표 설명

Recall@K (재현율) ⭐⭐⭐

정의: 실제 관련 문서 중 상위 K개 결과에 포함된 비율
계산식: (상위 K개에서 찾은 관련 문서 수) / (전체 관련 문서 수)
해석

  • 높을수록 관련 문서를 빠짐없이 잘 찾음
  • 법률 검색에서 가장 중요한 지표 (누락 방지)

예시: 관련 판례가 5건인데 상위 5개 결과에 3건이 포함됨 → Recall@5 = 60%

Precision@K (정밀도) ⭐

정의: 상위 K개 결과 중 실제 관련 문서의 비율
계산식: (상위 K개에서 찾은 관련 문서 수) / K
해석

  • 높을수록 검색 결과에 불필요한 문서가 적음
  • 사용자가 확인해야 할 문서 수를 줄여줌

예시: 상위 5개 결과 중 3건이 실제 관련 문서 → Precision@5 = 60%

MRR (Mean Reciprocal Rank, 평균 역순위) ⭐⭐

정의: 첫 번째 관련 문서가 나타난 순위의 역수 평균
계산식: 1 / (첫 번째 관련 문서의 순위)
해석

  • 높을수록 관련 문서가 상위에 빨리 등장
  • 사용자가 첫 번째로 보는 결과의 품질 측정

예시

  • 첫 번째 결과가 관련 문서 → MRR = 1.0
  • 세 번째 결과가 첫 관련 문서 → MRR = 0.33

NDCG@K (Normalized Discounted Cumulative Gain) ⭐⭐

정의: 순위를 고려한 검색 품질 종합 점수
해석

  • 관련 문서가 상위에 있을수록 높은 점수
  • 단순히 “있다/없다"가 아닌 “어디에 있는가"를 평가
  • 0~1 사이 값, 1에 가까울수록 이상적인 순위

예시: 관련 문서가 1, 2위에 있으면 높은 점수, 8, 9위에 있으면 낮은 점수

4. 평가 결과

4.1 성능 지표 비교

모델 Recall@5 Precision@5 MRR NDCG@5 순위
Cohere Embed V4 55.60% 34.54% 69.45% 55.14% 1위
KURE-v1 47.15% 29.36% 63.57% 47.02% 2위
Amazon Titan V2 40.09% 24.18% 59.00% 40.68% 3위

4.2 성능 비교 차트

Cohere vs. KURE-v1 vs. Amazon Titan V2

그림: 세 모델의 성능 지표 비교

4.3 성능 차이 분석

비교 Recall 차이 향상률 MRR 차이 향상률
Cohere vs Titan +15.5%p 38.7% +10.5%p 17.7%
Cohere vs KURE +8.5%p 17.9% +5.9%p 9.3%
KURE vs Titan +7.1%p 17.6% +4.6%p 7.7%

4.4 핵심 발견

  1. Cohere Embed V4가 모든 지표에서 1위
  2. 한국어 특화 KURE-v1이 범용 Titan V2보다 우수하나, Cohere에는 미치지 못함
  3. MRR 차이가 Recall보다 작음 → 모든 모델이 “첫 번째 결과"는 비교적 잘 찾음

5. 비용 분석

5.1 임베딩 API 비용 (Bedrock)

모델 가격 (1K tokens) 1,000문서 비용 100만 문서 비용
Amazon Titan V2 $0.00002 $0.012 $12.30
Cohere Embed V4 $0.00012 $0.060 $60.00

5.2 KURE-v1 서빙 비용 (SageMaker)

KURE-v1은 오픈소스이지만 서빙을 위해 SageMaker 인프라가 필요합니다.

서빙 방식 메모리/인스턴스 시간당 비용 월 10만 요청 비고
Serverless 4GB ~$0.0000467/초 $5-10 가변비용
Real-time ml.g4dn.xlarge ~$0.7364/시간 $530 고정비용

5.3 월간 운영 비용 비교 (10만 요청 기준)

모델 서빙 방식 월 비용 관리 부담
Titan V2 Bedrock API ~$1.23 없음
Cohere V4 Bedrock API ~$6.00 없음
KURE-v1 SageMaker Serverless ~$5-10 중간 (콜드 스타트)
KURE-v1 SageMaker Real-time ~$50-100 높음 (인스턴스 관리)

6. 모델별 상세 분석

6.1 Cohere Embed V4

구분 내용
강점 - 최고 성능 (Recall 55.6%) - 다국어 학습으로 한국어 법률 용어 이해도 높음 - Bedrock 통합으로 운영 간편
약점 - Titan 대비 약 5배 높은 비용
적합한 경우 법률 서비스, 정확성이 중요한 B2B 서비스

6.2 KURE-v1 (Korea University)

구분 내용
강점 - 한국어 특화 학습 - 오픈소스로 커스터마이징 가능 - 1024 dim으로 저장 효율적
약점 - SageMaker 서빙 필요 (추가 인프라 관리) - Serverless 콜드 스타트 지연 (수 초) - Real-time 엔드포인트는 비용 부담 - Cohere 대비 성능 8.5%p 낮음
적합한 경우 파인튜닝/커스터마이징 필요 시, 내부 시스템 (지연 허용 가능)

6.3 Amazon Titan V2

구분 내용
강점 - 가장 저렴한 비용 - Bedrock 네이티브 통합 - 운영 복잡도 최소
약점 - 가장 낮은 성능 (Recall 40.1%) - 한국어 법률 도메인 최적화 부족
적합한 경우 MVP/프로토타입, 비용 민감 서비스, 정확성보다 속도/비용 중요

7. 권장 사항

7.1 최종 권장

Cohere Embed V4
법률 도메인에서 15%p의 Recall 차이는 비용 차이보다 훨씬 중요합니다.

7.2 권장 이유

  1. 법률 도메인 특수성
    관련 법령/조례 누락은 잘못된 법률 해석으로 이어질 수 있습니다.
  • Recall 55.6% vs 40.1% = 10건 중 1.5건 추가 발견
  • 이 1.5건이 핵심 조문일 수 있음
  1. 비용의 상대적 의미
항목 비용
Cohere 추가 비용 (월 10만 요청) $4.77
법률 서비스 1건 수임료 수백만 원~

→ ROI 관점에서 Cohere 비용은 미미함

  1. 운영 편의성
  • Bedrock API로 인프라 관리 불필요
  • KURE-v1 대비 SageMaker 운영 부담 없음

8. 결론

성능 순위

순위 모델 Recall@5 특징
1 Cohere Embed V4 55.6% 최고 성능
2 KURE-v1 47.2% 한국어 특화
3 Amazon Titan V2 40.1% 저비용

핵심 인사이트

관점 결론
절대 성능 Cohere V4가 모든 지표에서 우수
비용 효율 Titan V2가 가장 효율적이나 성능 희생 큼
한국어 특화 KURE-v1이 Titan보다 우수하나 Cohere에 미치지 못함
운영 편의성 Bedrock 모델(Titan, Cohere)이 SageMaker보다 간편

최종 결론

법률 도메인의 핵심 가치는 “신뢰성"입니다. Cohere V4의 55.6% Recall은 완벽하지 않지만, Titan V2의 40.1%나 KURE-v1의 47.2%보다 훨씬 신뢰할 수 있습니다.
법령/조례 검색에서 “찾지 못한 조문"으로 인한 리스크는 월 몇 달러의 비용 절감으로 상쇄할 수 없습니다.
따라서 Cohere Embed V4를 권장합니다.


부록: 평가 환경

항목 내용
평가 일자 2025년 1월
데이터셋 KCL-MCQA (lbox/kcl)
평가 쿼리 282개
코퍼스 867개 판례 (500자 이상)
검색 엔진 PostgreSQL 16 + pgvector 0.7
인덱스 HNSW (m=16, ef_construction=64)