韓国語法律文書の埋め込みモデル比較評価レポート
1. 評価概要 目的: 韓国語法令および条例検索(RAG)システムに最適化された埋め込みモデルの選定 評価データセット KCL-MCQA(韓国正準法律ベンチマーク) 282個の質問、867個の判例(エキスパートタグ付けGround Truth) データ選定の理由 現在、韓国語法令・条例の公開ベンチマークデータセットが存在しない KCL-MCQAは法律ドメインで検証された唯一の韓国語検索評価データセット 判例と法令・条例は同一の法律用語および文体を共有し、同様の埋め込み性能を期待可能 将来、法令・条例専用評価データセット構築時の再評価を推奨 評価環境 検索エンジン:PostgreSQL pgvector with HNSW index 評価指標:Recall@5、Precision@5、MRR、NDCG@5 2. 比較モデル モデル プロバイダ 次元 特徴 Amazon Titan V2 AWS Bedrock 1024 AWS ネイティブ、低コスト Cohere Embed V4 AWS Bedrock 1536 多言語特化、高性能 KURE-v1 HuggingFace(SageMaker提供が必要) 1024 韓国語特化オープンソース 3. 評価指標の説明 Recall@K(再現率)⭐⭐⭐ 定義: 実際の関連文書のうち、上位K件の結果に含まれる割合 計算式: (上位K件で見つかった関連文書数)/(すべての関連文書数) 解釈 値が高いほど、関連文書を漏れなく検出 法律検索で最も重要な指標(漏れ防止) 例: 関連判例が5件あるが、上位5件結果に3件含まれる場合 → Recall@5 = 60% Precision@K(適合率)⭐ 定義: 上位K件結果のうち、実際の関連文書の割合 計算式: (上位K件で見つかった関連文書数)/ K 解釈 値が高いほど、検索結果に不要な文書が少ない ユーザーが確認すべき文書数を削減 例: 上位5件結果のうち3件が実際の関連文書 → Precision@5 = 60% ...