韓国語法律文書の埋め込みモデル比較評価レポート

1. 評価概要

目的： 韓国語法令および条例検索（RAG）システムに最適化された埋め込みモデルの選定

評価データセット

KCL-MCQA（韓国正準法律ベンチマーク）
282個の質問、867個の判例（エキスパートタグ付けGround Truth）

データ選定の理由

現在、韓国語法令・条例の公開ベンチマークデータセットが存在しない
KCL-MCQAは法律ドメインで検証された唯一の韓国語検索評価データセット
判例と法令・条例は同一の法律用語および文体を共有し、同様の埋め込み性能を期待可能
将来、法令・条例専用評価データセット構築時の再評価を推奨

評価環境

検索エンジン：PostgreSQL pgvector with HNSW index
評価指標：Recall@5、Precision@5、MRR、NDCG@5

2. 比較モデル

モデル	プロバイダ	次元	特徴
Amazon Titan V2	AWS Bedrock	1024	AWS ネイティブ、低コスト
Cohere Embed V4	AWS Bedrock	1536	多言語特化、高性能
KURE-v1	HuggingFace（SageMaker提供が必要）	1024	韓国語特化オープンソース

3. 評価指標の説明

Recall@K（再現率）⭐⭐⭐

定義： 実際の関連文書のうち、上位K件の結果に含まれる割合
計算式： （上位K件で見つかった関連文書数）/（すべての関連文書数）
解釈

値が高いほど、関連文書を漏れなく検出
法律検索で最も重要な指標（漏れ防止）

例：関連判例が5件あるが、上位5件結果に3件含まれる場合 → Recall@5 = 60%

Precision@K（適合率）⭐

定義： 上位K件結果のうち、実際の関連文書の割合
計算式： （上位K件で見つかった関連文書数）/ K
解釈

値が高いほど、検索結果に不要な文書が少ない
ユーザーが確認すべき文書数を削減

例：上位5件結果のうち3件が実際の関連文書 → Precision@5 = 60%

MRR（平均逆順位）⭐⭐

定義： 最初の関連文書が現れた順位の逆数の平均
計算式： 1 /（最初の関連文書の順位）
解釈

値が高いほど、関連文書が上位に早く登場
ユーザーが最初に見る結果の品質を測定

例

1番目の結果が関連文書 → MRR = 1.0
3番目の結果が最初の関連文書 → MRR = 0.33

NDCG@K（正規化割引累積利得）⭐⭐

定義： ランクを考慮した検索品質の総合スコア
解釈

関連文書が上位にあるほど高いスコア
「あるかないか」ではなく「どこにあるか」を評価
0～1の値、1に近いほど理想的なランク

例：関連文書が1、2位にあると高いスコア、8、9位にあると低いスコア

4. 評価結果

4.1 性能指標の比較

モデル	Recall@5	Precision@5	MRR	NDCG@5	順位
Cohere Embed V4	55.60%	34.54%	69.45%	55.14%	1位
KURE-v1	47.15%	29.36%	63.57%	47.02%	2位
Amazon Titan V2	40.09%	24.18%	59.00%	40.68%	3位

4.2 性能比較チャート

Cohere vs. KURE-v1 vs. Amazon Titan V2

図：3つのモデルの性能指標比較

4.3 性能差分析

比較	Recall差	改善率	MRR差	改善率
Cohere vs Titan	+15.5%p	38.7%	+10.5%p	17.7%
Cohere vs KURE	+8.5%p	17.9%	+5.9%p	9.3%
KURE vs Titan	+7.1%p	17.6%	+4.6%p	7.7%

4.4 主要な知見

Cohere Embed V4がすべての指標で1位
韓国語特化KURE-v1は汎用Titan V2を上回るが、Cohereには及ばない
MRR差はRecall差より小さい → すべてのモデルが「最初の結果」は比較的よく検出

5. コスト分析

5.1 埋め込みAPI費用（Bedrock）

モデル	価格（1K tokens）	1,000文書の費用	100万文書の費用
Amazon Titan V2	$0.00002	$0.012	$12.30
Cohere Embed V4	$0.00012	$0.060	$60.00

5.2 KURE-v1提供費用（SageMaker）

KURE-v1はオープンソースですが、提供にはSageMakerインフラが必要です。

提供方式	メモリ/インスタンス	時間当たりコスト	月間10万リクエスト	備考
Serverless	4GB	~$0.0000467/秒	$5-10	変動費
リアルタイム	ml.g4dn.xlarge	~$0.7364/時間	$530	固定費

5.3 月間運営費用比較（10万リクエスト基準）

モデル	提供方式	月額費用	管理負担
Titan V2	Bedrock API	~$1.23	なし
Cohere V4	Bedrock API	~$6.00	なし
KURE-v1	SageMaker Serverless	~$5-10	中程度（コールドスタート）
KURE-v1	SageMaker リアルタイム	~$50-100	高い（インスタンス管理）

6. モデル別詳細分析

6.1 Cohere Embed V4

項目	内容
強点	- 最高性能（Recall 55.6%） - 多言語学習による韓国語法律用語の高い理解度 - Bedrock統合による運用の簡便性
弱点	- Titan比で約5倍高いコスト
適切な用途	法律サービス、精度が重要なB2Bサービス

6.2 KURE-v1（Korea University）

項目	内容
強点	- 韓国語特化学習 - オープンソースのカスタマイズが可能 - 1024次元で保存効率が高い
弱点	- SageMaker提供が必要（インフラ管理追加） - Serverlessコールドスタート遅延（数秒） - リアルタイムエンドポイントはコスト負担 - Cohere比で性能が8.5%p低い
適切な用途	ファインチューニング/カスタマイズが必要な場合、内部システム（遅延許容可能）

6.3 Amazon Titan V2

項目	内容
強点	- 最も低コスト - Bedrock ネイティブ統合 - 運用の複雑度が最小
弱点	- 最低性能（Recall 40.1%） - 韓国語法律ドメインの最適化不足
適切な用途	MVP/プロトタイプ、コスト敏感なサービス、精度より速度/コストが重要な場合

7. 推奨事項

7.1 最終推奨

Cohere Embed V4
法律ドメインでの15%pのRecall差はコスト差よりもはるかに重要です。

7.2 推奨理由

法律ドメイン特性
関連法令・条例の漏れは誤った法律解釈につながる可能性があります。

Recall 55.6% vs 40.1% = 10件クエリあたり1.5件の追加検出
この1.5件が重要な条文である可能性がある

コストの相対的意味

項目	コスト
Cohere追加費用（月10万リクエスト）	$4.77
法律サービス1件の受任料	数百万円以上

→ ROI観点ではCohere費用はごく僅か

運用の便宜

Bedrock APIで基盤管理不要
KURE-v1比でSageMaker運用負担なし

8. 結論

性能ランキング

順位	モデル	Recall@5	特徴
1	Cohere Embed V4	55.6%	最高性能
2	KURE-v1	47.2%	韓国語特化
3	Amazon Titan V2	40.1%	低コスト

主要洞察

観点	結論
絶対性能	Cohere V4がすべての指標で優位
コスト効率	Titan V2が最も効率的だが性能低下が大きい
韓国語特化	KURE-v1がTitanより優位だがCohereに及ばない
運用便宜性	Bedrock モデル（Titan、Cohere）がSageMakerより簡便

最終結論

法律ドメインの核心的価値は「信頼性」です。
Cohere V4の55.6% Recallは完璧ではありませんが、Titan V2の40.1%やKURE-v1の47.2%よりもはるかに信頼できます。
法令・条例検索における「見逃した重要な条文」のリスクは、月数ドルのコスト削減では相殺できません。
したがって、Cohere Embed V4を強く推奨します。

附録：評価環境

項目	詳細
評価日	2026年1月
データセット	KCL-MCQA（lbox/kcl）
評価クエリ	282個
コーパス	867個の判例文書（500文字以上）
検索エンジン	PostgreSQL 16 + pgvector 0.7
インデックス	HNSW（m=16、ef_construction=64）

1. 評価概要#

2. 比較モデル#

3. 評価指標の説明#

Recall@K（再現率）⭐⭐⭐#

Precision@K（適合率）⭐#

MRR（平均逆順位）⭐⭐#

NDCG@K（正規化割引累積利得）⭐⭐#

4. 評価結果#

4.1 性能指標の比較#

4.2 性能比較チャート#

4.3 性能差分析#

4.4 主要な知見#

5. コスト分析#

5.1 埋め込みAPI費用（Bedrock）#

5.2 KURE-v1提供費用（SageMaker）#

5.3 月間運営費用比較（10万リクエスト基準）#

6. モデル別詳細分析#

6.1 Cohere Embed V4#

6.2 KURE-v1（Korea University）#

6.3 Amazon Titan V2#

7. 推奨事項#

7.1 最終推奨#

7.2 推奨理由#

8. 結論#

性能ランキング#

主要洞察#

最終結論#

附録：評価環境#