Eval Harness ブリッジ
champollion と MT Eval Harness は、ひとつのエコシステムを形成する2つの独立したツールです。ハーネスは翻訳手法を検証する場所です。Champollion は検証済みの手法をデプロイする場所です。両者は共通のプラグイン形式を通じて連携します。
フロー:リサーチ → プロダクション
1. ハーネスで手法を構築する
async translate(entries, config) → [{id, predicted}] を実装した Python クラスであれば、ハーネスに組み込むことができます。ハーネスは内部の実装を問いません — プロンプトを使った LLM、カスタムトレーニング済みモデル、決定論的なルール、何でも構いません。
2. ベンチマークを実行する
ハーネスは、標準化されたコーパスに対して再現可能なメトリクスで手法を評価します:chrF++、FST 受理率(形態論的に複雑な言語向け)、形態論的精度、セマンティックスコアリング。
3. プラグインとしてエクスポートする
手法が許容できる品質に達したら、champollion プラグインとしてパッケージ化します — オプションのコーチングデータを含む method.json マニフェストです。
:::info エクスポート CLI は計画中です
現在、method.json マニフェストは手動で作成する必要があります。mt-eval export コマンドによってこの作業が自動化される予定です。プラグインの完全な形式については Method Interface を参照してください。
:::
4. champollion にインストールする
champollion plugin install ./my-method-plugin/
5. 実際のコンテンツを翻訳する
champollion sync
ベンチマーク済みの手法が、プロダクション環境で実際の翻訳を生成するようになりました。
フロー:プロダクション → リサーチ
デプロイされた翻訳はバイリンガルの話者によってレビューされます。そのフィードバックから体系的なエラー(誤った時制パターン、語彙の欠落、不自然な表現)が特定されます。研究者はハーネス上で手法を更新し、再ベンチマーク、再エクスポート、再デプロイを行います。システムは使用を通じて学習していきます。
プラグイン形式
method.json マニフェストは、2つのツール間の契約です:
{
"name": "crk-coached-v3",
"type": "llm-coached",
"version": "3.0.0",
"description": "Coached LLM translation for Plains Cree",
"locales": ["crk"],
"config": {
"model": "google/gemini-3.5-flash",
"temperature": 0.3
},
"benchmarks": {
"crk": {
"composite_score": 0.67,
"fst_acceptance": 0.82,
"corpus_size": 150
}
}
}
完全な形式については プラグイン仕様 を参照してください。
構築済みと計画中
| コンポーネント | ステータス |
|---|---|
| TranslationMethod プロトコル | ✅ 構築済み |
| ハーネス ベンチマークランナー | ✅ 構築済み |
| method.json プラグイン形式 | ✅ 構築済み |
champollion plugin install/remove/list | ✅ 構築済み |
| コーチングデータの読み込み | ✅ 構築済み |
mt-eval export CLI | 🔲 計画中 |
| コミュニティレビューインターフェース | 🔲 計画中 |
| 暗号化テストセット評価 | 🔲 計画中 |
関連ドキュメント
- 翻訳手法 — 利用可能なすべての手法とその仕組み
- プラグイン仕様 — method.json の形式
- API 経由での手法の提供 — サーバーサイドでの手法のホスティング
- データ主権 — OCAP、CARE、および暗号化による保護
- MT 研究者向け — eval ハーネスのドキュメント