メインコンテンツへスキップ

Eval Harness ブリッジ

champollion と MT Eval Harness は、ひとつのエコシステムを形成する2つの独立したツールです。ハーネスは翻訳手法を検証する場所です。Champollion は検証済みの手法をデプロイする場所です。両者は共通のプラグイン形式を通じて連携します。

フロー:リサーチ → プロダクション

1. ハーネスで手法を構築する

async translate(entries, config) → [{id, predicted}] を実装した Python クラスであれば、ハーネスに組み込むことができます。ハーネスは内部の実装を問いません — プロンプトを使った LLM、カスタムトレーニング済みモデル、決定論的なルール、何でも構いません。

2. ベンチマークを実行する

ハーネスは、標準化されたコーパスに対して再現可能なメトリクスで手法を評価します:chrF++、FST 受理率(形態論的に複雑な言語向け)、形態論的精度、セマンティックスコアリング。

3. プラグインとしてエクスポートする

手法が許容できる品質に達したら、champollion プラグインとしてパッケージ化します — オプションのコーチングデータを含む method.json マニフェストです。

:::info エクスポート CLI は計画中です 現在、method.json マニフェストは手動で作成する必要があります。mt-eval export コマンドによってこの作業が自動化される予定です。プラグインの完全な形式については Method Interface を参照してください。 :::

4. champollion にインストールする

champollion plugin install ./my-method-plugin/

5. 実際のコンテンツを翻訳する

champollion sync

ベンチマーク済みの手法が、プロダクション環境で実際の翻訳を生成するようになりました。

フロー:プロダクション → リサーチ

デプロイされた翻訳はバイリンガルの話者によってレビューされます。そのフィードバックから体系的なエラー(誤った時制パターン、語彙の欠落、不自然な表現)が特定されます。研究者はハーネス上で手法を更新し、再ベンチマーク、再エクスポート、再デプロイを行います。システムは使用を通じて学習していきます。

プラグイン形式

method.json マニフェストは、2つのツール間の契約です:

{
"name": "crk-coached-v3",
"type": "llm-coached",
"version": "3.0.0",
"description": "Coached LLM translation for Plains Cree",
"locales": ["crk"],
"config": {
"model": "google/gemini-3.5-flash",
"temperature": 0.3
},
"benchmarks": {
"crk": {
"composite_score": 0.67,
"fst_acceptance": 0.82,
"corpus_size": 150
}
}
}

完全な形式については プラグイン仕様 を参照してください。

構築済みと計画中

コンポーネントステータス
TranslationMethod プロトコル✅ 構築済み
ハーネス ベンチマークランナー✅ 構築済み
method.json プラグイン形式✅ 構築済み
champollion plugin install/remove/list✅ 構築済み
コーチングデータの読み込み✅ 構築済み
mt-eval export CLI🔲 計画中
コミュニティレビューインターフェース🔲 計画中
暗号化テストセット評価🔲 計画中

関連ドキュメント