Eval Harness ブリッジ

champollion と MT Eval Harness は、ひとつのエコシステムを形成する2つの独立したツールです。ハーネスは翻訳手法を検証する場所です。Champollion は検証済みの手法をデプロイする場所です。両者は共通のプラグイン形式を通じて連携します。

フロー：リサーチ → プロダクション

1. ハーネスで手法を構築する

async translate(entries, config) → [{id, predicted}] を実装した Python クラスであれば、ハーネスに組み込むことができます。ハーネスは内部の実装を問いません — プロンプトを使った LLM、カスタムトレーニング済みモデル、決定論的なルール、何でも構いません。

2. ベンチマークを実行する

ハーネスは、標準化されたコーパスに対して再現可能なメトリクスで手法を評価します：chrF++、FST 受理率（形態論的に複雑な言語向け）、形態論的精度、セマンティックスコアリング。

3. プラグインとしてエクスポートする

手法が許容できる品質に達したら、champollion プラグインとしてパッケージ化します — オプションのコーチングデータを含む method.json マニフェストです。

:::info エクスポート CLI は計画中です現在、method.json マニフェストは手動で作成する必要があります。mt-eval export コマンドによってこの作業が自動化される予定です。プラグインの完全な形式については Method Interface を参照してください。 :::

4. champollion にインストールする

champollion plugin install ./my-method-plugin/

5. 実際のコンテンツを翻訳する

champollion sync

ベンチマーク済みの手法が、プロダクション環境で実際の翻訳を生成するようになりました。

フロー：プロダクション → リサーチ

デプロイされた翻訳はバイリンガルの話者によってレビューされます。そのフィードバックから体系的なエラー（誤った時制パターン、語彙の欠落、不自然な表現）が特定されます。研究者はハーネス上で手法を更新し、再ベンチマーク、再エクスポート、再デプロイを行います。システムは使用を通じて学習していきます。

プラグイン形式

method.json マニフェストは、2つのツール間の契約です：

{
  "name": "crk-coached-v3",
  "type": "llm-coached",
  "version": "3.0.0",
  "description": "Coached LLM translation for Plains Cree",
  "locales": ["crk"],
  "config": {
    "model": "google/gemini-3.5-flash",
    "temperature": 0.3
  },
  "benchmarks": {
    "crk": {
      "composite_score": 0.67,
      "fst_acceptance": 0.82,
      "corpus_size": 150
    }
  }
}

完全な形式についてはプラグイン仕様を参照してください。

構築済みと計画中

コンポーネント	ステータス
TranslationMethod プロトコル	✅ 構築済み
ハーネスベンチマークランナー	✅ 構築済み
method.json プラグイン形式	✅ 構築済み
`champollion plugin install/remove/list`	✅ 構築済み
コーチングデータの読み込み	✅ 構築済み
`mt-eval export` CLI	🔲 計画中
コミュニティレビューインターフェース	🔲 計画中
暗号化テストセット評価	🔲 計画中

フロー：リサーチ → プロダクション​

1. ハーネスで手法を構築する​

2. ベンチマークを実行する​

3. プラグインとしてエクスポートする​

4. champollion にインストールする​

5. 実際のコンテンツを翻訳する​

フロー：プロダクション → リサーチ​

プラグイン形式​

構築済みと計画中​

関連ドキュメント​