Eval Harness Bridge

champollion 和 MT Eval Harness 是两个独立的工具，共同构成一个生态系统。Harness 是翻译方法被验证的地方。Champollion 是经过验证的方法被部署的地方。它们通过共享的插件格式相连接。

流程：研究 → 生产

1. 在 Harness 中构建方法

任何实现 async translate(entries, config) → [{id, predicted}] 的 Python 类都可以接入 Harness。Harness 不关心内部发生了什么——提示词驱动的 LLM、自定义训练模型、确定性规则，任何方式都可以。

2. 对其进行基准测试

Harness 使用标准化语料库和可重现的指标对你的方法进行评分：chrF++、FST 接受度（用于形态丰富的语言）、形态学准确性和语义评分。

3. 导出为插件

当你的方法达到可接受的质量时，将其打包为 champollion 插件——一个 method.json 清单，可选包含教练数据。

:::info 导出 CLI 已规划目前，你需要手动创建 method.json 清单。mt-eval export 命令将自动化此过程。参见 Method Interface 了解完整的插件格式。 :::

4. 在 champollion 中安装

champollion plugin install ./my-method-plugin/

5. 翻译真实内容

champollion sync

你经过基准测试的方法现在正在生产环境中生成真实翻译。

流程：生产 → 研究

已部署的翻译由双语使用者进行审查。他们的反馈识别系统性错误（错误的时态模式、缺失的词汇、不自然的措辞）。研究人员在 Harness 中更新方法、重新基准测试、重新导出并重新部署。系统从使用中学习。

插件格式

method.json 清单是两个工具之间的契约：

{
  "name": "crk-coached-v3",
  "type": "llm-coached",
  "version": "3.0.0",
  "description": "Coached LLM translation for Plains Cree",
  "locales": ["crk"],
  "config": {
    "model": "google/gemini-3.5-flash",
    "temperature": 0.3
  },
  "benchmarks": {
    "crk": {
      "composite_score": 0.67,
      "fst_acceptance": 0.82,
      "corpus_size": 150
    }
  }
}

参见 Plugin Specification 了解完整格式。

已构建与已规划的内容

组件	状态
TranslationMethod 协议	✅ 已构建
Harness 基准测试运行器	✅ 已构建
method.json 插件格式	✅ 已构建
`champollion plugin install/remove/list`	✅ 已构建
教练数据加载	✅ 已构建
`mt-eval export` CLI	🔲 已规划
社区审查界面	🔲 已规划
密码学测试集评估	🔲 已规划

进一步阅读

Translation Methods — 所有可用方法及其工作原理
Plugin Specification — method.json 格式
Serving a Method via API — 服务端托管方法
Data Sovereignty — OCAP、CARE 和密码学保护
For MT Researchers — Eval Harness 文档

流程：研究 → 生产​

1. 在 Harness 中构建方法​

2. 对其进行基准测试​

3. 导出为插件​

4. 在 champollion 中安装​

5. 翻译真实内容​

流程：生产 → 研究​

插件格式​

已构建与已规划的内容​

进一步阅读​