Ir para o conteúdo principal

A Ponte do Eval Harness

champollion e o MT Eval Harness são duas ferramentas separadas que formam um único ecossistema. O harness é onde métodos de tradução são comprovados. Champollion é onde métodos comprovados são implantados. Eles se conectam através de um formato de plugin compartilhado.

O Fluxo: Pesquisa → Produção

1. Construa um método no harness

Qualquer classe Python que implemente async translate(entries, config) → [{id, predicted}] pode se conectar ao harness. O harness não se importa com o que acontece dentro — LLM com prompt, modelo treinado customizado, regras determinísticas, qualquer coisa.

2. Faça benchmark

O harness avalia seu método contra um corpus padronizado com métricas reproduzíveis: chrF++, aceitação FST (para idiomas morfologicamente ricos), precisão morfológica e pontuação semântica.

3. Exporte como um plugin

Quando seu método atinge qualidade aceitável, empacote-o como um plugin champollion — um manifesto method.json com dados de coaching opcionais.

:::info CLI de exportação está planejada Atualmente, você cria o manifesto method.json manualmente. O comando mt-eval export automatizará isso. Veja a Interface de Método para o formato completo do plugin. :::

4. Instale no champollion

champollion plugin install ./my-method-plugin/

5. Traduza conteúdo real

champollion sync

Seu método com benchmark agora está produzindo traduções reais em produção.

O Fluxo: Produção → Pesquisa

Traduções implantadas são revisadas por falantes bilíngues. Seu feedback identifica erros sistemáticos (padrões de tempo incorretos, vocabulário faltante, fraseado não natural). O pesquisador atualiza o método no harness, faz novo benchmark, re-exporta e reimplanta. O sistema aprende com o uso.

O Formato do Plugin

O manifesto method.json é o contrato entre as duas ferramentas:

{
"name": "crk-coached-v3",
"type": "llm-coached",
"version": "3.0.0",
"description": "Coached LLM translation for Plains Cree",
"locales": ["crk"],
"config": {
"model": "google/gemini-3.5-flash",
"temperature": 0.3
},
"benchmarks": {
"crk": {
"composite_score": 0.67,
"fst_acceptance": 0.82,
"corpus_size": 150
}
}
}

Veja a Especificação de Plugin para o formato completo.

O Que Está Construído vs. Planejado

ComponenteStatus
Protocolo TranslationMethod✅ Construído
Executor de benchmark do harness✅ Construído
Formato de plugin method.json✅ Construído
champollion plugin install/remove/list✅ Construído
Carregamento de dados de coaching✅ Construído
CLI mt-eval export🔲 Planejado
Interface de revisão comunitária🔲 Planejado
Avaliação de conjunto de testes criptográfico🔲 Planejado

Leitura Adicional