Coachingdata
Coachingdata is het mechanisme van Champollion waarmee LLM's worden bijgebracht over talen waarop ze niet zijn getraind. Door grammaticaregels, woordenboeken en stijlnotities mee te sturen bij elk vertaalverzoek, transformeert u een algemeen inzetbare LLM tot een contextbewuste vertaler voor elke taal — inclusief talen waarvoor geen enkele bestaande MT-ondersteuning bestaat.
Hoe het werkt
Wanneer u de methode van een taalpaar instelt op llm-coached, laadt Champollion een coachingbestand uit .champollion/coaching/<locale>.json en injecteert de inhoud ervan in elk LLM-prompt als onderdeel van het systeembericht. De LLM ziet uw taalkundige regels naast het vertaalverzoek, waardoor uitvoer wordt geproduceerd die uw grammatica en terminologie volgt in plaats van te gokken.
┌──────────────────────────────────────────────────────┐
│ System Message (cached across batches) │
│ ┌──────────────────────────────────────────────────┐ │
│ │ Base translation rules │ │
│ │ + Register instructions │ │
│ │ + Coaching guidance (from coachingFile, if set) │ │
│ │ + Grammar rules (from coaching data) │ │
│ │ + Dictionary entries (from coaching data) │ │
│ │ + Style notes (from coaching data) │ │
│ └──────────────────────────────────────────────────┘ │
├──────────────────────────────────────────────────────┤
│ User Message (per batch) │
│ ┌──────────────────────────────────────────────────┐ │
│ │ Keys to translate (JSON) │ │
│ └──────────────────────────────────────────────────┘ │
└──────────────────────────────────────────────────────┘
Er zijn twee typen coachinginhoud:
- Gestructureerde coachingdata (methode
llm-coached) — Grammaticaregels, woordenboeken en stijlnotities in JSON-formaat. Geladen vanuit.champollion/coaching/<locale>.jsonof de mapcoaching/van een plugin. - Vrije-tekst coachingprompt (configuratieveld
coachingFile) — Een bestand met platte tekst met aanvullende richtlijnen die in het systeemprompt worden geïnjecteerd. Werkt met elke LLM-methode, niet alleen metllm-coached. Stel in viacoachingFilein uw configuratie of--coaching-fileop de CLI.
Beide kunnen samen worden gebruikt. Het evaluatieraamwerk gebruikt exact dezelfde promptstructuur — zodat uw benchmarkscores uw daadwerkelijke productieprompts weerspiegelen.
Omdat de coachingdata deel uitmaakt van het systeembericht, profiteert het van promptcaching — providers zoals Anthropic en Google cachen herhaalde systeemprefixen, zodat u slechts eenmaal per sessie voor coachingcontext betaalt, niet eenmaal per batch.
Indeling van het coachingbestand
Maak één JSON-bestand per locale aan in .champollion/coaching/:
{
"grammar_rules": [
"Plains Cree is polysynthetic — a single word can express what English needs a full sentence for",
"Animate/inanimate noun distinction affects verb conjugation",
"Use SRO (Standard Roman Orthography) unless script converter handles conversion",
"Verb stems are modified by prefixes and suffixes to indicate person, number, tense, and evidentiality"
],
"dictionary": {
"home": "kīwēwin",
"settings": "isi-nākatohkēwin",
"search": "nānātawāpahtam",
"welcome": "tānisi",
"submit": "ispīhci",
"cancel": "pōni"
},
"style_notes": "Use formal register. Preserve English technical terms in parentheses when no Cree equivalent exists. Avoid loanwords when a descriptive Cree expression exists."
}
Velden
| Veld | Type | Vereist | Beschrijving |
|---|---|---|---|
grammar_rules | string[] | Nee | Array van grammaticaregels die in het systeemprompt worden geïnjecteerd. Elke regel dient een beknopte, uitvoerbare instructie te zijn die de LLM kan opvolgen. |
dictionary | object | Nee | Sleutel-waardekoppeling van Engelse term → doeltaalterm. Gebruikt voor domeinspecifieke woordenschat die de LLM niet zou kennen. |
style_notes | string | Nee | Vrije stijlinstructies (register, toon, formaliteitsconventies). |
Alle velden zijn optioneel — u kunt beginnen met alleen een woordenboek en grammaticaregels toevoegen naarmate u verfijnt.
Terugvalgedrag
Als een taalpaar is geconfigureerd voor llm-coached maar er bestaat geen coachingbestand voor die locale, valt Champollion terug op de standaard llm-methode met een consolewaarschuwing:
[INFO] No coaching data for "crk" at .champollion/coaching/crk.json
Falling back to standard LLM method. Create coaching data for better results.
Dit betekent dat u "defaultMethod": "llm-coached" veilig globaal kunt instellen — talen met coachingdata zullen er gebruik van maken, en de overige talen krijgen standaard LLM-vertaling zonder fouten.
Wanneer coaching te gebruiken
| Scenario | Aanbevolen methode |
|---|---|
| Tier 1-talen (Frans, Spaans, Duits) | llm of google-translate — LLM's kennen deze al goed |
| Tier 2-talen (Koreaans, Turks, Thais) | llm met een register — LLM's verwerken deze adequaat met stijlbegeleiding |
| Tier 3-talen (Plains Cree, Yoruba, Quechua) | llm-coached — LLM's hebben grammaticaregels en woordenboeken nodig |
| Kunsttalen (Klingon, Sindarin, Kryptoniaans) | llm-coached — LLM's beschikken over enige trainingsdata maar hebben correcties nodig |
Goede coachingdata opbouwen
Grammaticaregels
Schrijf regels als instructies, niet als beschrijvingen. De LLM volgt instructies beter dan dat hij taalkundige theorie interpreteert.
// ❌ Descriptive (the LLM learns nothing actionable)
"Plains Cree has animate and inanimate noun classes"
// ✅ Instructive (the LLM knows what to do)
"When translating nouns, check whether the Cree equivalent is animate (NA) or inanimate (NI) — this affects which verb conjugation to use"
Woordenboeken
Richt u op domeinspecifieke termen die de LLM fout zou vertalen of zou verzinnen. Besteed geen aandacht aan gangbare woorden die de LLM al correct verwerkt — focus op de termen die specifiek zijn voor de gebruikersinterface van uw applicatie.
Stijlnotities
Wees specifiek over register, formaliteit en conventies:
"style_notes": "Use formal register (vous-form in French). Preserve brand names untranslated. UI labels should be imperative mood ('Save', not 'Saves'). Maximum 40 characters for button text."
Gecoachte vertalingen testen
Gebruik het MT Eval Harness om uw gecoachte vertalingen te benchmarken aan de hand van een referentiecorpus:
# Install the harness
pip install mt-eval-harness
# Run coached translations against your test corpus
mt-eval run --corpus data/crk-corpus.json --model google/gemini-2.5-pro
# Score the results
mt-eval test eval/logs/run_*.json
Dit geeft u chrF++-, BLEU- en exacte-overeenkomstscores. Maak meerdere versies van het coachingbestand en vergelijk ze — objectieve meetwaarden zijn betrouwbaarder dan subjectieve beoordeling.
Zie ook
- Vertaalmethoden — de llm-coached-methode
- Een taal met beperkte middelen ondersteunen — coaching in de praktijk
- Pluginspecificatie — coachingdata verpakken in een plugin
- Kwaliteitspoort — hoe gecoachte vertalingen worden gevalideerd
- Configuratie — per-taalpaar coachingconfiguratie