Funktionsweise von champollion
champollion übersetzt die Locale-Dateien Ihrer App mit einem einzigen Befehl. Hier erfahren Sie, was im Hintergrund geschieht.
Die Pipeline
Wenn Sie npx champollion sync ausführen, durchläuft champollion eine sechsstufige Pipeline:
Zentrale Designentscheidungen:
-
Änderungserkennung über SHA-256-Hashes. Champollion verfolgt jeden Quellwert mit einem Hash in
.champollion.lock. Wenn Sie eine englische Zeichenkette aktualisieren, wird nur dieser Schlüssel neu übersetzt. Deshalb istsyncbei wiederholten Durchläufen schnell — es leistet nur minimale Arbeit. -
Translation-Memory-Caching. Vor jedem API-Aufruf prüft champollion
.champollion/tm.jsonauf zwischengespeicherte Übersetzungen (geschlüsselt nach Quelltext + Locale + Methode). Bei einer typischen erneuten Synchronisierung nach Änderung eines Schlüssels stammen 142 Schlüssel aus dem Cache und 1 Schlüssel ruft die API auf. -
Qualitätsprüfung vor dem Schreiben. Jede Übersetzung durchläuft fünf automatisierte Prüfungen (leer, Quell-Echo, Halluzinationsschleife, Längeninflation, Schriftkonformität), bevor sie Ihre Dateien berührt. Fehler werden protokolliert und niemals stillschweigend akzeptiert.
-
Wiederholungskaskade bei Fehlern. Wenn ein Batch fehlschlägt (JSON-Parsing-Fehler, API-Timeout), wiederholt champollion den Vorgang mit zunehmend kleineren Batches: vollständig → halb → einzeln. Dadurch wird der problematische Schlüssel isoliert, ohne den Rest zu blockieren.
Übersetzungsmethoden
Champollion unterstützt vier Übersetzungsmethoden, die jeweils für unterschiedliche Szenarien geeignet sind:
| Methode | Funktionsweise | Am besten geeignet für |
|---|---|---|
llm | Strukturierter Prompt an ein beliebiges OpenRouter-Modell | Sprachen mit guter Ressourcenlage |
llm-coached | Derselbe Prompt + Grammatikregeln, Wörterbuch und Stilhinweise | Sprachen, bei denen LLMs vorhersehbare Fehler machen |
google-translate | Batch-Anfrage an die Google Cloud Translation API | Ressourcenreiche Sprachen mit guter GT-Unterstützung |
api | HTTP-POST an Ihren eigenen Endpunkt | Individuelle Pipelines, von der Community kontrollierte Modelle |
Die Methoden werden pro Sprachpaar konfiguriert. Sie könnten google-translate für Französisch, aber llm-coached für Plains Cree verwenden — jedes Paar erhält die Methode, die für es am besten funktioniert.
Coaching-Daten
Für llm-coached-Paare vermitteln Coaching-Daten dem LLM explizites linguistisches Wissen: Grammatikregeln, vorgegebene Terminologie und Stilpräferenzen. Dies wird als strukturierter Kontext in jeden Prompt eingefügt.
{
"grammar_rules": ["Animate nouns take different plural forms than inanimate nouns"],
"dictionary": {"welcome": "ᑕᓂᓯ", "settings": "ᐃᑕᐢᑌᐘᐃᓇ"},
"style_notes": "Use Standard Roman Orthography (SRO) unless explicitly configured otherwise."
}
Coaching-Daten sind der wichtigste Mechanismus zur Verbesserung der Übersetzungsqualität, ohne ein Modell feinabzustimmen. Regeln ändern → Synchronisierung erneut ausführen → prüfen, ob es hilft. Die Iteration erfolgt sofort.
Plugins
Plugins sind vorgefertigte Übersetzungsrezepte für bestimmte Sprachpaare. Es handelt sich um JSON-Manifeste — keinen Code —, die champollion mitteilen, welche Methode mit welchen Einstellungen verwendet werden soll und welche Qualität als Benchmark ermittelt wurde.
champollion plugin install ./crk-coached-v3/
champollion sync # uses the installed plugin for en→crk
Plugins überbrücken die Lücke zwischen Forschung und Produktion: Eine Methode, die in der MT Eval Arena gut abschneidet, kann als Plugin verpackt und hier bereitgestellt werden.
Der größere Zusammenhang
champollion ist eine Hälfte eines zweiteiligen Ökosystems:
- MT Eval Arena — wo Übersetzungsmethoden mit reproduzierbarem Benchmarking entwickelt und erprobt werden
- champollion — wo erprobte Methoden zur Übersetzung echter Inhalte bereitgestellt werden
Die Eval Harness Bridge verbindet beide. Eine Methode, die sich in der Arena bewährt, wird hier bereitgestellt. Rückmeldungen von Sprechern aus der Produktion verbessern die nächste Version.
Mehr erfahren
- Funktionsweise der Synchronisierung — detaillierte Schritt-für-Schritt-Erläuterung der Pipeline
- Qualitätsprüfung — die fünf automatisierten Prüfungen
- Translation Memory — Caching und Kosteneinsparungen
- Übersetzungsmethoden — detaillierter Methodenvergleich
- Architektur — Überblick über das Systemdesign