Zum Hauptinhalt springen

Funktionsweise von champollion

champollion übersetzt die Locale-Dateien Ihrer App mit einem einzigen Befehl. Hier erfahren Sie, was im Hintergrund geschieht.

Die Pipeline

Wenn Sie npx champollion sync ausführen, durchläuft champollion eine sechsstufige Pipeline:

Zentrale Designentscheidungen:

  • Änderungserkennung über SHA-256-Hashes. Champollion verfolgt jeden Quellwert mit einem Hash in .champollion.lock. Wenn Sie eine englische Zeichenkette aktualisieren, wird nur dieser Schlüssel neu übersetzt. Deshalb ist sync bei wiederholten Durchläufen schnell — es leistet nur minimale Arbeit.

  • Translation-Memory-Caching. Vor jedem API-Aufruf prüft champollion .champollion/tm.json auf zwischengespeicherte Übersetzungen (geschlüsselt nach Quelltext + Locale + Methode). Bei einer typischen erneuten Synchronisierung nach Änderung eines Schlüssels stammen 142 Schlüssel aus dem Cache und 1 Schlüssel ruft die API auf.

  • Qualitätsprüfung vor dem Schreiben. Jede Übersetzung durchläuft fünf automatisierte Prüfungen (leer, Quell-Echo, Halluzinationsschleife, Längeninflation, Schriftkonformität), bevor sie Ihre Dateien berührt. Fehler werden protokolliert und niemals stillschweigend akzeptiert.

  • Wiederholungskaskade bei Fehlern. Wenn ein Batch fehlschlägt (JSON-Parsing-Fehler, API-Timeout), wiederholt champollion den Vorgang mit zunehmend kleineren Batches: vollständig → halb → einzeln. Dadurch wird der problematische Schlüssel isoliert, ohne den Rest zu blockieren.

Übersetzungsmethoden

Champollion unterstützt vier Übersetzungsmethoden, die jeweils für unterschiedliche Szenarien geeignet sind:

MethodeFunktionsweiseAm besten geeignet für
llmStrukturierter Prompt an ein beliebiges OpenRouter-ModellSprachen mit guter Ressourcenlage
llm-coachedDerselbe Prompt + Grammatikregeln, Wörterbuch und StilhinweiseSprachen, bei denen LLMs vorhersehbare Fehler machen
google-translateBatch-Anfrage an die Google Cloud Translation APIRessourcenreiche Sprachen mit guter GT-Unterstützung
apiHTTP-POST an Ihren eigenen EndpunktIndividuelle Pipelines, von der Community kontrollierte Modelle

Die Methoden werden pro Sprachpaar konfiguriert. Sie könnten google-translate für Französisch, aber llm-coached für Plains Cree verwenden — jedes Paar erhält die Methode, die für es am besten funktioniert.

Coaching-Daten

Für llm-coached-Paare vermitteln Coaching-Daten dem LLM explizites linguistisches Wissen: Grammatikregeln, vorgegebene Terminologie und Stilpräferenzen. Dies wird als strukturierter Kontext in jeden Prompt eingefügt.

coaching/crk.json
{
"grammar_rules": ["Animate nouns take different plural forms than inanimate nouns"],
"dictionary": {"welcome": "ᑕᓂᓯ", "settings": "ᐃᑕᐢᑌᐘᐃᓇ"},
"style_notes": "Use Standard Roman Orthography (SRO) unless explicitly configured otherwise."
}

Coaching-Daten sind der wichtigste Mechanismus zur Verbesserung der Übersetzungsqualität, ohne ein Modell feinabzustimmen. Regeln ändern → Synchronisierung erneut ausführen → prüfen, ob es hilft. Die Iteration erfolgt sofort.

Plugins

Plugins sind vorgefertigte Übersetzungsrezepte für bestimmte Sprachpaare. Es handelt sich um JSON-Manifeste — keinen Code —, die champollion mitteilen, welche Methode mit welchen Einstellungen verwendet werden soll und welche Qualität als Benchmark ermittelt wurde.

champollion plugin install ./crk-coached-v3/
champollion sync # uses the installed plugin for en→crk

Plugins überbrücken die Lücke zwischen Forschung und Produktion: Eine Methode, die in der MT Eval Arena gut abschneidet, kann als Plugin verpackt und hier bereitgestellt werden.

Der größere Zusammenhang

champollion ist eine Hälfte eines zweiteiligen Ökosystems:

  • MT Eval Arena — wo Übersetzungsmethoden mit reproduzierbarem Benchmarking entwickelt und erprobt werden
  • champollion — wo erprobte Methoden zur Übersetzung echter Inhalte bereitgestellt werden

Die Eval Harness Bridge verbindet beide. Eine Methode, die sich in der Arena bewährt, wird hier bereitgestellt. Rückmeldungen von Sprechern aus der Produktion verbessern die nächste Version.


Mehr erfahren