Zum Hauptinhalt springen

Unterstützte Sprachen

champollion wird mit Language Cards ausgeliefert — strukturierten Konfigurationsdateien für 50 Sprachen. Jede Card enthält Register-Voreinstellungen, Metadaten zum Formalitätssystem, Flags zur Methodenunterstützung, Typografieregeln und Skriptinformationen. Jede Sprache, die Ihr LLM kennt, kann mit einer einzigen Konfigurationszeile hinzugefügt werden — bei den hier genannten handelt es sich um die mit kuratierten, produktionsreifen Registern.


Übersetzungsmethoden

Jede Sprache kann eine oder mehrere dieser Übersetzungsmethoden verwenden:

SymbolMethodeFunktionsweiseKosten
🟢Google TranslateNeuronale MT-Baseline. Mehr als 130 Sprachen. Nur Schlüssel-Wert-Strings — kann Markdown-Inhalte nicht sicher übersetzen.~20 $/1 Mio. Zeichen
🔵LLM (OpenRouter)Jede Sprache, die das Modell kennt. Registergesteuerte Prompts. Verarbeitet Schlüssel-Wert- und Markdown-Inhalte.Je nach Modell unterschiedlich
🟣LLM-CoachedLLM + Grammatikwörterbücher + in die Prompts eingefügte Coaching-Daten. Am besten für morphologisch komplexe Sprachen.Je nach Modell unterschiedlich
🟠API (Plugin)Von der Community gehostete Übersetzungspipelines, die über HTTP bereitgestellt werden. OCAP-kompatibel.Je nach Anbieter unterschiedlich

Setzen Sie GOOGLE_TRANSLATE_API_KEY für Google Translate oder OPENROUTER_API_KEY für LLM-Methoden. Siehe Übersetzungsmethoden für alle Einzelheiten.


Prioritätssprachen

Dies sind die am häufigsten angefragten Locales für Web- und Mobilanwendungen, aufgeführt in der von champollion empfohlenen, barrierefreiheitsorientierten Reihenfolge.

FlaggeSpracheCodeGoogleLLMCoachedSkriptHinweise
🇸🇦ArabischarRTL. Modernes Hocharabisch (فصحى).
🇵🇭Filipino (Taglish)tl / filVerwenden Sie fil in Docusaurus-Konfigurationen. champollion löst beide auf.
🇫🇷FranzösischfrVous-Form. Geschlechtergerecht (Connecté·e).
🇪🇸SpanischesNeutrales Lateinamerikanisch.
🇩🇪DeutschdeSie-Form. Geschlechtergerecht (Benutzer:innen).
🇯🇵Japanischjaです/ます für Fließtext, する für UI-Beschriftungen.
🇨🇳Chinesisch (vereinfacht)zh简体中文.
🇮🇹ItalienischitLei-Form.
🇧🇷Portugiesisch (BR)ptBrasilianisches Portugiesisch.
🇰🇷Koreanischko해요체 höfliches Register.

Wichtige Weltsprachen

FlaggeSpracheCodeGoogleLLMCoachedSkriptHinweise
🇧🇩Bengalischbnশুদ্ধ ভাষা-Präferenz.
🇧🇬Bulgarischbg
🇨🇿TschechischcsVykání (vy-Form).
🇩🇰Dänischda
🇬🇷GriechischelModernes Δημοτική.
🇮🇷PersischfaRTL.
🇫🇮FinnischfiKein grammatisches Geschlecht.
🇮🇱HebräischheRTL.
🇮🇳Hindihiशुद्ध हिन्दी. Minimale englische Lehnwörter.
🇭🇺UngarischhuÖn-Form.
🇮🇩Indonesischid
🇲🇾Malaiischms
🇳🇱NiederländischnlU-Form.
🇳🇴NorwegischnbBokmål.
🇵🇱PolnischplPan/Pani-Form.
🇵🇹Portugiesisch (EU)pt-PTEuropäisches Portugiesisch.
🇷🇴Rumänischro
🇷🇺RussischruВы-Form.
🇸🇰SlowakischskVykanie (vy-Form).
🇷🇸Serbischsr🔤 Lateinisch→KyrillischDeterministischer Skriptkonverter.
🇸🇪Schwedischsv
🇰🇪Suahelisw
🇹🇭Thailändischthครับ/ค่ะ Höflichkeitspartikeln.
🇹🇷TürkischtrSiz-Form.
🇺🇦UkrainischukВи-Form.
🇵🇰UrduurRTL. آپ-Form.
🇻🇳Vietnamesischvi
🇹🇼Chinesisch (traditionell)zh-TW繁體中文.
🇬🇪Georgischkaქართული. Kartwelische Sprachfamilie.
🇳🇬YorubayoÈdè Yorùbá. Tonal (3 Töne).

Regionale Varianten

FlaggeSpracheCodeGoogleLLMCoachedSkriptHinweise
🇲🇽Mexikanisches Spanisches-MXTú-Form. Warmes Register.
🇨🇦Kanadisches Französischfr-CAQuébecer Redewendungen.

Indigene Sprachen und Sprachen mit geringen Ressourcen

Diese Sprachen werden von kommerziellen MT-Diensten nicht unterstützt. champollion stellt die Werkzeuge bereit, mit denen Sprachgemeinschaften ihre eigenen Methoden gemäß den OCAP-Prinzipien entwickeln können.

SpracheCodeGoogleLLMCoachedSkriptStatus
🪶Plains Creecrk🔤 SRO→Silbenschrift🚧 In Entwicklung
🌄QuechuaquRunasimi. Evidentielle Suffixe.

:::info Plains Cree befindet sich in aktiver Entwicklung Das Register, die Coaching-Infrastruktur, der Skriptkonverter und der Evaluierungsrahmen für Plains Cree sind allesamt funktionsfähig, doch die Übersetzungspipeline wurde noch nicht veröffentlicht. Wir arbeiten gemäß den OCAP-Prinzipien mit Sprachgemeinschaften zusammen, um die Qualität vor der Veröffentlichung sicherzustellen. Siehe Eine Sprache mit geringen Ressourcen unterstützen für die ganze Geschichte — und dafür, wie Sie beitragen können. :::

:::tip Weitere Sprachen mit geringen Ressourcen hinzufügen Das Methoden-Plugin-System von champollion ist genau dafür konzipiert. Eine Sprachgemeinschaft kann eine benutzerdefinierte Übersetzungsmethode entwickeln, sie unter eigener Kontrolle hosten und über die API-Methode bereitstellen. Das Methoden-Leaderboard verfolgt die Bewertungen für jedes Sprachpaar — entwickeln Sie eine Methode, führen Sie den Rahmen aus und beanspruchen Sie die Spitzenposition. :::


Konstruierte Sprachen

Konstruierte Sprachen (Conlangs) werden über LLM-Register und optionale Skriptkonverter unterstützt. Sie nutzen dieselbe Infrastruktur wie reale Sprachen — das Qualitätstor, das Coaching-System und die Skriptkonvertierungspipeline funktionieren identisch.

SpracheCodeGoogleLLMSkriptHinweise
🖖Klingonischtlh🔤 Romanisierung→pIqaDPUA-Schriftart erforderlich. Vokabular von Marc Okrand.
🧝Sindarin (Tolkiens Elbisch)x-elvish-s🔤 Lateinisch→TengwarCSUR-PUA-Schriftart erforderlich.
🏴‍☠️Piraten-Englischx-pirateNur Register. Nautische Metaphern.
🦸Kryptonischx-kryptonian🔤 Lateinisch→KryptonischPUA-Schriftart erforderlich.
🎭Shakespeare-Englischx-shakespeareNur Register. Thee/thou, -eth/-est-Formen.
🐸Yoda-Sprachex-yodaNur Register. OSV-Wortstellung.

Siehe Conlangs, Skripte und Orthografie für PUA-Schriftartanforderungen, Unicode-Einschränkungen und wie Sie eigene hinzufügen können.


Sprach-Voreinstellungen

Der init-Assistent unterstützt Voreinstellungsnamen für eine schnelle Einrichtung. Sie können Voreinstellungen mit einzelnen Codes kombinieren.

VoreinstellungWird erweitert zu
europeanfr, de, es, it, pt, nl
asianja, zh, ko
globalfr, es, de, ja, zh, ko, pt, ar
nordicda, fi, nb, sv
# Mix presets with individual codes
champollion init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

Beliebige Sprache hinzufügen

champollion kann in jede Sprache übersetzen, die Ihr LLM kennt — die obige Tabelle listet lediglich Sprachen mit integrierten Register-Voreinstellungen auf. Um eine nicht aufgeführte Sprache hinzuzufügen, nehmen Sie deren BCP-47-Code in Ihre Konfiguration auf:

{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}

Das LLM übersetzt unter Verwendung seines trainierten Wissens über die Sprache. Das Setzen eines register gibt Ihnen Kontrolle über Tonfall, Formalität und orthografische Konventionen. Siehe Konfiguration für Einzelheiten.


Language Cards

Jede integrierte Sprache verfügt über eine Language Card — eine einheitliche JSON-Datei in shared/language-cards/, die alle Metadaten enthält: Register, Formalität, Methodenunterstützung, Typografieregeln, genealogische Klassifizierung, sprachliche Herausforderungen und NLP-Ressourcen.

Einheitliche Card-Architektur

Jede Card wird beim Import unmittelbar geladen. Es gibt keine separate Referenzebene — alle Daten befinden sich in einer einzigen Datei pro Sprache. Die Cards werden aus autoritativen Quellen angereichert:

QuelleDaten
GlottologFamilienklassifizierung, Abstammungskette, Glottocode
WALSGattungsklassifizierung, typologische Merkmale
CLDRSkript, Richtung, Pluralregeln, Typografie
ISO 15924Skriptcodes

Wichtige Card-Felder

FeldInhalt
nativeNameEndonym — der Name der Sprache für sich selbst, in ihrer eigenen Schrift (z. B. ქართული, Runasimi)
classificationGenealogischer Anker: Familie, Gattung, vollständige Abstammungskette aus Glottolog
contactInfluencesUniverselle Kontaktgeschichte — Entlehnungsschichten, Superstrate, Substrate
FormalitätssystemT-V-Unterscheidung, Sprachebenen, Keigo, Partikeln usw.
Register-VoreinstellungenBenannte LLM-Prompt-Voreinstellungen, spezifisch für den Charakter der Sprache
MethodenunterstützungWelche Übersetzungs-APIs diese Sprache unterstützen
GenusvorgabenRegeln für grammatisches Geschlecht und Tipps für geschlechtergerechtes Schreiben
Skript/RichtungISO-15924-Skriptcode und RTL/LTR
RegelnTypografie (Anführungszeichen, Abstände), Großschreibung, Pluralkategorien
glottocodeKanonischer Glottolog-Bezeichner für Querverweise
dataSourcesProvenienz-Nachverfolgung (z. B. ["glottolog-5.3", "cldr-48"])

Eine neue Language Card scaffolden

Verwenden Sie den Generator, um eine Card aus autoritativen Datenquellen (IANA, CLDR, Glottolog) zu scaffolden:

# Preview what would be generated
node scripts/generate-language-card.mjs sw --dry-run

# Generate a unified card
node scripts/generate-language-card.mjs sw

Der Generator füllt Metadaten automatisch aus (Codes, Skript, Richtung, Plurale, Anführungszeichen, Methodenunterstützung, Klassifizierung) und markiert Felder, die sprachliches Urteilsvermögen erfordern, als TODO für die menschliche Kuratierung.

Voreinstellungsschlüssel verwenden

Anstatt den vollständigen Registertext zu schreiben, können Sie einen Voreinstellungsschlüsselnamen verwenden:

{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}

Champollion löst den Schlüssel zum vollständigen Register-Prompt auf. Führen Sie npx champollion init aus, um die verfügbaren Voreinstellungen für jede Sprache anzuzeigen.

Beispiel-Voreinstellungen

SpracheVoreinstellungenStandard
Französischformal-vous, casual-tuformal-vous
Koreanischpolite-haeyo, formal-hapsyo, casual-haepolite-haeyo
Japanischpolite, formal-keigo, casualpolite
Deutschformal-Sie, casual-duformal-Sie
Thailändischneutral-professional, polite-male, polite-femaleneutral-professional
Spanischneutral-professional, formal-usted, casual-tuteoneutral-professional

Siehe Eine Language Card beitragen für die vollständige Spezifikation, einschließlich Feldvalidierung und PR-Checkliste.


Siehe auch