Unterstützte Sprachen
champollion wird mit Language Cards ausgeliefert — strukturierten Konfigurationsdateien für 50 Sprachen. Jede Card enthält Register-Voreinstellungen, Metadaten zum Formalitätssystem, Flags zur Methodenunterstützung, Typografieregeln und Skriptinformationen. Jede Sprache, die Ihr LLM kennt, kann mit einer einzigen Konfigurationszeile hinzugefügt werden — bei den hier genannten handelt es sich um die mit kuratierten, produktionsreifen Registern.
Übersetzungsmethoden
Jede Sprache kann eine oder mehrere dieser Übersetzungsmethoden verwenden:
| Symbol | Methode | Funktionsweise | Kosten |
|---|---|---|---|
| 🟢 | Google Translate | Neuronale MT-Baseline. Mehr als 130 Sprachen. Nur Schlüssel-Wert-Strings — kann Markdown-Inhalte nicht sicher übersetzen. | ~20 $/1 Mio. Zeichen |
| 🔵 | LLM (OpenRouter) | Jede Sprache, die das Modell kennt. Registergesteuerte Prompts. Verarbeitet Schlüssel-Wert- und Markdown-Inhalte. | Je nach Modell unterschiedlich |
| 🟣 | LLM-Coached | LLM + Grammatikwörterbücher + in die Prompts eingefügte Coaching-Daten. Am besten für morphologisch komplexe Sprachen. | Je nach Modell unterschiedlich |
| 🟠 | API (Plugin) | Von der Community gehostete Übersetzungspipelines, die über HTTP bereitgestellt werden. OCAP-kompatibel. | Je nach Anbieter unterschiedlich |
Setzen Sie GOOGLE_TRANSLATE_API_KEY für Google Translate oder OPENROUTER_API_KEY für LLM-Methoden. Siehe Übersetzungsmethoden für alle Einzelheiten.
Prioritätssprachen
Dies sind die am häufigsten angefragten Locales für Web- und Mobilanwendungen, aufgeführt in der von champollion empfohlenen, barrierefreiheitsorientierten Reihenfolge.
| Flagge | Sprache | Code | LLM | Coached | Skript | Hinweise | |
|---|---|---|---|---|---|---|---|
| 🇸🇦 | Arabisch | ar | ✅ | ✅ | ✅ | — | RTL. Modernes Hocharabisch (فصحى). |
| 🇵🇭 | Filipino (Taglish) | tl / fil | ✅ | ✅ | ✅ | — | Verwenden Sie fil in Docusaurus-Konfigurationen. champollion löst beide auf. |
| 🇫🇷 | Französisch | fr | ✅ | ✅ | ✅ | — | Vous-Form. Geschlechtergerecht (Connecté·e). |
| 🇪🇸 | Spanisch | es | ✅ | ✅ | ✅ | — | Neutrales Lateinamerikanisch. |
| 🇩🇪 | Deutsch | de | ✅ | ✅ | ✅ | — | Sie-Form. Geschlechtergerecht (Benutzer:innen). |
| 🇯🇵 | Japanisch | ja | ✅ | ✅ | ✅ | — | です/ます für Fließtext, する für UI-Beschriftungen. |
| 🇨🇳 | Chinesisch (vereinfacht) | zh | ✅ | ✅ | ✅ | — | 简体中文. |
| 🇮🇹 | Italienisch | it | ✅ | ✅ | ✅ | — | Lei-Form. |
| 🇧🇷 | Portugiesisch (BR) | pt | ✅ | ✅ | ✅ | — | Brasilianisches Portugiesisch. |
| 🇰🇷 | Koreanisch | ko | ✅ | ✅ | ✅ | — | 해요체 höfliches Register. |
Wichtige Weltsprachen
| Flagge | Sprache | Code | LLM | Coached | Skript | Hinweise | |
|---|---|---|---|---|---|---|---|
| 🇧🇩 | Bengalisch | bn | ✅ | ✅ | ✅ | — | শুদ্ধ ভাষা-Präferenz. |
| 🇧🇬 | Bulgarisch | bg | ✅ | ✅ | ✅ | — | |
| 🇨🇿 | Tschechisch | cs | ✅ | ✅ | ✅ | — | Vykání (vy-Form). |
| 🇩🇰 | Dänisch | da | ✅ | ✅ | ✅ | — | |
| 🇬🇷 | Griechisch | el | ✅ | ✅ | ✅ | — | Modernes Δημοτική. |
| 🇮🇷 | Persisch | fa | ✅ | ✅ | ✅ | — | RTL. |
| 🇫🇮 | Finnisch | fi | ✅ | ✅ | ✅ | — | Kein grammatisches Geschlecht. |
| 🇮🇱 | Hebräisch | he | ✅ | ✅ | ✅ | — | RTL. |
| 🇮🇳 | Hindi | hi | ✅ | ✅ | ✅ | — | शुद्ध हिन्दी. Minimale englische Lehnwörter. |
| 🇭🇺 | Ungarisch | hu | ✅ | ✅ | ✅ | — | Ön-Form. |
| 🇮🇩 | Indonesisch | id | ✅ | ✅ | ✅ | — | |
| 🇲🇾 | Malaiisch | ms | ✅ | ✅ | ✅ | — | |
| 🇳🇱 | Niederländisch | nl | ✅ | ✅ | ✅ | — | U-Form. |
| 🇳🇴 | Norwegisch | nb | ✅ | ✅ | ✅ | — | Bokmål. |
| 🇵🇱 | Polnisch | pl | ✅ | ✅ | ✅ | — | Pan/Pani-Form. |
| 🇵🇹 | Portugiesisch (EU) | pt-PT | ✅ | ✅ | ✅ | — | Europäisches Portugiesisch. |
| 🇷🇴 | Rumänisch | ro | ✅ | ✅ | ✅ | — | |
| 🇷🇺 | Russisch | ru | ✅ | ✅ | ✅ | — | Вы-Form. |
| 🇸🇰 | Slowakisch | sk | ✅ | ✅ | ✅ | — | Vykanie (vy-Form). |
| 🇷🇸 | Serbisch | sr | ✅ | ✅ | ✅ | 🔤 Lateinisch→Kyrillisch | Deterministischer Skriptkonverter. |
| 🇸🇪 | Schwedisch | sv | ✅ | ✅ | ✅ | — | |
| 🇰🇪 | Suaheli | sw | ✅ | ✅ | ✅ | — | |
| 🇹🇭 | Thailändisch | th | ✅ | ✅ | ✅ | — | ครับ/ค่ะ Höflichkeitspartikeln. |
| 🇹🇷 | Türkisch | tr | ✅ | ✅ | ✅ | — | Siz-Form. |
| 🇺🇦 | Ukrainisch | uk | ✅ | ✅ | ✅ | — | Ви-Form. |
| 🇵🇰 | Urdu | ur | ✅ | ✅ | ✅ | — | RTL. آپ-Form. |
| 🇻🇳 | Vietnamesisch | vi | ✅ | ✅ | ✅ | — | |
| 🇹🇼 | Chinesisch (traditionell) | zh-TW | ✅ | ✅ | ✅ | — | 繁體中文. |
| 🇬🇪 | Georgisch | ka | ✅ | ✅ | — | — | ქართული. Kartwelische Sprachfamilie. |
| 🇳🇬 | Yoruba | yo | ✅ | ✅ | — | — | Èdè Yorùbá. Tonal (3 Töne). |
Regionale Varianten
| Flagge | Sprache | Code | LLM | Coached | Skript | Hinweise | |
|---|---|---|---|---|---|---|---|
| 🇲🇽 | Mexikanisches Spanisch | es-MX | ✅ | ✅ | ✅ | — | Tú-Form. Warmes Register. |
| 🇨🇦 | Kanadisches Französisch | fr-CA | ✅ | ✅ | ✅ | — | Québecer Redewendungen. |
Indigene Sprachen und Sprachen mit geringen Ressourcen
Diese Sprachen werden von kommerziellen MT-Diensten nicht unterstützt. champollion stellt die Werkzeuge bereit, mit denen Sprachgemeinschaften ihre eigenen Methoden gemäß den OCAP-Prinzipien entwickeln können.
| Sprache | Code | LLM | Coached | Skript | Status | ||
|---|---|---|---|---|---|---|---|
| 🪶 | Plains Cree | crk | ❌ | ✅ | ✅ | 🔤 SRO→Silbenschrift | 🚧 In Entwicklung |
| 🌄 | Quechua | qu | ✅ | ✅ | — | — | Runasimi. Evidentielle Suffixe. |
:::info Plains Cree befindet sich in aktiver Entwicklung Das Register, die Coaching-Infrastruktur, der Skriptkonverter und der Evaluierungsrahmen für Plains Cree sind allesamt funktionsfähig, doch die Übersetzungspipeline wurde noch nicht veröffentlicht. Wir arbeiten gemäß den OCAP-Prinzipien mit Sprachgemeinschaften zusammen, um die Qualität vor der Veröffentlichung sicherzustellen. Siehe Eine Sprache mit geringen Ressourcen unterstützen für die ganze Geschichte — und dafür, wie Sie beitragen können. :::
:::tip Weitere Sprachen mit geringen Ressourcen hinzufügen Das Methoden-Plugin-System von champollion ist genau dafür konzipiert. Eine Sprachgemeinschaft kann eine benutzerdefinierte Übersetzungsmethode entwickeln, sie unter eigener Kontrolle hosten und über die API-Methode bereitstellen. Das Methoden-Leaderboard verfolgt die Bewertungen für jedes Sprachpaar — entwickeln Sie eine Methode, führen Sie den Rahmen aus und beanspruchen Sie die Spitzenposition. :::
Konstruierte Sprachen
Konstruierte Sprachen (Conlangs) werden über LLM-Register und optionale Skriptkonverter unterstützt. Sie nutzen dieselbe Infrastruktur wie reale Sprachen — das Qualitätstor, das Coaching-System und die Skriptkonvertierungspipeline funktionieren identisch.
| Sprache | Code | LLM | Skript | Hinweise | ||
|---|---|---|---|---|---|---|
| 🖖 | Klingonisch | tlh | ❌ | ✅ | 🔤 Romanisierung→pIqaD | PUA-Schriftart erforderlich. Vokabular von Marc Okrand. |
| 🧝 | Sindarin (Tolkiens Elbisch) | x-elvish-s | ❌ | ✅ | 🔤 Lateinisch→Tengwar | CSUR-PUA-Schriftart erforderlich. |
| 🏴☠️ | Piraten-Englisch | x-pirate | ❌ | ✅ | — | Nur Register. Nautische Metaphern. |
| 🦸 | Kryptonisch | x-kryptonian | ❌ | ✅ | 🔤 Lateinisch→Kryptonisch | PUA-Schriftart erforderlich. |
| 🎭 | Shakespeare-Englisch | x-shakespeare | ❌ | ✅ | — | Nur Register. Thee/thou, -eth/-est-Formen. |
| 🐸 | Yoda-Sprache | x-yoda | ❌ | ✅ | — | Nur Register. OSV-Wortstellung. |
Siehe Conlangs, Skripte und Orthografie für PUA-Schriftartanforderungen, Unicode-Einschränkungen und wie Sie eigene hinzufügen können.
Sprach-Voreinstellungen
Der init-Assistent unterstützt Voreinstellungsnamen für eine schnelle Einrichtung. Sie können Voreinstellungen mit einzelnen Codes kombinieren.
| Voreinstellung | Wird erweitert zu |
|---|---|
european | fr, de, es, it, pt, nl |
asian | ja, zh, ko |
global | fr, es, de, ja, zh, ko, pt, ar |
nordic | da, fi, nb, sv |
# Mix presets with individual codes
champollion init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja
Beliebige Sprache hinzufügen
champollion kann in jede Sprache übersetzen, die Ihr LLM kennt — die obige Tabelle listet lediglich Sprachen mit integrierten Register-Voreinstellungen auf. Um eine nicht aufgeführte Sprache hinzuzufügen, nehmen Sie deren BCP-47-Code in Ihre Konfiguration auf:
{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}
Das LLM übersetzt unter Verwendung seines trainierten Wissens über die Sprache. Das Setzen eines register gibt Ihnen Kontrolle über Tonfall, Formalität und orthografische Konventionen. Siehe Konfiguration für Einzelheiten.
Language Cards
Jede integrierte Sprache verfügt über eine Language Card — eine einheitliche JSON-Datei in shared/language-cards/, die alle Metadaten enthält: Register, Formalität, Methodenunterstützung, Typografieregeln, genealogische Klassifizierung, sprachliche Herausforderungen und NLP-Ressourcen.
Einheitliche Card-Architektur
Jede Card wird beim Import unmittelbar geladen. Es gibt keine separate Referenzebene — alle Daten befinden sich in einer einzigen Datei pro Sprache. Die Cards werden aus autoritativen Quellen angereichert:
| Quelle | Daten |
|---|---|
| Glottolog | Familienklassifizierung, Abstammungskette, Glottocode |
| WALS | Gattungsklassifizierung, typologische Merkmale |
| CLDR | Skript, Richtung, Pluralregeln, Typografie |
| ISO 15924 | Skriptcodes |
Wichtige Card-Felder
| Feld | Inhalt |
|---|---|
nativeName | Endonym — der Name der Sprache für sich selbst, in ihrer eigenen Schrift (z. B. ქართული, Runasimi) |
classification | Genealogischer Anker: Familie, Gattung, vollständige Abstammungskette aus Glottolog |
contactInfluences | Universelle Kontaktgeschichte — Entlehnungsschichten, Superstrate, Substrate |
| Formalitätssystem | T-V-Unterscheidung, Sprachebenen, Keigo, Partikeln usw. |
| Register-Voreinstellungen | Benannte LLM-Prompt-Voreinstellungen, spezifisch für den Charakter der Sprache |
| Methodenunterstützung | Welche Übersetzungs-APIs diese Sprache unterstützen |
| Genusvorgaben | Regeln für grammatisches Geschlecht und Tipps für geschlechtergerechtes Schreiben |
| Skript/Richtung | ISO-15924-Skriptcode und RTL/LTR |
| Regeln | Typografie (Anführungszeichen, Abstände), Großschreibung, Pluralkategorien |
glottocode | Kanonischer Glottolog-Bezeichner für Querverweise |
dataSources | Provenienz-Nachverfolgung (z. B. ["glottolog-5.3", "cldr-48"]) |
Eine neue Language Card scaffolden
Verwenden Sie den Generator, um eine Card aus autoritativen Datenquellen (IANA, CLDR, Glottolog) zu scaffolden:
# Preview what would be generated
node scripts/generate-language-card.mjs sw --dry-run
# Generate a unified card
node scripts/generate-language-card.mjs sw
Der Generator füllt Metadaten automatisch aus (Codes, Skript, Richtung, Plurale, Anführungszeichen, Methodenunterstützung, Klassifizierung) und markiert Felder, die sprachliches Urteilsvermögen erfordern, als TODO für die menschliche Kuratierung.
Voreinstellungsschlüssel verwenden
Anstatt den vollständigen Registertext zu schreiben, können Sie einen Voreinstellungsschlüsselnamen verwenden:
{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}
Champollion löst den Schlüssel zum vollständigen Register-Prompt auf. Führen Sie npx champollion init aus, um die verfügbaren Voreinstellungen für jede Sprache anzuzeigen.
Beispiel-Voreinstellungen
| Sprache | Voreinstellungen | Standard |
|---|---|---|
| Französisch | formal-vous, casual-tu | formal-vous |
| Koreanisch | polite-haeyo, formal-hapsyo, casual-hae | polite-haeyo |
| Japanisch | polite, formal-keigo, casual | polite |
| Deutsch | formal-Sie, casual-du | formal-Sie |
| Thailändisch | neutral-professional, polite-male, polite-female | neutral-professional |
| Spanisch | neutral-professional, formal-usted, casual-tuteo | neutral-professional |
Siehe Eine Language Card beitragen für die vollständige Spezifikation, einschließlich Feldvalidierung und PR-Checkliste.
Siehe auch
- Konfiguration — vollständige Konfigurationsreferenz einschließlich Spracheinrichtung
- Übersetzungsmethoden — wie die einzelnen Methoden funktionieren
- Skriptkonverter — deterministische Skriptkonvertierungspipeline
- Conlangs, Skripte und Orthografie — PUA-Schriftarten, Unicode, Conlangs hinzufügen
- Eine Sprache mit geringen Ressourcen unterstützen — Methoden für unterversorgte Sprachen entwickeln