Unterstützte Sprachen

champollion wird mit Language Cards ausgeliefert — strukturierten Konfigurationsdateien für 50 Sprachen. Jede Card enthält Register-Voreinstellungen, Metadaten zum Formalitätssystem, Flags zur Methodenunterstützung, Typografieregeln und Skriptinformationen. Jede Sprache, die Ihr LLM kennt, kann mit einer einzigen Konfigurationszeile hinzugefügt werden — bei den hier genannten handelt es sich um die mit kuratierten, produktionsreifen Registern.

Übersetzungsmethoden

Jede Sprache kann eine oder mehrere dieser Übersetzungsmethoden verwenden:

Symbol	Methode	Funktionsweise	Kosten
🟢	Google Translate	Neuronale MT-Baseline. Mehr als 130 Sprachen. Nur Schlüssel-Wert-Strings — kann Markdown-Inhalte nicht sicher übersetzen.	~20 $/1 Mio. Zeichen
🔵	LLM (OpenRouter)	Jede Sprache, die das Modell kennt. Registergesteuerte Prompts. Verarbeitet Schlüssel-Wert- und Markdown-Inhalte.	Je nach Modell unterschiedlich
🟣	LLM-Coached	LLM + Grammatikwörterbücher + in die Prompts eingefügte Coaching-Daten. Am besten für morphologisch komplexe Sprachen.	Je nach Modell unterschiedlich
🟠	API (Plugin)	Von der Community gehostete Übersetzungspipelines, die über HTTP bereitgestellt werden. OCAP-kompatibel.	Je nach Anbieter unterschiedlich

Setzen Sie GOOGLE_TRANSLATE_API_KEY für Google Translate oder OPENROUTER_API_KEY für LLM-Methoden. Siehe Übersetzungsmethoden für alle Einzelheiten.

Prioritätssprachen

Dies sind die am häufigsten angefragten Locales für Web- und Mobilanwendungen, aufgeführt in der von champollion empfohlenen, barrierefreiheitsorientierten Reihenfolge.

Flagge	Sprache	Code	Google	LLM	Coached	Skript	Hinweise
🇸🇦	Arabisch	`ar`	✅	✅	✅	—	RTL. Modernes Hocharabisch (فصحى).
🇵🇭	Filipino (Taglish)	`tl` / `fil`	✅	✅	✅	—	Verwenden Sie `fil` in Docusaurus-Konfigurationen. champollion löst beide auf.
🇫🇷	Französisch	`fr`	✅	✅	✅	—	Vous-Form. Geschlechtergerecht (Connecté·e).
🇪🇸	Spanisch	`es`	✅	✅	✅	—	Neutrales Lateinamerikanisch.
🇩🇪	Deutsch	`de`	✅	✅	✅	—	Sie-Form. Geschlechtergerecht (Benutzer:innen).
🇯🇵	Japanisch	`ja`	✅	✅	✅	—	です/ます für Fließtext, する für UI-Beschriftungen.
🇨🇳	Chinesisch (vereinfacht)	`zh`	✅	✅	✅	—	简体中文.
🇮🇹	Italienisch	`it`	✅	✅	✅	—	Lei-Form.
🇧🇷	Portugiesisch (BR)	`pt`	✅	✅	✅	—	Brasilianisches Portugiesisch.
🇰🇷	Koreanisch	`ko`	✅	✅	✅	—	해요체 höfliches Register.

Wichtige Weltsprachen

Flagge	Sprache	Code	Google	LLM	Coached	Skript	Hinweise
🇧🇩	Bengalisch	`bn`	✅	✅	✅	—	শুদ্ধ ভাষা-Präferenz.
🇧🇬	Bulgarisch	`bg`	✅	✅	✅	—
🇨🇿	Tschechisch	`cs`	✅	✅	✅	—	Vykání (vy-Form).
🇩🇰	Dänisch	`da`	✅	✅	✅	—
🇬🇷	Griechisch	`el`	✅	✅	✅	—	Modernes Δημοτική.
🇮🇷	Persisch	`fa`	✅	✅	✅	—	RTL.
🇫🇮	Finnisch	`fi`	✅	✅	✅	—	Kein grammatisches Geschlecht.
🇮🇱	Hebräisch	`he`	✅	✅	✅	—	RTL.
🇮🇳	Hindi	`hi`	✅	✅	✅	—	शुद्ध हिन्दी. Minimale englische Lehnwörter.
🇭🇺	Ungarisch	`hu`	✅	✅	✅	—	Ön-Form.
🇮🇩	Indonesisch	`id`	✅	✅	✅	—
🇲🇾	Malaiisch	`ms`	✅	✅	✅	—
🇳🇱	Niederländisch	`nl`	✅	✅	✅	—	U-Form.
🇳🇴	Norwegisch	`nb`	✅	✅	✅	—	Bokmål.
🇵🇱	Polnisch	`pl`	✅	✅	✅	—	Pan/Pani-Form.
🇵🇹	Portugiesisch (EU)	`pt-PT`	✅	✅	✅	—	Europäisches Portugiesisch.
🇷🇴	Rumänisch	`ro`	✅	✅	✅	—
🇷🇺	Russisch	`ru`	✅	✅	✅	—	Вы-Form.
🇸🇰	Slowakisch	`sk`	✅	✅	✅	—	Vykanie (vy-Form).
🇷🇸	Serbisch	`sr`	✅	✅	✅	🔤 Lateinisch→Kyrillisch	Deterministischer Skriptkonverter.
🇸🇪	Schwedisch	`sv`	✅	✅	✅	—
🇰🇪	Suaheli	`sw`	✅	✅	✅	—
🇹🇭	Thailändisch	`th`	✅	✅	✅	—	ครับ/ค่ะ Höflichkeitspartikeln.
🇹🇷	Türkisch	`tr`	✅	✅	✅	—	Siz-Form.
🇺🇦	Ukrainisch	`uk`	✅	✅	✅	—	Ви-Form.
🇵🇰	Urdu	`ur`	✅	✅	✅	—	RTL. آپ-Form.
🇻🇳	Vietnamesisch	`vi`	✅	✅	✅	—
🇹🇼	Chinesisch (traditionell)	`zh-TW`	✅	✅	✅	—	繁體中文.
🇬🇪	Georgisch	`ka`	✅	✅	—	—	ქართული. Kartwelische Sprachfamilie.
🇳🇬	Yoruba	`yo`	✅	✅	—	—	Èdè Yorùbá. Tonal (3 Töne).

Regionale Varianten

Flagge	Sprache	Code	Google	LLM	Coached	Skript	Hinweise
🇲🇽	Mexikanisches Spanisch	`es-MX`	✅	✅	✅	—	Tú-Form. Warmes Register.
🇨🇦	Kanadisches Französisch	`fr-CA`	✅	✅	✅	—	Québecer Redewendungen.

Indigene Sprachen und Sprachen mit geringen Ressourcen

Diese Sprachen werden von kommerziellen MT-Diensten nicht unterstützt. champollion stellt die Werkzeuge bereit, mit denen Sprachgemeinschaften ihre eigenen Methoden gemäß den OCAP-Prinzipien entwickeln können.

	Sprache	Code	Google	LLM	Coached	Skript	Status
🪶	Plains Cree	`crk`	❌	✅	✅	🔤 SRO→Silbenschrift	🚧 In Entwicklung
🌄	Quechua	`qu`	✅	✅	—	—	Runasimi. Evidentielle Suffixe.

:::info Plains Cree befindet sich in aktiver Entwicklung Das Register, die Coaching-Infrastruktur, der Skriptkonverter und der Evaluierungsrahmen für Plains Cree sind allesamt funktionsfähig, doch die Übersetzungspipeline wurde noch nicht veröffentlicht. Wir arbeiten gemäß den OCAP-Prinzipien mit Sprachgemeinschaften zusammen, um die Qualität vor der Veröffentlichung sicherzustellen. Siehe Eine Sprache mit geringen Ressourcen unterstützen für die ganze Geschichte — und dafür, wie Sie beitragen können. :::

:::tip Weitere Sprachen mit geringen Ressourcen hinzufügen Das Methoden-Plugin-System von champollion ist genau dafür konzipiert. Eine Sprachgemeinschaft kann eine benutzerdefinierte Übersetzungsmethode entwickeln, sie unter eigener Kontrolle hosten und über die API-Methode bereitstellen. Das Methoden-Leaderboard verfolgt die Bewertungen für jedes Sprachpaar — entwickeln Sie eine Methode, führen Sie den Rahmen aus und beanspruchen Sie die Spitzenposition. :::

Konstruierte Sprachen

Konstruierte Sprachen (Conlangs) werden über LLM-Register und optionale Skriptkonverter unterstützt. Sie nutzen dieselbe Infrastruktur wie reale Sprachen — das Qualitätstor, das Coaching-System und die Skriptkonvertierungspipeline funktionieren identisch.

	Sprache	Code	Google	LLM	Skript	Hinweise
🖖	Klingonisch	`tlh`	❌	✅	🔤 Romanisierung→pIqaD	PUA-Schriftart erforderlich. Vokabular von Marc Okrand.
🧝	Sindarin (Tolkiens Elbisch)	`x-elvish-s`	❌	✅	🔤 Lateinisch→Tengwar	CSUR-PUA-Schriftart erforderlich.
🏴‍☠️	Piraten-Englisch	`x-pirate`	❌	✅	—	Nur Register. Nautische Metaphern.
🦸	Kryptonisch	`x-kryptonian`	❌	✅	🔤 Lateinisch→Kryptonisch	PUA-Schriftart erforderlich.
🎭	Shakespeare-Englisch	`x-shakespeare`	❌	✅	—	Nur Register. Thee/thou, -eth/-est-Formen.
🐸	Yoda-Sprache	`x-yoda`	❌	✅	—	Nur Register. OSV-Wortstellung.

Siehe Conlangs, Skripte und Orthografie für PUA-Schriftartanforderungen, Unicode-Einschränkungen und wie Sie eigene hinzufügen können.

Sprach-Voreinstellungen

Der init-Assistent unterstützt Voreinstellungsnamen für eine schnelle Einrichtung. Sie können Voreinstellungen mit einzelnen Codes kombinieren.

Voreinstellung	Wird erweitert zu
`european`	fr, de, es, it, pt, nl
`asian`	ja, zh, ko
`global`	fr, es, de, ja, zh, ko, pt, ar
`nordic`	da, fi, nb, sv

# Mix presets with individual codes
champollion init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

Beliebige Sprache hinzufügen

champollion kann in jede Sprache übersetzen, die Ihr LLM kennt — die obige Tabelle listet lediglich Sprachen mit integrierten Register-Voreinstellungen auf. Um eine nicht aufgeführte Sprache hinzuzufügen, nehmen Sie deren BCP-47-Code in Ihre Konfiguration auf:

{
  "languages": {
    "sw": {},
    "am": {
      "register": "Formal Amharic. Professional register with Geʽez script."
    }
  }
}

Das LLM übersetzt unter Verwendung seines trainierten Wissens über die Sprache. Das Setzen eines register gibt Ihnen Kontrolle über Tonfall, Formalität und orthografische Konventionen. Siehe Konfiguration für Einzelheiten.

Language Cards

Jede integrierte Sprache verfügt über eine Language Card — eine einheitliche JSON-Datei in shared/language-cards/, die alle Metadaten enthält: Register, Formalität, Methodenunterstützung, Typografieregeln, genealogische Klassifizierung, sprachliche Herausforderungen und NLP-Ressourcen.

Einheitliche Card-Architektur

Jede Card wird beim Import unmittelbar geladen. Es gibt keine separate Referenzebene — alle Daten befinden sich in einer einzigen Datei pro Sprache. Die Cards werden aus autoritativen Quellen angereichert:

Quelle	Daten
Glottolog	Familienklassifizierung, Abstammungskette, Glottocode
WALS	Gattungsklassifizierung, typologische Merkmale
CLDR	Skript, Richtung, Pluralregeln, Typografie
ISO 15924	Skriptcodes

Wichtige Card-Felder

Feld	Inhalt
`nativeName`	Endonym — der Name der Sprache für sich selbst, in ihrer eigenen Schrift (z. B. ქართული, Runasimi)
`classification`	Genealogischer Anker: Familie, Gattung, vollständige Abstammungskette aus Glottolog
`contactInfluences`	Universelle Kontaktgeschichte — Entlehnungsschichten, Superstrate, Substrate
Formalitätssystem	T-V-Unterscheidung, Sprachebenen, Keigo, Partikeln usw.
Register-Voreinstellungen	Benannte LLM-Prompt-Voreinstellungen, spezifisch für den Charakter der Sprache
Methodenunterstützung	Welche Übersetzungs-APIs diese Sprache unterstützen
Genusvorgaben	Regeln für grammatisches Geschlecht und Tipps für geschlechtergerechtes Schreiben
Skript/Richtung	ISO-15924-Skriptcode und RTL/LTR
Regeln	Typografie (Anführungszeichen, Abstände), Großschreibung, Pluralkategorien
`glottocode`	Kanonischer Glottolog-Bezeichner für Querverweise
`dataSources`	Provenienz-Nachverfolgung (z. B. `["glottolog-5.3", "cldr-48"]`)

Eine neue Language Card scaffolden

Verwenden Sie den Generator, um eine Card aus autoritativen Datenquellen (IANA, CLDR, Glottolog) zu scaffolden:

# Preview what would be generated
node scripts/generate-language-card.mjs sw --dry-run

# Generate a unified card
node scripts/generate-language-card.mjs sw

Der Generator füllt Metadaten automatisch aus (Codes, Skript, Richtung, Plurale, Anführungszeichen, Methodenunterstützung, Klassifizierung) und markiert Felder, die sprachliches Urteilsvermögen erfordern, als TODO für die menschliche Kuratierung.

Voreinstellungsschlüssel verwenden

Anstatt den vollständigen Registertext zu schreiben, können Sie einen Voreinstellungsschlüsselnamen verwenden:

{
  "languages": {
    "fr": "casual-tu",
    "ko": "formal-hapsyo",
    "ja": "polite"
  }
}

Champollion löst den Schlüssel zum vollständigen Register-Prompt auf. Führen Sie npx champollion init aus, um die verfügbaren Voreinstellungen für jede Sprache anzuzeigen.

Beispiel-Voreinstellungen

Sprache	Voreinstellungen	Standard
Französisch	`formal-vous`, `casual-tu`	`formal-vous`
Koreanisch	`polite-haeyo`, `formal-hapsyo`, `casual-hae`	`polite-haeyo`
Japanisch	`polite`, `formal-keigo`, `casual`	`polite`
Deutsch	`formal-Sie`, `casual-du`	`formal-Sie`
Thailändisch	`neutral-professional`, `polite-male`, `polite-female`	`neutral-professional`
Spanisch	`neutral-professional`, `formal-usted`, `casual-tuteo`	`neutral-professional`

Siehe Eine Language Card beitragen für die vollständige Spezifikation, einschließlich Feldvalidierung und PR-Checkliste.

Siehe auch

Konfiguration — vollständige Konfigurationsreferenz einschließlich Spracheinrichtung
Übersetzungsmethoden — wie die einzelnen Methoden funktionieren
Skriptkonverter — deterministische Skriptkonvertierungspipeline
Conlangs, Skripte und Orthografie — PUA-Schriftarten, Unicode, Conlangs hinzufügen
Eine Sprache mit geringen Ressourcen unterstützen — Methoden für unterversorgte Sprachen entwickeln

Übersetzungsmethoden​

Prioritätssprachen​

Wichtige Weltsprachen​

Regionale Varianten​

Indigene Sprachen und Sprachen mit geringen Ressourcen​

Konstruierte Sprachen​

Sprach-Voreinstellungen​

Beliebige Sprache hinzufügen​

Language Cards​

Einheitliche Card-Architektur​

Wichtige Card-Felder​

Eine neue Language Card scaffolden​

Voreinstellungsschlüssel verwenden​

Beispiel-Voreinstellungen​

Siehe auch​