Conlangs, Schriften & Orthografie
champollion bietet erstklassige Unterstützung für konstruierte Sprachen über LLM-Register und deterministische Skript-Konverter. Dieser Leitfaden behandelt, wie die Conlang-Unterstützung funktioniert, welche Schriftarten Sie benötigen und wie Sie eigene hinzufügen.
:::tip Warum Conlangs wichtig sind Conlangs sind nicht nur Spielerei — sie nutzen genau dieselbe Infrastruktur wie echte, unterversorgte Sprachen. Das Quality Gate, das Coaching-System und die Skript-Konvertierungspipeline funktionieren für Klingonisch und Plains Cree identisch. Wenn Ihre Conlang-Pipeline funktioniert, wird auch Ihre Pipeline für ressourcenarme Sprachen funktionieren. :::
Unterstützte konstruierte Sprachen
| Sprache | Code | Skript-Konverter | Schriftart erforderlich |
|---|---|---|---|
| Klingonisch | tlh | ✅ Romanisierung → pIqaD | PUA-Schriftart (z. B. pIqaD qolqoS) |
| Sindarin (Tolkien-Elbisch) | x-elvish-s | ✅ Latein → Tengwar | CSUR-PUA-Schriftart |
| Kryptonisch | x-kryptonian | ✅ Latein → Kryptonisch | PUA-Schriftart |
| Piraten-Englisch | x-pirate | ❌ nur Register | Keine |
| Shakespeare-Englisch | x-shakespeare | ❌ nur Register | Keine |
| Yoda-Sprache | x-yoda | ❌ nur Register | Keine |
Conlang-Codes verwenden das Präfix x- gemäß der BCP-47-Konvention für den privaten Gebrauch, mit Ausnahme von Klingonisch (tlh), dem ein ISO 639-3-Code von SIL International zugewiesen wurde.
Unicode, PUA und Schriftartanforderungen
Der Private Use Area
Klingonisch (pIqaD), Sindarin (Tengwar) und Kryptonisch verwenden Unicode-Private-Use-Area-Zeichen (PUA). PUA ist der Bereich U+E000–U+F8FF — diese Codepunkte haben keine standardmäßige Zuweisung. Das ConScript Unicode Registry (CSUR) pflegt von der Community vereinbarte Zuordnungen für fiktionale Skripte, diese sind jedoch nicht Teil des Unicode-Standards.
Was dies in der Praxis bedeutet:
- PUA-Text wird ohne die korrekt geladene Schriftart als leere Kästchen (□□□) dargestellt
- Verschiedene Schriftarten können denselben PUA-Codepunkten unterschiedliche Glyphen zuordnen
- champollion bündelt KEINE PUA-Schriftarten — Sie müssen diese selbst laden
- Systemschriftarten werden diese Zeichen niemals darstellen
PUA-Bereiche nach Skript
| Skript | PUA-Bereich | CSUR-Referenz |
|---|---|---|
| Klingonisch (pIqaD) | U+F8D0–U+F8FF | CSUR Klingon |
| Tengwar (Elbisch) | U+E000–U+E07F | CSUR Tengwar |
| Kryptonisch | Je nach Schriftart | Kein CSUR-Standard |
Laden von PUA-Webschriftarten
champollion enthält einen integrierten Befehl zum Herunterladen und Verwalten von PUA-Webschriftarten:
# See which fonts are needed for your configured languages
champollion fonts list
# Download all needed fonts (auto-detects project type for output directory)
champollion fonts install
# Also generate a CSS snippet with @font-face declarations
champollion fonts install --css
Der Befehl fonts install lädt aus verifizierten Open-Source-Repositories herunter:
| Schriftart | Skript | Lizenz | Quelle |
|---|---|---|---|
| pIqaD qolqoS | Klingonisch | SIL Open Font License 1.1 | GitHub |
| FreeMonoTengwar | Tengwar | GNU GPL v3 (mit Font-Ausnahme) | SourceForge |
| (vom Benutzer bereitgestellt) | Kryptonisch | Variiert | Keine Open-Source-PUA-Schriftart verfügbar |
Das Ausgabeverzeichnis wird automatisch aus Ihrer Projektstruktur erkannt (Docusaurus → static/fonts/, Hugo → static/fonts/, Standard → public/fonts/). Überschreiben Sie es mit --dir.
Wenn Sie Schriftarten lieber manuell verwalten möchten, fügen Sie @font-face-Regeln in Ihr CSS ein:
@font-face {
font-family: 'pIqaD';
src: url('/fonts/pIqaDqolqoS.ttf') format('truetype');
font-display: swap;
unicode-range: U+F8D0-F8FF;
}
/* Apply to Klingon text elements */
[lang="tlh"], [data-script="piqad"] {
font-family: 'pIqaD', sans-serif;
}
:::warning Unicode-Unterstützung ist NICHT garantiert Das Unicode-Konsortium hat es ausdrücklich abgelehnt, fiktionale Skripte im Standard zu kodieren. PUA-Zuweisungen werden von der Community gepflegt und können zwischen Schriftart-Implementierungen kollidieren. Geben Sie stets die exakte Schriftart an, die Ihr Projekt verwendet, und testen Sie die Darstellung in verschiedenen Browsern. :::
Skript-Konverter
Wie sie funktionieren
Die Skript-Konvertierung von champollion ist ein Post-Translation-Hook:
- Das LLM übersetzt den Text in ein Arbeitsskript (in der Regel Latein oder SRO)
- Das Quality Gate validiert die Ausgabe
- Der deterministische Konverter wandelt den validierten Text in das Anzeigeskript um
- Der konvertierte Text wird auf die Festplatte geschrieben
Dieser zweistufige Ansatz funktioniert, weil LLMs bessere Ergebnisse liefern, wenn sie in lateinbasierten Skripten arbeiten. Der deterministische Konverter garantiert eine korrekte Skript-Ausgabe, ohne auf das (häufig unzuverlässige) Skript-Wissen des Modells angewiesen zu sein.
Alle fünf Konverter
champollion liefert fünf integrierte Skript-Konverter mit:
Plains Cree: SRO → Silbenschrift (crk)
Standard Roman Orthography zu Canadian Aboriginal Syllabics.
Input: "tawâw"
Output: "ᑕᐚᐤ"
Lange Vokale verwenden Makron/Zirkumflex: ê, î, ô, â. Der Konverter verarbeitet alle SRO-Diakritika und ordnet sie den korrekten Silbenzeichen zu. Siehe Eine ressourcenarme Sprache unterstützen für die vollständige Cree-Pipeline.
Serbisch: Latein → Kyrillisch (sr)
Deterministische Latein-zu-Kyrillisch-Konvertierung für Serbisch.
Input: "zdravo"
Output: "здраво"
Dies verarbeitet die vollständige serbische Alphabetzuordnung einschließlich der Digraphen (lj → љ, nj → њ, dž → џ).
Klingonisch: Romanisierung → pIqaD (tlh)
Marc Okrands Romanisierungssystem zu pIqaD-PUA-Zeichen.
Input: "Qapla'" (romanized Klingon)
Output: [pIqaD PUA] (requires pIqaD font to render)
Sindarin: Latein → Tengwar (x-elvish-s)
Tolkiens Sindarin-Modus-Tengwar-Zuordnung.
Input: "elen síla" (Latin Sindarin)
Output: [Tengwar PUA] (requires Tengwar font to render)
Kryptonisch: Latein → Kryptonisch (x-kryptonian)
Fan-Lexikon-Kryptonisch-Skript-Zuordnung.
Input: "Kal-El"
Output: [Kryptonian PUA] (requires Kryptonian font to render)
Auslösen eines Konverters
Setzen Sie das Feld scripts in Ihrer Sprachkonfiguration. Bei integrierten Konvertern wird dies automatisch aus dem Sprachcode erkannt:
{
"languages": {
"sr": { "scripts": "sr" },
"crk": {}
}
}
Plains Cree (crk) wird automatisch erkannt — Sie müssen scripts nicht explizit setzen.
Mehrskriptsprachen
Einige reale Sprachen verwenden mehrere aktive Skripte:
| Sprache | Skripte | champollion-Ansatz |
|---|---|---|
| Serbisch | Latein + Kyrillisch | Skript-Konverter (sr) — in Latein übersetzen, in Kyrillisch konvertieren |
| Chinesisch | Vereinfacht + Traditionell | Separate Locale-Codes (zh vs. zh-TW) mit unterschiedlichen Registern |
Für Sprachen, bei denen beide Skripte dieselbe Zielgruppe bedienen (Serbisch), verwenden Sie einen Skript-Konverter. Für Sprachen, bei denen die Skripte unterschiedliche Zielgruppen bedienen (Chinesisch Vereinfacht für Festlandchina, Traditionell für Taiwan/Hongkong), verwenden Sie separate Locale-Codes.
Hinweise zur Orthografie
Register sind nicht nur Tonalität — sie tragen orthografische Anweisungen, die das LLM zu korrekten Schreibkonventionen lenken.
Formelle Anredeformen
Die integrierten Register von champollion enthalten die kulturell angemessene formelle Anrede für jede Sprache:
| Sprache | Formelle Form | Register-Anweisung |
|---|---|---|
| Deutsch | Sie | Use Sie-form for formal address |
| Französisch | vous | Use vous-form |
| Russisch | вы | Professional register with вы-form |
| Türkisch | siz | Professional register with siz-form |
| Koreanisch | 합쇼체 | Formal Korean (합쇼체) |
| Japanisch | です/ます | Polite professional register (です/ます form) |
| Polnisch | Pan/Pani | Professional register with Pan/Pani form |
Geschlechtergerechtes Schreiben
Jede Sprachkarte verfügt über ein Feld gender.inclusiveGuidance mit sprachspezifischen Hinweisen. Dieses wird getrennt vom Register-Preset in den LLM-Übersetzungs-Prompt eingefügt, sodass es unabhängig davon, welches Formalitäts-Preset der Benutzer wählt, konsistent angewendet wird:
- Französisch: Écriture inclusive mit Interpunkt-Notation (z. B. „Connecté·e")
- Deutsch: Doppelpunkt-Notation (z. B. „Benutzer:innen")
- Spanisch: Geschlechtsneutrale Umstrukturierung wird bevorzugt; Schrägstrich-Notation (z. B. „usuario/a") als Ausweichlösung
Für Sprachen ohne spezifische Hinweise in ihrer Karte (z. B. Koreanisch, Conlangs) greift das System auf eine allgemeine Regel zurück: „geschlechtsneutrale Formen oder die inklusivste verfügbare Option bevorzugen."
Anforderungen an RTL-Skripte
Die Register für Arabisch, Hebräisch, Persisch und Urdu weisen alle auf Rechts-nach-links-Anforderungen hin: Ensure text reads naturally in RTL layout contexts.
Überschreiben eines beliebigen Registers
Jedes Register ist ein Konfigurationswert — überschreiben Sie es, um es an die Stimme Ihres Projekts anzupassen:
{
"languages": {
"fr": {
"register": "Casual French. Use tu-form. Conversational blog tone. Gender-neutral when possible."
},
"de": {
"register": "Informal German. Use du-form. Tech startup voice."
}
}
}
Siehe Konfiguration für die vollständige Konfigurationsreferenz.
Eine neue Conlang hinzufügen
Schritt für Schritt
-
Wählen Sie einen BCP-47-Code für den privaten Gebrauch: Verwenden Sie das Präfix
x-(z. B.x-dothraki,x-valyrian). -
Zu Ihrer Konfiguration hinzufügen:
{
"languages": {
"x-dothraki": {
"register": "Dothraki language. Use David J. Peterson's vocabulary from the Living Language Dothraki textbook. Harsh, direct tone. No articles, no verb 'to be'."
}
}
}
-
(Optional) Einen Skript-Konverter hinzufügen: Wenn Ihre Conlang ein nicht-lateinisches Anzeigeskript verwendet, fügen Sie einen Konverter in
lib/scripts.jshinzu und registrieren Sie ihn inSCRIPT_CONVERTERS. -
Testen: Führen Sie
champollion sync --dryaus, um Übersetzungen in der Vorschau anzuzeigen, ohne Dateien zu schreiben. -
Das Quality Gate prüfen: Das Quality Gate muss möglicherweise für Ihre Conlang angepasst werden — insbesondere die Prüfung
requireNonLatin, wenn Ihre Conlang PUA-Zeichen verwendet.
:::note Conlang-Qualität hängt vom LLM-Wissen ab Das LLM kann nur in eine Conlang übersetzen, die es in den Trainingsdaten gesehen hat. Gut dokumentierte Conlangs (Klingonisch, Sindarin, Dothraki) funktionieren gut. Obskure oder neu erfundene Conlangs können inkonsistente Ergebnisse liefern. Verwenden Sie Coaching-Daten, um die Qualität zu verbessern. :::
Siehe auch
- Unterstützte Sprachen — vollständige Sprachtabelle mit Verfügbarkeit der Methoden
- Skript-Konverter — technische Details der Konvertierungspipeline
- Übersetzungsmethoden — wie jede Übersetzungsmethode funktioniert
- Konfiguration — Konfigurationsreferenz einschließlich Sprach- und Register-Einrichtung
- Eine ressourcenarme Sprache unterstützen — dieselbe Infrastruktur angewandt auf echte, unterversorgte Sprachen