Ondersteunde Talen
champollion wordt geleverd met Language Cards — gestructureerde configuratiebestanden voor 50 talen. Elke kaart bevat registervoorinstellingen, metadata van het formaliteitssysteem, ondersteuningsvlaggen voor methoden, typografieregels en scriptinformatie. Elke taal die uw LLM kent, kan worden toegevoegd met één configuratieregel — dit zijn de talen met gecureerde, productieklare registers.
Vertaalmethoden
Elke taal kan gebruikmaken van een of meer van de volgende vertaalmethoden:
| Pictogram | Methode | Werking | Kosten |
|---|---|---|---|
| 🟢 | Google Translate | Neurale MT-basislijn. 130+ talen. Alleen sleutel-waardeparen — kan Markdown-inhoud niet veilig vertalen. | ~$20/1M tekens |
| 🔵 | LLM (OpenRouter) | Elke taal die het model kent. Registergeleide prompts. Verwerkt sleutel-waardeparen + Markdown-inhoud. | Varieert per model |
| 🟣 | LLM-Coached | LLM + grammaticawoordenboeken + coachingdata geïnjecteerd in prompts. Beste keuze voor morfologisch complexe talen. | Varieert per model |
| 🟠 | API (Plugin) | Door de community gehoste vertaalpijplijnen aangeboden via HTTP. OCAP-compatibel. | Varieert per aanbieder |
Stel GOOGLE_TRANSLATE_API_KEY in voor Google Translate, of OPENROUTER_API_KEY voor LLM-methoden. Zie Vertaalmethoden voor volledige details.
Prioriteitstalen
Dit zijn de meest gevraagde locales voor web- en mobiele toepassingen, weergegeven in de aanbevolen volgorde van champollion op basis van toegankelijkheid.
| Vlag | Taal | Code | LLM | Coached | Script | Opmerkingen | |
|---|---|---|---|---|---|---|---|
| 🇸🇦 | Arabisch | ar | ✅ | ✅ | ✅ | — | RTL. Modern Standaard Arabisch (فصحى). |
| 🇵🇭 | Filipijns (Taglish) | tl / fil | ✅ | ✅ | ✅ | — | Gebruik fil in Docusaurus-configuraties. champollion herkent beide. |
| 🇫🇷 | Frans | fr | ✅ | ✅ | ✅ | — | Vous-vorm. Genderinclusief (Connecté·e). |
| 🇪🇸 | Spaans | es | ✅ | ✅ | ✅ | — | Neutraal Latijns-Amerikaans. |
| 🇩🇪 | Duits | de | ✅ | ✅ | ✅ | — | Sie-vorm. Genderinclusief (Benutzer:innen). |
| 🇯🇵 | Japans | ja | ✅ | ✅ | ✅ | — | です/ます voor hoofdtekst, する voor UI-labels. |
| 🇨🇳 | Chinees (Vereenvoudigd) | zh | ✅ | ✅ | ✅ | — | 简体中文. |
| 🇮🇹 | Italiaans | it | ✅ | ✅ | ✅ | — | Lei-vorm. |
| 🇧🇷 | Portugees (BR) | pt | ✅ | ✅ | ✅ | — | Braziliaans Portugees. |
| 🇰🇷 | Koreaans | ko | ✅ | ✅ | ✅ | — | 해요체 beleefd register. |
Grote Wereldtalen
| Vlag | Taal | Code | LLM | Coached | Script | Opmerkingen | |
|---|---|---|---|---|---|---|---|
| 🇧🇩 | Bengaals | bn | ✅ | ✅ | ✅ | — | Voorkeur voor শুদ্ধ ভাষা. |
| 🇧🇬 | Bulgaars | bg | ✅ | ✅ | ✅ | — | |
| 🇨🇿 | Tsjechisch | cs | ✅ | ✅ | ✅ | — | Vykání (vy-vorm). |
| 🇩🇰 | Deens | da | ✅ | ✅ | ✅ | — | |
| 🇬🇷 | Grieks | el | ✅ | ✅ | ✅ | — | Modern Δημοτική. |
| 🇮🇷 | Perzisch | fa | ✅ | ✅ | ✅ | — | RTL. |
| 🇫🇮 | Fins | fi | ✅ | ✅ | ✅ | — | Geen grammaticaal geslacht. |
| 🇮🇱 | Hebreeuws | he | ✅ | ✅ | ✅ | — | RTL. |
| 🇮🇳 | Hindi | hi | ✅ | ✅ | ✅ | — | शुद्ध हिन्दी. Minimale Engelse leenwoorden. |
| 🇭🇺 | Hongaars | hu | ✅ | ✅ | ✅ | — | Ön-vorm. |
| 🇮🇩 | Indonesisch | id | ✅ | ✅ | ✅ | — | |
| 🇲🇾 | Maleis | ms | ✅ | ✅ | ✅ | — | |
| 🇳🇱 | Nederlands | nl | ✅ | ✅ | ✅ | — | U-vorm. |
| 🇳🇴 | Noors | nb | ✅ | ✅ | ✅ | — | Bokmål. |
| 🇵🇱 | Pools | pl | ✅ | ✅ | ✅ | — | Pan/Pani-vorm. |
| 🇵🇹 | Portugees (EU) | pt-PT | ✅ | ✅ | ✅ | — | Europees Portugees. |
| 🇷🇴 | Roemeens | ro | ✅ | ✅ | ✅ | — | |
| 🇷🇺 | Russisch | ru | ✅ | ✅ | ✅ | — | Вы-vorm. |
| 🇸🇰 | Slowaaks | sk | ✅ | ✅ | ✅ | — | Vykanie (vy-vorm). |
| 🇷🇸 | Servisch | sr | ✅ | ✅ | ✅ | 🔤 Latijn→Cyrillisch | Deterministische scriptconverter. |
| 🇸🇪 | Zweeds | sv | ✅ | ✅ | ✅ | — | |
| 🇰🇪 | Swahili | sw | ✅ | ✅ | ✅ | — | |
| 🇹🇭 | Thais | th | ✅ | ✅ | ✅ | — | ครับ/ค่ะ beleefdheidpartikels. |
| 🇹🇷 | Turks | tr | ✅ | ✅ | ✅ | — | Siz-vorm. |
| 🇺🇦 | Oekraïens | uk | ✅ | ✅ | ✅ | — | Ви-vorm. |
| 🇵🇰 | Urdu | ur | ✅ | ✅ | ✅ | — | RTL. آپ-vorm. |
| 🇻🇳 | Vietnamees | vi | ✅ | ✅ | ✅ | — | |
| 🇹🇼 | Chinees (Traditioneel) | zh-TW | ✅ | ✅ | ✅ | — | 繁體中文. |
| 🇬🇪 | Georgisch | ka | ✅ | ✅ | — | — | ქართული. Kartveelse taalfamilie. |
| 🇳🇬 | Yoruba | yo | ✅ | ✅ | — | — | Èdè Yorùbá. Tonaal (3 tonen). |
Regionale Varianten
| Vlag | Taal | Code | LLM | Coached | Script | Opmerkingen | |
|---|---|---|---|---|---|---|---|
| 🇲🇽 | Mexicaans Spaans | es-MX | ✅ | ✅ | ✅ | — | Tú-vorm. Warm register. |
| 🇨🇦 | Canadees Frans | fr-CA | ✅ | ✅ | ✅ | — | Québécois-uitdrukkingen. |
Inheemse & Laagresourcetalen
Deze talen worden niet ondersteund door commerciële MT-diensten. champollion biedt de tooling waarmee taalgemeenschappen hun eigen methoden kunnen ontwikkelen onder OCAP-principes.
| Taal | Code | LLM | Coached | Script | Status | ||
|---|---|---|---|---|---|---|---|
| 🪶 | Plains Cree | crk | ❌ | ✅ | ✅ | 🔤 SRO→Syllabics | 🚧 In ontwikkeling |
| 🌄 | Quechua | qu | ✅ | ✅ | — | — | Runasimi. Evidentiële achtervoegsels. |
:::info Plains Cree is in actieve ontwikkeling Het register, de coachinginfrastructuur, de scriptconverter en het evaluatieraamwerk voor Plains Cree zijn allemaal functioneel, maar de vertaalpijplijn is nog niet uitgebracht. We werken samen met taalgemeenschappen onder OCAP-principes om kwaliteit te waarborgen vóór de release. Zie Een Laagresourcetaal Ondersteunen voor het volledige verhaal — en hoe u kunt bijdragen. :::
:::tip Meer laagresourcetalen toevoegen Het methode-pluginsysteem van champollion is hier specifiek voor ontworpen. Een taalgemeenschap kan een aangepaste vertaalmethode bouwen, deze onder eigen beheer hosten en aanbieden via de API-methode. Het Methode-leaderboard houdt scores bij voor elk taalpaar — bouw een methode, voer het raamwerk uit en claim de toppositie. :::
Geconstrueerde Talen
Contalen worden ondersteund via LLM-registers en optionele scriptconverters. Ze maken gebruik van dezelfde infrastructuur als echte talen — de kwaliteitspoort, het coachingsysteem en de scriptconversiepijplijn werken identiek.
| Taal | Code | LLM | Script | Opmerkingen | ||
|---|---|---|---|---|---|---|
| 🖖 | Klingon | tlh | ❌ | ✅ | 🔤 Romanisering→pIqaD | PUA-lettertype vereist. Marc Okrand-woordenschat. |
| 🧝 | Sindarin (Tolkien Elfisch) | x-elvish-s | ❌ | ✅ | 🔤 Latijn→Tengwar | CSUR PUA-lettertype vereist. |
| 🏴☠️ | Piraten-Engels | x-pirate | ❌ | ✅ | — | Alleen register. Nautische metaforen. |
| 🦸 | Kryptoniaans | x-kryptonian | ❌ | ✅ | 🔤 Latijn→Kryptoniaans | PUA-lettertype vereist. |
| 🎭 | Shakespeareaans Engels | x-shakespeare | ❌ | ✅ | — | Alleen register. Thee/thou, -eth/-est-vormen. |
| 🐸 | Yoda-spreektaal | x-yoda | ❌ | ✅ | — | Alleen register. OSV-woordvolgorde. |
Zie Contalen, Scripts & Orthografie voor PUA-lettertypevereisten, Unicode-beperkingen en instructies voor het toevoegen van uw eigen contaal.
Taalvoorinstellingen
De init-wizard ondersteunt voorinstellingsnamen voor snelle configuratie. U kunt voorinstellingen combineren met afzonderlijke codes.
| Voorinstelling | Uitbreiding naar |
|---|---|
european | fr, de, es, it, pt, nl |
asian | ja, zh, ko |
global | fr, es, de, ja, zh, ko, pt, ar |
nordic | da, fi, nb, sv |
# Mix presets with individual codes
champollion init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja
Een Taal Toevoegen
champollion kan vertalen naar elke taal die uw LLM kent — de bovenstaande tabel bevat alleen talen met ingebouwde registervoorinstellingen. Om een niet-vermelde taal toe te voegen, neemt u de BCP-47-code op in uw configuratie:
{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}
De LLM vertaalt op basis van zijn trainingskennis van de taal. Door een register in te stellen, heeft u controle over toon, formaliteit en orthografische conventies. Zie Configuratie voor details.
Language Cards
Elke ingebouwde taal heeft een Language Card — een uniform JSON-bestand in shared/language-cards/ dat alle metadata bevat: registers, formaliteit, ondersteuning voor methoden, typografieregels, genealogische classificatie, taalkundige uitdagingen en NLP-bronnen.
Uniforme Kaartarchitectuur
Elke kaart wordt gretig geladen bij import. Er is geen afzonderlijke referentielaag — alle gegevens bevinden zich in één bestand per taal. Kaarten worden verrijkt vanuit gezaghebbende bronnen:
| Bron | Gegevens |
|---|---|
| Glottolog | Familieclassificatie, afstammingsketen, Glottocode |
| WALS | Genusclassificatie, typologische kenmerken |
| CLDR | Script, richting, meervoudsregels, typografie |
| ISO 15924 | Scriptcodes |
Belangrijkste Kaartvelden
| Veld | Inhoud |
|---|---|
nativeName | Endoniem — de naam van de taal in de eigen taal, in het eigen schrift (bijv. ქართული, Runasimi) |
classification | Genealogisch ankerpunt: familie, genus, volledige afstammingsketen uit Glottolog |
contactInfluences | Universele contactgeschiedenis — leenlagen, superstraten, substraten |
| Formaliteitssysteem | T-V-onderscheid, spraakregisters, keigo, partikels, enz. |
| Registervoorinstellingen | Benoemde LLM-promptvoorinstellingen specifiek voor het karakter van de taal |
| Methodeondersteuning | Welke vertaal-API's deze taal ondersteunen |
| Genderbegeleiding | Grammaticaal geslachtsregels en tips voor inclusief schrijven |
| Script/richting | ISO 15924-scriptcode en RTL/LTR |
| Regels | Typografie (aanhalingstekens, spatiëring), hoofdlettergebruik, meervoudscategorieën |
glottocode | Canonieke Glottolog-identifier voor kruisverwijzingen |
dataSources | Herkomstregistratie (bijv. ["glottolog-5.3", "cldr-48"]) |
Een Nieuwe Language Card Genereren
Gebruik de generator om een kaart te genereren op basis van gezaghebbende gegevensbronnen (IANA, CLDR, Glottolog):
# Preview what would be generated
node scripts/generate-language-card.mjs sw --dry-run
# Generate a unified card
node scripts/generate-language-card.mjs sw
De generator vult automatisch metadata in (codes, script, richting, meervouden, aanhalingstekens, methodeondersteuning, classificatie) en markeert taalkundige beoordelingsvelden als TODO voor menselijke curatie.
Voorinstellingssleutels Gebruiken
In plaats van volledige registertekst te schrijven, kunt u een voorinstellingssleutelnaam gebruiken:
{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}
Champollion zet de sleutel om naar de volledige registerprompt. Voer npx champollion init uit om beschikbare voorinstellingen per taal te bekijken.
Voorbeeldvoorinstellingen
| Taal | Voorinstellingen | Standaard |
|---|---|---|
| Frans | formal-vous, casual-tu | formal-vous |
| Koreaans | polite-haeyo, formal-hapsyo, casual-hae | polite-haeyo |
| Japans | polite, formal-keigo, casual | polite |
| Duits | formal-Sie, casual-du | formal-Sie |
| Thais | neutral-professional, polite-male, polite-female | neutral-professional |
| Spaans | neutral-professional, formal-usted, casual-tuteo | neutral-professional |
Zie Een Language Card Bijdragen voor de volledige specificatie, inclusief veldvalidatie en PR-checklist.
Zie Ook
- Configuratie — volledige configuratiereferentie inclusief taalinstellingen
- Vertaalmethoden — werking van elke methode
- Scriptconverters — deterministische scriptconversiepijplijn
- Contalen, Scripts & Orthografie — PUA-lettertypen, Unicode, contalen toevoegen
- Een Laagresourcetaal Ondersteunen — methoden bouwen voor ondervertegenwoordigde talen