Naar hoofdinhoud gaan

Ondersteunde Talen

champollion wordt geleverd met Language Cards — gestructureerde configuratiebestanden voor 50 talen. Elke kaart bevat registervoorinstellingen, metadata van het formaliteitssysteem, ondersteuningsvlaggen voor methoden, typografieregels en scriptinformatie. Elke taal die uw LLM kent, kan worden toegevoegd met één configuratieregel — dit zijn de talen met gecureerde, productieklare registers.


Vertaalmethoden

Elke taal kan gebruikmaken van een of meer van de volgende vertaalmethoden:

PictogramMethodeWerkingKosten
🟢Google TranslateNeurale MT-basislijn. 130+ talen. Alleen sleutel-waardeparen — kan Markdown-inhoud niet veilig vertalen.~$20/1M tekens
🔵LLM (OpenRouter)Elke taal die het model kent. Registergeleide prompts. Verwerkt sleutel-waardeparen + Markdown-inhoud.Varieert per model
🟣LLM-CoachedLLM + grammaticawoordenboeken + coachingdata geïnjecteerd in prompts. Beste keuze voor morfologisch complexe talen.Varieert per model
🟠API (Plugin)Door de community gehoste vertaalpijplijnen aangeboden via HTTP. OCAP-compatibel.Varieert per aanbieder

Stel GOOGLE_TRANSLATE_API_KEY in voor Google Translate, of OPENROUTER_API_KEY voor LLM-methoden. Zie Vertaalmethoden voor volledige details.


Prioriteitstalen

Dit zijn de meest gevraagde locales voor web- en mobiele toepassingen, weergegeven in de aanbevolen volgorde van champollion op basis van toegankelijkheid.

VlagTaalCodeGoogleLLMCoachedScriptOpmerkingen
🇸🇦ArabischarRTL. Modern Standaard Arabisch (فصحى).
🇵🇭Filipijns (Taglish)tl / filGebruik fil in Docusaurus-configuraties. champollion herkent beide.
🇫🇷FransfrVous-vorm. Genderinclusief (Connecté·e).
🇪🇸SpaansesNeutraal Latijns-Amerikaans.
🇩🇪DuitsdeSie-vorm. Genderinclusief (Benutzer:innen).
🇯🇵Japansjaです/ます voor hoofdtekst, する voor UI-labels.
🇨🇳Chinees (Vereenvoudigd)zh简体中文.
🇮🇹ItaliaansitLei-vorm.
🇧🇷Portugees (BR)ptBraziliaans Portugees.
🇰🇷Koreaansko해요체 beleefd register.

Grote Wereldtalen

VlagTaalCodeGoogleLLMCoachedScriptOpmerkingen
🇧🇩BengaalsbnVoorkeur voor শুদ্ধ ভাষা.
🇧🇬Bulgaarsbg
🇨🇿TsjechischcsVykání (vy-vorm).
🇩🇰Deensda
🇬🇷GriekselModern Δημοτική.
🇮🇷PerzischfaRTL.
🇫🇮FinsfiGeen grammaticaal geslacht.
🇮🇱HebreeuwsheRTL.
🇮🇳Hindihiशुद्ध हिन्दी. Minimale Engelse leenwoorden.
🇭🇺HongaarshuÖn-vorm.
🇮🇩Indonesischid
🇲🇾Maleisms
🇳🇱NederlandsnlU-vorm.
🇳🇴NoorsnbBokmål.
🇵🇱PoolsplPan/Pani-vorm.
🇵🇹Portugees (EU)pt-PTEuropees Portugees.
🇷🇴Roemeensro
🇷🇺RussischruВы-vorm.
🇸🇰SlowaaksskVykanie (vy-vorm).
🇷🇸Servischsr🔤 Latijn→CyrillischDeterministische scriptconverter.
🇸🇪Zweedssv
🇰🇪Swahilisw
🇹🇭Thaisthครับ/ค่ะ beleefdheidpartikels.
🇹🇷TurkstrSiz-vorm.
🇺🇦OekraïensukВи-vorm.
🇵🇰UrduurRTL. آپ-vorm.
🇻🇳Vietnameesvi
🇹🇼Chinees (Traditioneel)zh-TW繁體中文.
🇬🇪Georgischkaქართული. Kartveelse taalfamilie.
🇳🇬YorubayoÈdè Yorùbá. Tonaal (3 tonen).

Regionale Varianten

VlagTaalCodeGoogleLLMCoachedScriptOpmerkingen
🇲🇽Mexicaans Spaanses-MXTú-vorm. Warm register.
🇨🇦Canadees Fransfr-CAQuébécois-uitdrukkingen.

Inheemse & Laagresourcetalen

Deze talen worden niet ondersteund door commerciële MT-diensten. champollion biedt de tooling waarmee taalgemeenschappen hun eigen methoden kunnen ontwikkelen onder OCAP-principes.

TaalCodeGoogleLLMCoachedScriptStatus
🪶Plains Creecrk🔤 SRO→Syllabics🚧 In ontwikkeling
🌄QuechuaquRunasimi. Evidentiële achtervoegsels.

:::info Plains Cree is in actieve ontwikkeling Het register, de coachinginfrastructuur, de scriptconverter en het evaluatieraamwerk voor Plains Cree zijn allemaal functioneel, maar de vertaalpijplijn is nog niet uitgebracht. We werken samen met taalgemeenschappen onder OCAP-principes om kwaliteit te waarborgen vóór de release. Zie Een Laagresourcetaal Ondersteunen voor het volledige verhaal — en hoe u kunt bijdragen. :::

:::tip Meer laagresourcetalen toevoegen Het methode-pluginsysteem van champollion is hier specifiek voor ontworpen. Een taalgemeenschap kan een aangepaste vertaalmethode bouwen, deze onder eigen beheer hosten en aanbieden via de API-methode. Het Methode-leaderboard houdt scores bij voor elk taalpaar — bouw een methode, voer het raamwerk uit en claim de toppositie. :::


Geconstrueerde Talen

Contalen worden ondersteund via LLM-registers en optionele scriptconverters. Ze maken gebruik van dezelfde infrastructuur als echte talen — de kwaliteitspoort, het coachingsysteem en de scriptconversiepijplijn werken identiek.

TaalCodeGoogleLLMScriptOpmerkingen
🖖Klingontlh🔤 Romanisering→pIqaDPUA-lettertype vereist. Marc Okrand-woordenschat.
🧝Sindarin (Tolkien Elfisch)x-elvish-s🔤 Latijn→TengwarCSUR PUA-lettertype vereist.
🏴‍☠️Piraten-Engelsx-pirateAlleen register. Nautische metaforen.
🦸Kryptoniaansx-kryptonian🔤 Latijn→KryptoniaansPUA-lettertype vereist.
🎭Shakespeareaans Engelsx-shakespeareAlleen register. Thee/thou, -eth/-est-vormen.
🐸Yoda-spreektaalx-yodaAlleen register. OSV-woordvolgorde.

Zie Contalen, Scripts & Orthografie voor PUA-lettertypevereisten, Unicode-beperkingen en instructies voor het toevoegen van uw eigen contaal.


Taalvoorinstellingen

De init-wizard ondersteunt voorinstellingsnamen voor snelle configuratie. U kunt voorinstellingen combineren met afzonderlijke codes.

VoorinstellingUitbreiding naar
europeanfr, de, es, it, pt, nl
asianja, zh, ko
globalfr, es, de, ja, zh, ko, pt, ar
nordicda, fi, nb, sv
# Mix presets with individual codes
champollion init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

Een Taal Toevoegen

champollion kan vertalen naar elke taal die uw LLM kent — de bovenstaande tabel bevat alleen talen met ingebouwde registervoorinstellingen. Om een niet-vermelde taal toe te voegen, neemt u de BCP-47-code op in uw configuratie:

{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}

De LLM vertaalt op basis van zijn trainingskennis van de taal. Door een register in te stellen, heeft u controle over toon, formaliteit en orthografische conventies. Zie Configuratie voor details.


Language Cards

Elke ingebouwde taal heeft een Language Card — een uniform JSON-bestand in shared/language-cards/ dat alle metadata bevat: registers, formaliteit, ondersteuning voor methoden, typografieregels, genealogische classificatie, taalkundige uitdagingen en NLP-bronnen.

Uniforme Kaartarchitectuur

Elke kaart wordt gretig geladen bij import. Er is geen afzonderlijke referentielaag — alle gegevens bevinden zich in één bestand per taal. Kaarten worden verrijkt vanuit gezaghebbende bronnen:

BronGegevens
GlottologFamilieclassificatie, afstammingsketen, Glottocode
WALSGenusclassificatie, typologische kenmerken
CLDRScript, richting, meervoudsregels, typografie
ISO 15924Scriptcodes

Belangrijkste Kaartvelden

VeldInhoud
nativeNameEndoniem — de naam van de taal in de eigen taal, in het eigen schrift (bijv. ქართული, Runasimi)
classificationGenealogisch ankerpunt: familie, genus, volledige afstammingsketen uit Glottolog
contactInfluencesUniversele contactgeschiedenis — leenlagen, superstraten, substraten
FormaliteitssysteemT-V-onderscheid, spraakregisters, keigo, partikels, enz.
RegistervoorinstellingenBenoemde LLM-promptvoorinstellingen specifiek voor het karakter van de taal
MethodeondersteuningWelke vertaal-API's deze taal ondersteunen
GenderbegeleidingGrammaticaal geslachtsregels en tips voor inclusief schrijven
Script/richtingISO 15924-scriptcode en RTL/LTR
RegelsTypografie (aanhalingstekens, spatiëring), hoofdlettergebruik, meervoudscategorieën
glottocodeCanonieke Glottolog-identifier voor kruisverwijzingen
dataSourcesHerkomstregistratie (bijv. ["glottolog-5.3", "cldr-48"])

Een Nieuwe Language Card Genereren

Gebruik de generator om een kaart te genereren op basis van gezaghebbende gegevensbronnen (IANA, CLDR, Glottolog):

# Preview what would be generated
node scripts/generate-language-card.mjs sw --dry-run

# Generate a unified card
node scripts/generate-language-card.mjs sw

De generator vult automatisch metadata in (codes, script, richting, meervouden, aanhalingstekens, methodeondersteuning, classificatie) en markeert taalkundige beoordelingsvelden als TODO voor menselijke curatie.

Voorinstellingssleutels Gebruiken

In plaats van volledige registertekst te schrijven, kunt u een voorinstellingssleutelnaam gebruiken:

{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}

Champollion zet de sleutel om naar de volledige registerprompt. Voer npx champollion init uit om beschikbare voorinstellingen per taal te bekijken.

Voorbeeldvoorinstellingen

TaalVoorinstellingenStandaard
Fransformal-vous, casual-tuformal-vous
Koreaanspolite-haeyo, formal-hapsyo, casual-haepolite-haeyo
Japanspolite, formal-keigo, casualpolite
Duitsformal-Sie, casual-duformal-Sie
Thaisneutral-professional, polite-male, polite-femaleneutral-professional
Spaansneutral-professional, formal-usted, casual-tuteoneutral-professional

Zie Een Language Card Bijdragen voor de volledige specificatie, inclusief veldvalidatie en PR-checklist.


Zie Ook