Accéder au contenu principal

Langues Prises en Charge

champollion est fourni avec des Cartes de Langue — des fichiers de configuration structurés pour 50 langues. Chaque carte contient des présets de registre, des métadonnées du système de formalité, des drapeaux de support de méthode, des règles typographiques et des informations de script. Toute langue que votre LLM connaît peut être ajoutée avec une seule ligne de configuration — ce sont celles avec des registres curés et prêts pour la production.


Méthodes de Traduction

Chaque langue peut utiliser une ou plusieurs de ces méthodes de traduction :

IcôneMéthodeFonctionnementCoût
🟢Google TranslateBaseline de traduction automatique neuronale. 130+ langues. Chaînes clé-valeur uniquement — ne peut pas traduire en toute sécurité le contenu Markdown.~$20/1M caractères
🔵LLM (OpenRouter)Toute langue que le modèle connaît. Invites dirigées par registre. Gère le contenu clé-valeur + Markdown.Varie selon le modèle
🟣LLM-CoachedLLM + dictionnaires grammaticaux + données de coaching injectées dans les invites. Optimal pour les langues morphologiquement complexes.Varie selon le modèle
🟠API (Plugin)Pipelines de traduction hébergés par la communauté servis via HTTP. Compatible OCAP.Varie selon le fournisseur

Définissez GOOGLE_TRANSLATE_API_KEY pour Google Translate, ou OPENROUTER_API_KEY pour les méthodes LLM. Consultez Méthodes de Traduction pour plus de détails.


Langues Prioritaires

Ce sont les paramètres régionaux les plus couramment demandés pour les applications web et mobiles, listés dans l'ordre recommandé par champollion en mettant l'accessibilité en avant.

DrapeauLangueCodeGoogleLLMCoachedScriptNotes
🇸🇦ArabearRTL. Arabe standard moderne (فصحى).
🇵🇭Philippin (Taglish)tl / filUtilisez fil dans les configurations Docusaurus. champollion résout les deux.
🇫🇷FrançaisfrVous-form. Inclusif de genre (Connecté·e).
🇪🇸EspagnolesNeutre latino-américain.
🇩🇪AllemanddeSie-form. Inclusif de genre (Benutzer:innen).
🇯🇵Japonaisjaです/ます pour le corps du texte, する pour les étiquettes d'interface.
🇨🇳Chinois (Simplifié)zh简体中文.
🇮🇹ItalienitLei-form.
🇧🇷Portugais (BR)ptPortugais brésilien.
🇰🇷CoréenkoRegistre poli 해요체.

Grandes Langues Mondiales

DrapeauLangueCodeGoogleLLMCoachedScriptNotes
🇧🇩BengalibnPréférence শুদ্ধ ভাষা.
🇧🇬Bulgarebg
🇨🇿TchèquecsVykání (vy-form).
🇩🇰Danoisda
🇬🇷GrecelΔημοτική moderne.
🇮🇷PersanfaRTL.
🇫🇮FinnoisfiPas de genre grammatical.
🇮🇱HébreuheRTL.
🇮🇳Hindihiशुद्ध हिन्दी. Emprunts anglais minimaux.
🇭🇺HongroishuÖn-form.
🇮🇩Indonésienid
🇲🇾Malaisms
🇳🇱NéerlandaisnlU-form.
🇳🇴NorvégiennbBokmål.
🇵🇱PolonaisplForme Pan/Pani.
🇵🇹Portugais (EU)pt-PTPortugais européen.
🇷🇴Roumainro
🇷🇺RusseruВы-form.
🇸🇰SlovaqueskVykanie (vy-form).
🇷🇸Serbesr🔤 Latin→CyrilliqueConvertisseur de script déterministe.
🇸🇪Suédoissv
🇰🇪Swahilisw
🇹🇭ThaïthParticules de politesse ครับ/ค่ะ.
🇹🇷TurctrSiz-form.
🇺🇦UkrainienukВи-form.
🇵🇰OurdouurRTL. Forme آپ.
🇻🇳Vietnamienvi
🇹🇼Chinois (Traditionnel)zh-TW繁體中文.
🇬🇪Géorgienkaქართული. Famille kartvelienne.
🇳🇬YorubayoÈdè Yorùbá. Tonal (3 tons).

Variantes Régionales

DrapeauLangueCodeGoogleLLMCoachedScriptNotes
🇲🇽Espagnol mexicaines-MXTú-form. Registre chaleureux.
🇨🇦Français canadienfr-CAIdiomes québécois.

Langues Autochtones et Peu Dotées en Ressources

Ces langues ne sont pas prises en charge par les services de traduction automatique commerciaux. champollion fournit les outils permettant aux communautés linguistiques de construire leurs propres méthodes selon les principes OCAP.

LangueCodeGoogleLLMCoachedScriptStatut
🪶Cri des Plainescrk🔤 SRO→Syllabaires🚧 En développement
🌄QuechuaquRunasimi. Suffixes d'évidence.

:::info Le Cri des Plaines est en développement actif Le registre, l'infrastructure de coaching, le convertisseur de script et le harnais d'évaluation pour le Cri des Plaines sont tous fonctionnels, mais le pipeline de traduction n'a pas encore été publié. Nous travaillons avec les communautés linguistiques selon les principes OCAP pour assurer la qualité avant la publication. Consultez Soutenir une Langue Peu Dotée en Ressources pour l'histoire complète — et comment vous pouvez contribuer. :::

:::tip Ajouter d'autres langues peu dotées en ressources Le système de plugins de méthode de champollion est conçu pour cela. Une communauté linguistique peut construire une méthode de traduction personnalisée, l'héberger sous son propre contrôle, et la servir via la méthode API. Le Classement des Méthodes suit les scores pour toute paire de langues — construisez une méthode, exécutez le harnais, et réclamez le meilleur score. :::


Langues Construites

Les conlangs sont pris en charge via les registres LLM et les convertisseurs de script optionnels. Ils utilisent la même infrastructure que les langues réelles — la porte de qualité, le système de coaching et le pipeline de conversion de script fonctionnent de manière identique.

LangueCodeGoogleLLMScriptNotes
🖖Klingontlh🔤 Romanisation→pIqaDPolice PUA requise. Vocabulaire de Marc Okrand.
🧝Sindarin (Elfique Tolkien)x-elvish-s🔤 Latin→TengwarPolice PUA CSUR requise.
🏴‍☠️Anglais Piratex-pirateRegistre uniquement. Métaphores nautiques.
🦸Kryptonienx-kryptonian🔤 Latin→KryptonienPolice PUA requise.
🎭Anglais Shakespearienx-shakespeareRegistre uniquement. Formes thee/thou, -eth/-est.
🐸Parler de Yodax-yodaRegistre uniquement. Ordre des mots OSV.

Consultez Conlangs, Scripts et Orthographe pour les exigences de police PUA, les limitations Unicode et comment ajouter les vôtres.


Présets de Langue

L'assistant init prend en charge les noms de présets pour une configuration rapide. Vous pouvez mélanger les présets avec des codes individuels.

PresetExpands To
europeanfr, de, es, it, pt, nl
asianja, zh, ko
globalfr, es, de, ja, zh, ko, pt, ar
nordicda, fi, nb, sv
# Mix presets with individual codes
champollion init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

Ajouter Toute Langue

champollion peut traduire vers toute langue que votre LLM connaît — le tableau ci-dessus liste simplement les langues avec des présets de registre intégrés. Pour ajouter une langue non listée, incluez son code BCP-47 dans votre configuration :

{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}

Le LLM traduira en utilisant sa connaissance d'entraînement de la langue. Définir un register vous donne le contrôle sur le ton, la formalité et les conventions orthographiques. Consultez Configuration pour plus de détails.


Cartes de Langue

Chaque langue intégrée a une Carte de Langue — un fichier JSON unifié dans shared/language-cards/ contenant toutes les métadonnées : registres, formalité, support de méthode, règles typographiques, classification généalogique, défis linguistiques et ressources PNL.

Architecture de Carte Unifiée

Chaque carte est chargée avec impatience à l'importation. Il n'y a pas de niveau de référence séparé — toutes les données vivent dans un seul fichier par langue. Les cartes sont enrichies à partir de sources faisant autorité :

SourceDonnées
GlottologClassification familiale, chaîne d'ascendance, Glottocode
WALSClassification de genre, caractéristiques typologiques
CLDRScript, direction, règles de pluriel, typographie
ISO 15924Codes de script

Champs Clés de la Carte

ChampCe qu'il Contient
nativeNameEndonym — le nom de la langue pour elle-même, dans son propre script (p. ex., ქართული, Runasimi)
classificationAncre généalogique : famille, genre, chaîne d'ascendance complète de Glottolog
contactInfluencesHistorique de contact universel — couches d'emprunt, superstrats, substrats
Système de formalitéDistinction T-V, niveaux de discours, keigo, particules, etc.
Présets de registrePrésets d'invite LLM nommés spécifiques au caractère de la langue
Support de méthodeQuelles API de traduction prennent en charge cette langue
Guidance de genreRègles de genre grammatical et conseils d'écriture inclusive
Script/directionCode de script ISO 15924 et RTL/LTR
RèglesTypographie (guillemets, espacement), capitalisation, catégories de pluriel
glottocodeIdentifiant Glottolog canonique pour la référence croisée
dataSourcesSuivi de provenance (p. ex., ["glottolog-5.3", "cldr-48"])

Échafaudage d'une Nouvelle Carte de Langue

Utilisez le générateur pour échafauder une carte à partir de sources de données faisant autorité (IANA, CLDR, Glottolog) :

# Preview what would be generated
node scripts/generate-language-card.mjs sw --dry-run

# Generate a unified card
node scripts/generate-language-card.mjs sw

Le générateur remplit automatiquement les métadonnées (codes, script, direction, pluriels, guillemets, support de méthode, classification) et marque les champs de jugement linguistique comme TODO pour la curation humaine.

Utilisation des Clés de Preset

Au lieu d'écrire le texte de registre complet, vous pouvez utiliser un nom de clé de preset :

{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}

Champollion résout la clé au prompt de registre complet. Exécutez npx champollion init pour voir les présets disponibles pour chaque langue.

Exemples de Présets

LanguePrésetsPar Défaut
Françaisformal-vous, casual-tuformal-vous
Coréenpolite-haeyo, formal-hapsyo, casual-haepolite-haeyo
Japonaispolite, formal-keigo, casualpolite
Allemandformal-Sie, casual-duformal-Sie
Thaïneutral-professional, polite-male, polite-femaleneutral-professional
Espagnolneutral-professional, formal-usted, casual-tuteoneutral-professional

Consultez Contribuer une Carte de Langue pour la spécification complète, y compris la validation des champs et la liste de contrôle des PR.


Voir Aussi