Ir para o conteúdo principal

Idiomas Suportados

champollion vem com Language Cards — arquivos de configuração estruturados para 50 idiomas. Cada card contém presets de registro, metadados do sistema de formalidade, flags de suporte a métodos, regras de tipografia e informações de script. Qualquer idioma que seu LLM conhece pode ser adicionado com uma única linha de configuração — estes são os que têm registros curados e prontos para produção.


Métodos de Tradução

Cada idioma pode usar um ou mais destes métodos de tradução:

ÍconeMétodoComo FuncionaCusto
🟢Google TranslateBaseline de MT neural. 130+ idiomas. Apenas strings chave-valor — não consegue traduzir com segurança conteúdo Markdown.~$20/1M caracteres
🔵LLM (OpenRouter)Qualquer idioma que o modelo conhece. Prompts direcionados por registro. Lida com conteúdo chave-valor + Markdown.Varia por modelo
🟣LLM-CoachedLLM + dicionários de gramática + dados de coaching injetados nos prompts. Melhor para idiomas morfologicamente complexos.Varia por modelo
🟠API (Plugin)Pipelines de tradução hospedados pela comunidade servidos via HTTP. Compatível com OCAP.Varia por provedor

Defina GOOGLE_TRANSLATE_API_KEY para Google Translate, ou OPENROUTER_API_KEY para métodos LLM. Veja Métodos de Tradução para detalhes completos.


Idiomas Prioritários

Estas são as localidades mais comumente solicitadas para aplicações web e mobile, listadas na ordem recomendada de acessibilidade-primeiro do champollion.

BandeiraIdiomaCódigoGoogleLLMCoachedScriptNotas
🇸🇦ÁrabearRTL. Árabe Padrão Moderno (فصحى).
🇵🇭Filipino (Taglish)tl / filUse fil em configs do Docusaurus. champollion resolve ambos.
🇫🇷FrancêsfrForma você. Inclusivo de gênero (Connecté·e).
🇪🇸EspanholesNeutro latino-americano.
🇩🇪AlemãodeForma Sie. Inclusivo de gênero (Benutzer:innen).
🇯🇵Japonêsjaです/ます para corpo do texto, する para rótulos de UI.
🇨🇳Chinês (Simplificado)zh简体中文.
🇮🇹ItalianoitForma Lei.
🇧🇷Português (BR)ptPortuguês Brasileiro.
🇰🇷CoreanokoRegistro polido 해요체.

Principais Idiomas Mundiais

BandeiraIdiomaCódigoGoogleLLMCoachedScriptNotas
🇧🇩BengalibnPreferência শুদ্ধ ভাষা.
🇧🇬Búlgarobg
🇨🇿TchecocsVykání (forma vy).
🇩🇰Dinamarquêsda
🇬🇷GregoelΔημοτική moderno.
🇮🇷PersafaRTL.
🇫🇮FinlandêsfiSem gênero gramatical.
🇮🇱HebraicoheRTL.
🇮🇳Hindihiशुद्ध हिन्दी. Empréstimos mínimos do inglês.
🇭🇺HúngarohuForma Ön.
🇮🇩Indonésioid
🇲🇾Malaioms
🇳🇱HolandêsnlForma U.
🇳🇴NorueguêsnbBokmål.
🇵🇱PolonêsplForma Pan/Pani.
🇵🇹Português (EU)pt-PTPortuguês Europeu.
🇷🇴Romenoro
🇷🇺RussoruForma Вы.
🇸🇰EslovacoskVykanie (forma vy).
🇷🇸Sérviosr🔤 Latin→CirílicoConversor de script determinístico.
🇸🇪Suecosv
🇰🇪Suaílisw
🇹🇭TailandêsthPartículas de polidez ครับ/ค่ะ.
🇹🇷TurcotrForma Siz.
🇺🇦UcranianoukForma Ви.
🇵🇰UrduurRTL. Forma آپ.
🇻🇳Vietnamitavi
🇹🇼Chinês (Tradicional)zh-TW繁體中文.
🇬🇪Georgianokaქართული. Família Kartveliana.
🇳🇬IorubáyoÈdè Yorùbá. Tonal (3 tons).

Variantes Regionais

BandeiraIdiomaCódigoGoogleLLMCoachedScriptNotas
🇲🇽Espanhol Mexicanoes-MXForma tú. Registro caloroso.
🇨🇦Francês Canadensefr-CAIdiomas quebequenses.

Idiomas Indígenas e de Baixos Recursos

Estes idiomas não são suportados por serviços de MT comerciais. champollion fornece as ferramentas para comunidades de linguagem construírem seus próprios métodos sob princípios OCAP.

IdiomaCódigoGoogleLLMCoachedScriptStatus
🪶Plains Creecrk🔤 SRO→Silábico🚧 Em desenvolvimento
🌄QuéchuaquRunasimi. Sufixos evidenciais.

:::info Plains Cree está em desenvolvimento ativo O registro, infraestrutura de coaching, conversor de script e harness de avaliação para Plains Cree são todos funcionais, mas o pipeline de tradução ainda não foi lançado. Estamos trabalhando com comunidades de linguagem sob princípios OCAP para garantir qualidade antes do lançamento. Veja Suporte a um Idioma de Baixos Recursos para a história completa — e como você pode contribuir. :::

:::tip Adicionando mais idiomas de baixos recursos O sistema de plugin de método do champollion foi projetado para isso. Uma comunidade de linguagem pode construir um método de tradução personalizado, hospedá-lo sob seu próprio controle e servi-lo via método API. O Leaderboard de Métodos rastreia pontuações para qualquer par de idiomas — construa um método, execute o harness e reivindique a pontuação máxima. :::


Idiomas Construídos

Conlangs são suportados via registros LLM e conversores de script opcionais. Eles usam a mesma infraestrutura que idiomas reais — o gate de qualidade, sistema de coaching e pipeline de conversão de script funcionam de forma idêntica.

IdiomaCódigoGoogleLLMScriptNotas
🖖Klingontlh🔤 Romanização→pIqaDFonte PUA necessária. Vocabulário Marc Okrand.
🧝Sindarin (Élfico Tolkien)x-elvish-s🔤 Latin→TengwarFonte PUA CSUR necessária.
🏴‍☠️Inglês Piratax-pirateApenas registro. Metáforas náuticas.
🦸Kryptonianox-kryptonian🔤 Latin→KryptonianoFonte PUA necessária.
🎭Inglês Shakespearianox-shakespeareApenas registro. Formas thee/thou, -eth/-est.
🐸Fala Yodax-yodaApenas registro. Ordem de palavras OSV.

Veja Conlangs, Scripts & Ortografia para requisitos de fonte PUA, limitações Unicode e como adicionar a sua.


Presets de Idioma

O assistente init suporta nomes de preset para configuração rápida. Você pode misturar presets com códigos individuais.

PresetExpande Para
europeanfr, de, es, it, pt, nl
asianja, zh, ko
globalfr, es, de, ja, zh, ko, pt, ar
nordicda, fi, nb, sv
# Mix presets with individual codes
champollion init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

Adicionando Qualquer Idioma

champollion pode traduzir para qualquer idioma que seu LLM conhece — a tabela acima apenas lista idiomas com presets de registro integrados. Para adicionar um idioma não listado, inclua seu código BCP-47 em sua configuração:

{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}

O LLM traduzirá usando seu conhecimento de treinamento do idioma. Definir um register lhe dá controle sobre tom, formalidade e convenções ortográficas. Veja Configuração para detalhes.


Language Cards

Cada idioma integrado tem um Language Card — um arquivo JSON unificado em shared/language-cards/ contendo todos os metadados: registros, formalidade, suporte a métodos, regras de tipografia, classificação genealógica, desafios linguísticos e recursos de NLP.

Arquitetura de Card Unificada

Cada card é carregado com antecedência na importação. Não há nível de referência separado — todos os dados vivem em um único arquivo por idioma. Os cards são enriquecidos de fontes autoritárias:

FonteDados
GlottologClassificação de família, cadeia de ancestralidade, Glottocode
WALSClassificação de gênero, características tipológicas
CLDRScript, direção, regras plurais, tipografia
ISO 15924Códigos de script

Campos Principais do Card

CampoO Que Contém
nativeNameEndônimo — o nome do idioma para si mesmo, em seu próprio script (ex: ქართული, Runasimi)
classificationÂncora genealógica: família, gênero, cadeia de ancestralidade completa do Glottolog
contactInfluencesHistórico de contato universal — camadas de empréstimo, superstrato, substrato
Sistema de formalidadeDistinção T-V, níveis de fala, keigo, partículas, etc.
Presets de registroPresets de prompt LLM nomeados específicos para o caráter do idioma
Suporte a métodoQuais APIs de tradução suportam este idioma
Orientação de gêneroRegras de gênero gramatical e dicas de escrita inclusiva
Script/direçãoCódigo de script ISO 15924 e RTL/LTR
RegrasTipografia (aspas, espaçamento), capitalização, categorias plurais
glottocodeIdentificador canônico do Glottolog para referência cruzada
dataSourcesRastreamento de proveniência (ex: ["glottolog-5.3", "cldr-48"])

Scaffolding de um Novo Language Card

Use o gerador para fazer scaffold de um card a partir de fontes de dados autoritárias (IANA, CLDR, Glottolog):

# Preview what would be generated
node scripts/generate-language-card.mjs sw --dry-run

# Generate a unified card
node scripts/generate-language-card.mjs sw

O gerador popula automaticamente metadados (códigos, script, direção, plurais, aspas, suporte a método, classificação) e marca campos de julgamento linguístico como TODO para curação humana.

Usando Chaves de Preset

Em vez de escrever texto de registro completo, você pode usar um nome de chave de preset:

{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}

Champollion resolve a chave para o prompt de registro completo. Execute npx champollion init para ver presets disponíveis para cada idioma.

Presets de Exemplo

IdiomaPresetsPadrão
Francêsformal-vous, casual-tuformal-vous
Coreanopolite-haeyo, formal-hapsyo, casual-haepolite-haeyo
Japonêspolite, formal-keigo, casualpolite
Alemãoformal-Sie, casual-duformal-Sie
Tailandêsneutral-professional, polite-male, polite-femaleneutral-professional
Espanholneutral-professional, formal-usted, casual-tuteoneutral-professional

Veja Contribuindo com um Language Card para a especificação completa, incluindo validação de campo e checklist de PR.


Veja Também