Idiomas Suportados
champollion vem com Language Cards — arquivos de configuração estruturados para 50 idiomas. Cada card contém presets de registro, metadados do sistema de formalidade, flags de suporte a métodos, regras de tipografia e informações de script. Qualquer idioma que seu LLM conhece pode ser adicionado com uma única linha de configuração — estes são os que têm registros curados e prontos para produção.
Métodos de Tradução
Cada idioma pode usar um ou mais destes métodos de tradução:
| Ícone | Método | Como Funciona | Custo |
|---|---|---|---|
| 🟢 | Google Translate | Baseline de MT neural. 130+ idiomas. Apenas strings chave-valor — não consegue traduzir com segurança conteúdo Markdown. | ~$20/1M caracteres |
| 🔵 | LLM (OpenRouter) | Qualquer idioma que o modelo conhece. Prompts direcionados por registro. Lida com conteúdo chave-valor + Markdown. | Varia por modelo |
| 🟣 | LLM-Coached | LLM + dicionários de gramática + dados de coaching injetados nos prompts. Melhor para idiomas morfologicamente complexos. | Varia por modelo |
| 🟠 | API (Plugin) | Pipelines de tradução hospedados pela comunidade servidos via HTTP. Compatível com OCAP. | Varia por provedor |
Defina GOOGLE_TRANSLATE_API_KEY para Google Translate, ou OPENROUTER_API_KEY para métodos LLM. Veja Métodos de Tradução para detalhes completos.
Idiomas Prioritários
Estas são as localidades mais comumente solicitadas para aplicações web e mobile, listadas na ordem recomendada de acessibilidade-primeiro do champollion.
| Bandeira | Idioma | Código | LLM | Coached | Script | Notas | |
|---|---|---|---|---|---|---|---|
| 🇸🇦 | Árabe | ar | ✅ | ✅ | ✅ | — | RTL. Árabe Padrão Moderno (فصحى). |
| 🇵🇭 | Filipino (Taglish) | tl / fil | ✅ | ✅ | ✅ | — | Use fil em configs do Docusaurus. champollion resolve ambos. |
| 🇫🇷 | Francês | fr | ✅ | ✅ | ✅ | — | Forma você. Inclusivo de gênero (Connecté·e). |
| 🇪🇸 | Espanhol | es | ✅ | ✅ | ✅ | — | Neutro latino-americano. |
| 🇩🇪 | Alemão | de | ✅ | ✅ | ✅ | — | Forma Sie. Inclusivo de gênero (Benutzer:innen). |
| 🇯🇵 | Japonês | ja | ✅ | ✅ | ✅ | — | です/ます para corpo do texto, する para rótulos de UI. |
| 🇨🇳 | Chinês (Simplificado) | zh | ✅ | ✅ | ✅ | — | 简体中文. |
| 🇮🇹 | Italiano | it | ✅ | ✅ | ✅ | — | Forma Lei. |
| 🇧🇷 | Português (BR) | pt | ✅ | ✅ | ✅ | — | Português Brasileiro. |
| 🇰🇷 | Coreano | ko | ✅ | ✅ | ✅ | — | Registro polido 해요체. |
Principais Idiomas Mundiais
| Bandeira | Idioma | Código | LLM | Coached | Script | Notas | |
|---|---|---|---|---|---|---|---|
| 🇧🇩 | Bengali | bn | ✅ | ✅ | ✅ | — | Preferência শুদ্ধ ভাষা. |
| 🇧🇬 | Búlgaro | bg | ✅ | ✅ | ✅ | — | |
| 🇨🇿 | Tcheco | cs | ✅ | ✅ | ✅ | — | Vykání (forma vy). |
| 🇩🇰 | Dinamarquês | da | ✅ | ✅ | ✅ | — | |
| 🇬🇷 | Grego | el | ✅ | ✅ | ✅ | — | Δημοτική moderno. |
| 🇮🇷 | Persa | fa | ✅ | ✅ | ✅ | — | RTL. |
| 🇫🇮 | Finlandês | fi | ✅ | ✅ | ✅ | — | Sem gênero gramatical. |
| 🇮🇱 | Hebraico | he | ✅ | ✅ | ✅ | — | RTL. |
| 🇮🇳 | Hindi | hi | ✅ | ✅ | ✅ | — | शुद्ध हिन्दी. Empréstimos mínimos do inglês. |
| 🇭🇺 | Húngaro | hu | ✅ | ✅ | ✅ | — | Forma Ön. |
| 🇮🇩 | Indonésio | id | ✅ | ✅ | ✅ | — | |
| 🇲🇾 | Malaio | ms | ✅ | ✅ | ✅ | — | |
| 🇳🇱 | Holandês | nl | ✅ | ✅ | ✅ | — | Forma U. |
| 🇳🇴 | Norueguês | nb | ✅ | ✅ | ✅ | — | Bokmål. |
| 🇵🇱 | Polonês | pl | ✅ | ✅ | ✅ | — | Forma Pan/Pani. |
| 🇵🇹 | Português (EU) | pt-PT | ✅ | ✅ | ✅ | — | Português Europeu. |
| 🇷🇴 | Romeno | ro | ✅ | ✅ | ✅ | — | |
| 🇷🇺 | Russo | ru | ✅ | ✅ | ✅ | — | Forma Вы. |
| 🇸🇰 | Eslovaco | sk | ✅ | ✅ | ✅ | — | Vykanie (forma vy). |
| 🇷🇸 | Sérvio | sr | ✅ | ✅ | ✅ | 🔤 Latin→Cirílico | Conversor de script determinístico. |
| 🇸🇪 | Sueco | sv | ✅ | ✅ | ✅ | — | |
| 🇰🇪 | Suaíli | sw | ✅ | ✅ | ✅ | — | |
| 🇹🇭 | Tailandês | th | ✅ | ✅ | ✅ | — | Partículas de polidez ครับ/ค่ะ. |
| 🇹🇷 | Turco | tr | ✅ | ✅ | ✅ | — | Forma Siz. |
| 🇺🇦 | Ucraniano | uk | ✅ | ✅ | ✅ | — | Forma Ви. |
| 🇵🇰 | Urdu | ur | ✅ | ✅ | ✅ | — | RTL. Forma آپ. |
| 🇻🇳 | Vietnamita | vi | ✅ | ✅ | ✅ | — | |
| 🇹🇼 | Chinês (Tradicional) | zh-TW | ✅ | ✅ | ✅ | — | 繁體中文. |
| 🇬🇪 | Georgiano | ka | ✅ | ✅ | — | — | ქართული. Família Kartveliana. |
| 🇳🇬 | Iorubá | yo | ✅ | ✅ | — | — | Èdè Yorùbá. Tonal (3 tons). |
Variantes Regionais
| Bandeira | Idioma | Código | LLM | Coached | Script | Notas | |
|---|---|---|---|---|---|---|---|
| 🇲🇽 | Espanhol Mexicano | es-MX | ✅ | ✅ | ✅ | — | Forma tú. Registro caloroso. |
| 🇨🇦 | Francês Canadense | fr-CA | ✅ | ✅ | ✅ | — | Idiomas quebequenses. |
Idiomas Indígenas e de Baixos Recursos
Estes idiomas não são suportados por serviços de MT comerciais. champollion fornece as ferramentas para comunidades de linguagem construírem seus próprios métodos sob princípios OCAP.
| Idioma | Código | LLM | Coached | Script | Status | ||
|---|---|---|---|---|---|---|---|
| 🪶 | Plains Cree | crk | ❌ | ✅ | ✅ | 🔤 SRO→Silábico | 🚧 Em desenvolvimento |
| 🌄 | Quéchua | qu | ✅ | ✅ | — | — | Runasimi. Sufixos evidenciais. |
:::info Plains Cree está em desenvolvimento ativo O registro, infraestrutura de coaching, conversor de script e harness de avaliação para Plains Cree são todos funcionais, mas o pipeline de tradução ainda não foi lançado. Estamos trabalhando com comunidades de linguagem sob princípios OCAP para garantir qualidade antes do lançamento. Veja Suporte a um Idioma de Baixos Recursos para a história completa — e como você pode contribuir. :::
:::tip Adicionando mais idiomas de baixos recursos O sistema de plugin de método do champollion foi projetado para isso. Uma comunidade de linguagem pode construir um método de tradução personalizado, hospedá-lo sob seu próprio controle e servi-lo via método API. O Leaderboard de Métodos rastreia pontuações para qualquer par de idiomas — construa um método, execute o harness e reivindique a pontuação máxima. :::
Idiomas Construídos
Conlangs são suportados via registros LLM e conversores de script opcionais. Eles usam a mesma infraestrutura que idiomas reais — o gate de qualidade, sistema de coaching e pipeline de conversão de script funcionam de forma idêntica.
| Idioma | Código | LLM | Script | Notas | ||
|---|---|---|---|---|---|---|
| 🖖 | Klingon | tlh | ❌ | ✅ | 🔤 Romanização→pIqaD | Fonte PUA necessária. Vocabulário Marc Okrand. |
| 🧝 | Sindarin (Élfico Tolkien) | x-elvish-s | ❌ | ✅ | 🔤 Latin→Tengwar | Fonte PUA CSUR necessária. |
| 🏴☠️ | Inglês Pirata | x-pirate | ❌ | ✅ | — | Apenas registro. Metáforas náuticas. |
| 🦸 | Kryptoniano | x-kryptonian | ❌ | ✅ | 🔤 Latin→Kryptoniano | Fonte PUA necessária. |
| 🎭 | Inglês Shakespeariano | x-shakespeare | ❌ | ✅ | — | Apenas registro. Formas thee/thou, -eth/-est. |
| 🐸 | Fala Yoda | x-yoda | ❌ | ✅ | — | Apenas registro. Ordem de palavras OSV. |
Veja Conlangs, Scripts & Ortografia para requisitos de fonte PUA, limitações Unicode e como adicionar a sua.
Presets de Idioma
O assistente init suporta nomes de preset para configuração rápida. Você pode misturar presets com códigos individuais.
| Preset | Expande Para |
|---|---|
european | fr, de, es, it, pt, nl |
asian | ja, zh, ko |
global | fr, es, de, ja, zh, ko, pt, ar |
nordic | da, fi, nb, sv |
# Mix presets with individual codes
champollion init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja
Adicionando Qualquer Idioma
champollion pode traduzir para qualquer idioma que seu LLM conhece — a tabela acima apenas lista idiomas com presets de registro integrados. Para adicionar um idioma não listado, inclua seu código BCP-47 em sua configuração:
{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}
O LLM traduzirá usando seu conhecimento de treinamento do idioma. Definir um register lhe dá controle sobre tom, formalidade e convenções ortográficas. Veja Configuração para detalhes.
Language Cards
Cada idioma integrado tem um Language Card — um arquivo JSON unificado em shared/language-cards/ contendo todos os metadados: registros, formalidade, suporte a métodos, regras de tipografia, classificação genealógica, desafios linguísticos e recursos de NLP.
Arquitetura de Card Unificada
Cada card é carregado com antecedência na importação. Não há nível de referência separado — todos os dados vivem em um único arquivo por idioma. Os cards são enriquecidos de fontes autoritárias:
| Fonte | Dados |
|---|---|
| Glottolog | Classificação de família, cadeia de ancestralidade, Glottocode |
| WALS | Classificação de gênero, características tipológicas |
| CLDR | Script, direção, regras plurais, tipografia |
| ISO 15924 | Códigos de script |
Campos Principais do Card
| Campo | O Que Contém |
|---|---|
nativeName | Endônimo — o nome do idioma para si mesmo, em seu próprio script (ex: ქართული, Runasimi) |
classification | Âncora genealógica: família, gênero, cadeia de ancestralidade completa do Glottolog |
contactInfluences | Histórico de contato universal — camadas de empréstimo, superstrato, substrato |
| Sistema de formalidade | Distinção T-V, níveis de fala, keigo, partículas, etc. |
| Presets de registro | Presets de prompt LLM nomeados específicos para o caráter do idioma |
| Suporte a método | Quais APIs de tradução suportam este idioma |
| Orientação de gênero | Regras de gênero gramatical e dicas de escrita inclusiva |
| Script/direção | Código de script ISO 15924 e RTL/LTR |
| Regras | Tipografia (aspas, espaçamento), capitalização, categorias plurais |
glottocode | Identificador canônico do Glottolog para referência cruzada |
dataSources | Rastreamento de proveniência (ex: ["glottolog-5.3", "cldr-48"]) |
Scaffolding de um Novo Language Card
Use o gerador para fazer scaffold de um card a partir de fontes de dados autoritárias (IANA, CLDR, Glottolog):
# Preview what would be generated
node scripts/generate-language-card.mjs sw --dry-run
# Generate a unified card
node scripts/generate-language-card.mjs sw
O gerador popula automaticamente metadados (códigos, script, direção, plurais, aspas, suporte a método, classificação) e marca campos de julgamento linguístico como TODO para curação humana.
Usando Chaves de Preset
Em vez de escrever texto de registro completo, você pode usar um nome de chave de preset:
{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}
Champollion resolve a chave para o prompt de registro completo. Execute npx champollion init para ver presets disponíveis para cada idioma.
Presets de Exemplo
| Idioma | Presets | Padrão |
|---|---|---|
| Francês | formal-vous, casual-tu | formal-vous |
| Coreano | polite-haeyo, formal-hapsyo, casual-hae | polite-haeyo |
| Japonês | polite, formal-keigo, casual | polite |
| Alemão | formal-Sie, casual-du | formal-Sie |
| Tailandês | neutral-professional, polite-male, polite-female | neutral-professional |
| Espanhol | neutral-professional, formal-usted, casual-tuteo | neutral-professional |
Veja Contribuindo com um Language Card para a especificação completa, incluindo validação de campo e checklist de PR.
Veja Também
- Configuração — referência de configuração completa incluindo configuração de idioma
- Métodos de Tradução — como cada método funciona
- Conversores de Script — pipeline de conversão de script determinístico
- Conlangs, Scripts & Ortografia — fontes PUA, Unicode, adicionando conlangs
- Suporte a um Idioma de Baixos Recursos — construindo métodos para idiomas subutilizados