Mga Sinusuportahang Wika
Ang champollion ay may kasamang Language Cards — mga structured configuration file para sa 50 wika. Ang bawat card ay naglalaman ng register presets, metadata ng formality system, method support flags, typography rules, at impormasyon sa script. Anumang wikang alam ng inyong LLM ay maaaring idagdag gamit ang isang config line — ito ang mga may curated, production-ready registers.
Mga Paraan ng Pagsasalin
Maaaring gumamit ang bawat wika ng isa o higit pa sa mga translation method na ito:
| Icon | Method | Paano Ito Gumagana | Gastos |
|---|---|---|---|
| 🟢 | Google Translate | Neural MT baseline. 130+ wika. Key-value strings lang — hindi ligtas na makapagsasalin ng Markdown content. | ~$20/1M chars |
| 🔵 | LLM (OpenRouter) | Anumang wikang alam ng model. Register-steered prompts. Humahawak ng key-value + Markdown content. | Nag-iiba ayon sa model |
| 🟣 | LLM-Coached | LLM + grammar dictionaries + coaching data na ini-inject sa prompts. Pinakamainam para sa mga wikang morphologically complex. | Nag-iiba ayon sa model |
| 🟠 | API (Plugin) | Community-hosted translation pipelines na inihahatid sa HTTP. OCAP-compatible. | Nag-iiba ayon sa provider |
Itakda ang GOOGLE_TRANSLATE_API_KEY para sa Google Translate, o OPENROUTER_API_KEY para sa LLM methods. Tingnan ang Translation Methods para sa buong detalye.
Mga Priority Language
Ito ang mga pinakakaraniwang hinihiling na locale para sa web at mobile applications, nakalista ayon sa inirerekomendang accessibility-first order ng champollion.
| Flag | Language | Code | LLM | Coached | Script | Notes | |
|---|---|---|---|---|---|---|---|
| 🇸🇦 | Arabic | ar | ✅ | ✅ | ✅ | — | RTL. Modern Standard Arabic (فصحى). |
| 🇵🇭 | Filipino (Taglish) | tl / fil | ✅ | ✅ | ✅ | — | Gamitin ang fil sa Docusaurus configs. Nire-resolve ng champollion ang pareho. |
| 🇫🇷 | French | fr | ✅ | ✅ | ✅ | — | Vous-form. Gender-inclusive (Connecté·e). |
| 🇪🇸 | Spanish | es | ✅ | ✅ | ✅ | — | Neutral Latin American. |
| 🇩🇪 | German | de | ✅ | ✅ | ✅ | — | Sie-form. Gender-inclusive (Benutzer:innen). |
| 🇯🇵 | Japanese | ja | ✅ | ✅ | ✅ | — | です/ます para sa body text, する para sa UI labels. |
| 🇨🇳 | Chinese (Simplified) | zh | ✅ | ✅ | ✅ | — | 简体中文. |
| 🇮🇹 | Italian | it | ✅ | ✅ | ✅ | — | Lei-form. |
| 🇧🇷 | Portuguese (BR) | pt | ✅ | ✅ | ✅ | — | Brazilian Portuguese. |
| 🇰🇷 | Korean | ko | ✅ | ✅ | ✅ | — | 해요체 polite register. |
Mga Pangunahing Wika sa Mundo
| Flag | Language | Code | LLM | Coached | Script | Notes | |
|---|---|---|---|---|---|---|---|
| 🇧🇩 | Bengali | bn | ✅ | ✅ | ✅ | — | Mas pinipili ang শুদ্ধ ভাষা. |
| 🇧🇬 | Bulgarian | bg | ✅ | ✅ | ✅ | — | |
| 🇨🇿 | Czech | cs | ✅ | ✅ | ✅ | — | Vykání (vy-form). |
| 🇩🇰 | Danish | da | ✅ | ✅ | ✅ | — | |
| 🇬🇷 | Greek | el | ✅ | ✅ | ✅ | — | Modern Δημοτική. |
| 🇮🇷 | Persian | fa | ✅ | ✅ | ✅ | — | RTL. |
| 🇫🇮 | Finnish | fi | ✅ | ✅ | ✅ | — | Walang grammatical gender. |
| 🇮🇱 | Hebrew | he | ✅ | ✅ | ✅ | — | RTL. |
| 🇮🇳 | Hindi | hi | ✅ | ✅ | ✅ | — | शुद्ध हिन्दी. Minimal na English loanwords. |
| 🇭🇺 | Hungarian | hu | ✅ | ✅ | ✅ | — | Ön-form. |
| 🇮🇩 | Indonesian | id | ✅ | ✅ | ✅ | — | |
| 🇲🇾 | Malay | ms | ✅ | ✅ | ✅ | — | |
| 🇳🇱 | Dutch | nl | ✅ | ✅ | ✅ | — | U-form. |
| 🇳🇴 | Norwegian | nb | ✅ | ✅ | ✅ | — | Bokmål. |
| 🇵🇱 | Polish | pl | ✅ | ✅ | ✅ | — | Pan/Pani form. |
| 🇵🇹 | Portuguese (EU) | pt-PT | ✅ | ✅ | ✅ | — | European Portuguese. |
| 🇷🇴 | Romanian | ro | ✅ | ✅ | ✅ | — | |
| 🇷🇺 | Russian | ru | ✅ | ✅ | ✅ | — | Вы-form. |
| 🇸🇰 | Slovak | sk | ✅ | ✅ | ✅ | — | Vykanie (vy-form). |
| 🇷🇸 | Serbian | sr | ✅ | ✅ | ✅ | 🔤 Latin→Cyrillic | Deterministic script converter. |
| 🇸🇪 | Swedish | sv | ✅ | ✅ | ✅ | — | |
| 🇰🇪 | Swahili | sw | ✅ | ✅ | ✅ | — | |
| 🇹🇭 | Thai | th | ✅ | ✅ | ✅ | — | ครับ/ค่ะ politeness particles. |
| 🇹🇷 | Turkish | tr | ✅ | ✅ | ✅ | — | Siz-form. |
| 🇺🇦 | Ukrainian | uk | ✅ | ✅ | ✅ | — | Ви-form. |
| 🇵🇰 | Urdu | ur | ✅ | ✅ | ✅ | — | RTL. آپ form. |
| 🇻🇳 | Vietnamese | vi | ✅ | ✅ | ✅ | — | |
| 🇹🇼 | Chinese (Traditional) | zh-TW | ✅ | ✅ | ✅ | — | 繁體中文. |
| 🇬🇪 | Georgian | ka | ✅ | ✅ | — | — | ქართული. Kartvelian family. |
| 🇳🇬 | Yoruba | yo | ✅ | ✅ | — | — | Èdè Yorùbá. Tonal (3 tono). |
Mga Regional Variant
| Flag | Language | Code | LLM | Coached | Script | Notes | |
|---|---|---|---|---|---|---|---|
| 🇲🇽 | Mexican Spanish | es-MX | ✅ | ✅ | ✅ | — | Tú-form. Warm register. |
| 🇨🇦 | Canadian French | fr-CA | ✅ | ✅ | ✅ | — | Québécois idioms. |
Mga Indigenous at Low-Resource Language
Hindi sinusuportahan ng commercial MT services ang mga wikang ito. Nagbibigay ang champollion ng tooling para makabuo ang mga language community ng sarili nilang methods sa ilalim ng OCAP principles.
| Language | Code | LLM | Coached | Script | Status | ||
|---|---|---|---|---|---|---|---|
| 🪶 | Plains Cree | crk | ❌ | ✅ | ✅ | 🔤 SRO→Syllabics | 🚧 Kasalukuyang ginagawa |
| 🌄 | Quechua | qu | ✅ | ✅ | — | — | Runasimi. Evidential suffixes. |
:::info Kasalukuyang aktibong ginagawa ang Plains Cree Ang register, coaching infrastructure, script converter, at evaluation harness para sa Plains Cree ay gumagana na lahat, ngunit ang translation pipeline ay hindi pa na-release. Nakikipagtulungan kami sa mga language community sa ilalim ng OCAP principles upang matiyak ang kalidad bago ang release. Tingnan ang Suportahan ang isang Low-Resource Language para sa buong kuwento — at kung paano kayo makapag-aambag. :::
:::tip Pagdaragdag ng higit pang low-resource languages Idinisenyo ang method plugin system ng champollion para rito. Maaaring bumuo ang isang language community ng custom translation method, i-host ito sa ilalim ng sarili nilang kontrol, at ihatid ito sa pamamagitan ng API method. Sinusubaybayan ng Method Leaderboard ang mga score para sa anumang language pair — bumuo ng method, patakbuhin ang harness, at kunin ang top score. :::
Mga Constructed Language
Sinusuportahan ang conlangs sa pamamagitan ng LLM registers at optional script converters. Ginagamit nila ang parehong infrastructure gaya ng mga tunay na wika — gumagana nang pareho ang quality gate, coaching system, at script conversion pipeline.
| Language | Code | LLM | Script | Notes | ||
|---|---|---|---|---|---|---|
| 🖖 | Klingon | tlh | ❌ | ✅ | 🔤 Romanization→pIqaD | Kailangan ng PUA font. Marc Okrand vocabulary. |
| 🧝 | Sindarin (Tolkien Elvish) | x-elvish-s | ❌ | ✅ | 🔤 Latin→Tengwar | Kailangan ng CSUR PUA font. |
| 🏴☠️ | Pirate English | x-pirate | ❌ | ✅ | — | Register lang. Nautical metaphors. |
| 🦸 | Kryptonian | x-kryptonian | ❌ | ✅ | 🔤 Latin→Kryptonian | Kailangan ng PUA font. |
| 🎭 | Shakespearean English | x-shakespeare | ❌ | ✅ | — | Register lang. Thee/thou, -eth/-est forms. |
| 🐸 | Yoda-speak | x-yoda | ❌ | ✅ | — | Register lang. OSV word order. |
Tingnan ang Conlangs, Scripts at Orthography para sa PUA font requirements, Unicode limitations, at kung paano magdagdag ng sarili ninyo.
Language Presets
Sinusuportahan ng init wizard ang preset names para sa mabilisang setup. Maaari ninyong ihalo ang presets sa individual codes.
| Preset | Nag-e-expand Sa |
|---|---|
european | fr, de, es, it, pt, nl |
asian | ja, zh, ko |
global | fr, es, de, ja, zh, ko, pt, ar |
nordic | da, fi, nb, sv |
# Mix presets with individual codes
champollion init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja
Pagdaragdag ng Anumang Wika
Maaaring magsalin ang champollion sa anumang wikang alam ng inyong LLM — inililista lang ng table sa itaas ang mga wikang may built-in register presets. Upang magdagdag ng wikang wala sa listahan, isama ang BCP-47 code nito sa inyong config:
{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}
Magsasalin ang LLM gamit ang training knowledge nito sa wika. Ang pagtatakda ng register ay nagbibigay sa inyo ng kontrol sa tono, formality, at orthographic conventions. Tingnan ang Configuration para sa mga detalye.
Language Cards
Ang bawat built-in na wika ay may Language Card — isang unified JSON file sa shared/language-cards/ na naglalaman ng lahat ng metadata: registers, formality, method support, typography rules, genealogical classification, linguistic challenges, at NLP resources.
Unified Card Architecture
Ang bawat card ay eagerly loaded sa import. Walang hiwalay na reference tier — lahat ng data ay nasa iisang file kada wika. Pinayayaman ang cards mula sa authoritative sources:
| Source | Data |
|---|---|
| Glottolog | Family classification, ancestry chain, Glottocode |
| WALS | Genus classification, typological features |
| CLDR | Script, direction, plural rules, typography |
| ISO 15924 | Script codes |
Mga Pangunahing Card Field
| Field | Nilalaman Nito |
|---|---|
nativeName | Endonym — pangalan ng wika para sa sarili nito, sa sarili nitong script (hal., ქართული, Runasimi) |
classification | Genealogical anchor: family, genus, buong ancestry chain mula sa Glottolog |
contactInfluences | Universal contact history — borrowing layers, superstrates, substrates |
| Formality system | T-V distinction, speech levels, keigo, particles, atbp. |
| Register presets | Named LLM prompt presets na partikular sa karakter ng wika |
| Method support | Aling translation APIs ang sumusuporta sa wikang ito |
| Gender guidance | Grammatical gender rules at inclusive writing tips |
| Script/direction | ISO 15924 script code at RTL/LTR |
| Rules | Typography (quotes, spacing), capitalization, plural categories |
glottocode | Canonical Glottolog identifier para sa cross-referencing |
dataSources | Provenance tracking (hal., ["glottolog-5.3", "cldr-48"]) |
Pag-scaffold ng Bagong Language Card
Gamitin ang generator upang mag-scaffold ng card mula sa authoritative data sources (IANA, CLDR, Glottolog):
# Preview what would be generated
node scripts/generate-language-card.mjs sw --dry-run
# Generate a unified card
node scripts/generate-language-card.mjs sw
Awtomatikong pina-populate ng generator ang metadata (codes, script, direction, plurals, quotes, method support, classification) at minamarkahan ang linguistic judgment fields bilang TODO para sa human curation.
Paggamit ng Preset Keys
Sa halip na magsulat ng buong register text, maaari kayong gumamit ng preset key name:
{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}
Nire-resolve ng Champollion ang key sa buong register prompt. Patakbuhin ang npx champollion init upang makita ang available presets para sa bawat wika.
Mga Halimbawang Preset
| Language | Presets | Default |
|---|---|---|
| French | formal-vous, casual-tu | formal-vous |
| Korean | polite-haeyo, formal-hapsyo, casual-hae | polite-haeyo |
| Japanese | polite, formal-keigo, casual | polite |
| German | formal-Sie, casual-du | formal-Sie |
| Thai | neutral-professional, polite-male, polite-female | neutral-professional |
| Spanish | neutral-professional, formal-usted, casual-tuteo | neutral-professional |
Tingnan ang Pag-contribute ng Language Card para sa buong spec, kabilang ang field validation at PR checklist.
Tingnan Din
- Configuration — buong config reference kabilang ang language setup
- Translation Methods — kung paano gumagana ang bawat method
- Script Converters — deterministic script conversion pipeline
- Conlangs, Scripts at Orthography — PUA fonts, Unicode, pagdaragdag ng conlangs
- Suportahan ang isang Low-Resource Language — pagbuo ng methods para sa underserved languages