Lumaktaw sa pangunahing nilalaman

Mga Sinusuportahang Wika

Ang champollion ay may kasamang Language Cards — mga structured configuration file para sa 50 wika. Ang bawat card ay naglalaman ng register presets, metadata ng formality system, method support flags, typography rules, at impormasyon sa script. Anumang wikang alam ng inyong LLM ay maaaring idagdag gamit ang isang config line — ito ang mga may curated, production-ready registers.


Mga Paraan ng Pagsasalin

Maaaring gumamit ang bawat wika ng isa o higit pa sa mga translation method na ito:

IconMethodPaano Ito GumaganaGastos
🟢Google TranslateNeural MT baseline. 130+ wika. Key-value strings lang — hindi ligtas na makapagsasalin ng Markdown content.~$20/1M chars
🔵LLM (OpenRouter)Anumang wikang alam ng model. Register-steered prompts. Humahawak ng key-value + Markdown content.Nag-iiba ayon sa model
🟣LLM-CoachedLLM + grammar dictionaries + coaching data na ini-inject sa prompts. Pinakamainam para sa mga wikang morphologically complex.Nag-iiba ayon sa model
🟠API (Plugin)Community-hosted translation pipelines na inihahatid sa HTTP. OCAP-compatible.Nag-iiba ayon sa provider

Itakda ang GOOGLE_TRANSLATE_API_KEY para sa Google Translate, o OPENROUTER_API_KEY para sa LLM methods. Tingnan ang Translation Methods para sa buong detalye.


Mga Priority Language

Ito ang mga pinakakaraniwang hinihiling na locale para sa web at mobile applications, nakalista ayon sa inirerekomendang accessibility-first order ng champollion.

FlagLanguageCodeGoogleLLMCoachedScriptNotes
🇸🇦ArabicarRTL. Modern Standard Arabic (فصحى).
🇵🇭Filipino (Taglish)tl / filGamitin ang fil sa Docusaurus configs. Nire-resolve ng champollion ang pareho.
🇫🇷FrenchfrVous-form. Gender-inclusive (Connecté·e).
🇪🇸SpanishesNeutral Latin American.
🇩🇪GermandeSie-form. Gender-inclusive (Benutzer:innen).
🇯🇵Japanesejaです/ます para sa body text, する para sa UI labels.
🇨🇳Chinese (Simplified)zh简体中文.
🇮🇹ItalianitLei-form.
🇧🇷Portuguese (BR)ptBrazilian Portuguese.
🇰🇷Koreanko해요체 polite register.

Mga Pangunahing Wika sa Mundo

FlagLanguageCodeGoogleLLMCoachedScriptNotes
🇧🇩BengalibnMas pinipili ang শুদ্ধ ভাষা.
🇧🇬Bulgarianbg
🇨🇿CzechcsVykání (vy-form).
🇩🇰Danishda
🇬🇷GreekelModern Δημοτική.
🇮🇷PersianfaRTL.
🇫🇮FinnishfiWalang grammatical gender.
🇮🇱HebrewheRTL.
🇮🇳Hindihiशुद्ध हिन्दी. Minimal na English loanwords.
🇭🇺HungarianhuÖn-form.
🇮🇩Indonesianid
🇲🇾Malayms
🇳🇱DutchnlU-form.
🇳🇴NorwegiannbBokmål.
🇵🇱PolishplPan/Pani form.
🇵🇹Portuguese (EU)pt-PTEuropean Portuguese.
🇷🇴Romanianro
🇷🇺RussianruВы-form.
🇸🇰SlovakskVykanie (vy-form).
🇷🇸Serbiansr🔤 Latin→CyrillicDeterministic script converter.
🇸🇪Swedishsv
🇰🇪Swahilisw
🇹🇭Thaithครับ/ค่ะ politeness particles.
🇹🇷TurkishtrSiz-form.
🇺🇦UkrainianukВи-form.
🇵🇰UrduurRTL. آپ form.
🇻🇳Vietnamesevi
🇹🇼Chinese (Traditional)zh-TW繁體中文.
🇬🇪Georgiankaქართული. Kartvelian family.
🇳🇬YorubayoÈdè Yorùbá. Tonal (3 tono).

Mga Regional Variant

FlagLanguageCodeGoogleLLMCoachedScriptNotes
🇲🇽Mexican Spanishes-MXTú-form. Warm register.
🇨🇦Canadian Frenchfr-CAQuébécois idioms.

Mga Indigenous at Low-Resource Language

Hindi sinusuportahan ng commercial MT services ang mga wikang ito. Nagbibigay ang champollion ng tooling para makabuo ang mga language community ng sarili nilang methods sa ilalim ng OCAP principles.

LanguageCodeGoogleLLMCoachedScriptStatus
🪶Plains Creecrk🔤 SRO→Syllabics🚧 Kasalukuyang ginagawa
🌄QuechuaquRunasimi. Evidential suffixes.

:::info Kasalukuyang aktibong ginagawa ang Plains Cree Ang register, coaching infrastructure, script converter, at evaluation harness para sa Plains Cree ay gumagana na lahat, ngunit ang translation pipeline ay hindi pa na-release. Nakikipagtulungan kami sa mga language community sa ilalim ng OCAP principles upang matiyak ang kalidad bago ang release. Tingnan ang Suportahan ang isang Low-Resource Language para sa buong kuwento — at kung paano kayo makapag-aambag. :::

:::tip Pagdaragdag ng higit pang low-resource languages Idinisenyo ang method plugin system ng champollion para rito. Maaaring bumuo ang isang language community ng custom translation method, i-host ito sa ilalim ng sarili nilang kontrol, at ihatid ito sa pamamagitan ng API method. Sinusubaybayan ng Method Leaderboard ang mga score para sa anumang language pair — bumuo ng method, patakbuhin ang harness, at kunin ang top score. :::


Mga Constructed Language

Sinusuportahan ang conlangs sa pamamagitan ng LLM registers at optional script converters. Ginagamit nila ang parehong infrastructure gaya ng mga tunay na wika — gumagana nang pareho ang quality gate, coaching system, at script conversion pipeline.

LanguageCodeGoogleLLMScriptNotes
🖖Klingontlh🔤 Romanization→pIqaDKailangan ng PUA font. Marc Okrand vocabulary.
🧝Sindarin (Tolkien Elvish)x-elvish-s🔤 Latin→TengwarKailangan ng CSUR PUA font.
🏴‍☠️Pirate Englishx-pirateRegister lang. Nautical metaphors.
🦸Kryptonianx-kryptonian🔤 Latin→KryptonianKailangan ng PUA font.
🎭Shakespearean Englishx-shakespeareRegister lang. Thee/thou, -eth/-est forms.
🐸Yoda-speakx-yodaRegister lang. OSV word order.

Tingnan ang Conlangs, Scripts at Orthography para sa PUA font requirements, Unicode limitations, at kung paano magdagdag ng sarili ninyo.


Language Presets

Sinusuportahan ng init wizard ang preset names para sa mabilisang setup. Maaari ninyong ihalo ang presets sa individual codes.

PresetNag-e-expand Sa
europeanfr, de, es, it, pt, nl
asianja, zh, ko
globalfr, es, de, ja, zh, ko, pt, ar
nordicda, fi, nb, sv
# Mix presets with individual codes
champollion init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

Pagdaragdag ng Anumang Wika

Maaaring magsalin ang champollion sa anumang wikang alam ng inyong LLM — inililista lang ng table sa itaas ang mga wikang may built-in register presets. Upang magdagdag ng wikang wala sa listahan, isama ang BCP-47 code nito sa inyong config:

{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}

Magsasalin ang LLM gamit ang training knowledge nito sa wika. Ang pagtatakda ng register ay nagbibigay sa inyo ng kontrol sa tono, formality, at orthographic conventions. Tingnan ang Configuration para sa mga detalye.


Language Cards

Ang bawat built-in na wika ay may Language Card — isang unified JSON file sa shared/language-cards/ na naglalaman ng lahat ng metadata: registers, formality, method support, typography rules, genealogical classification, linguistic challenges, at NLP resources.

Unified Card Architecture

Ang bawat card ay eagerly loaded sa import. Walang hiwalay na reference tier — lahat ng data ay nasa iisang file kada wika. Pinayayaman ang cards mula sa authoritative sources:

SourceData
GlottologFamily classification, ancestry chain, Glottocode
WALSGenus classification, typological features
CLDRScript, direction, plural rules, typography
ISO 15924Script codes

Mga Pangunahing Card Field

FieldNilalaman Nito
nativeNameEndonym — pangalan ng wika para sa sarili nito, sa sarili nitong script (hal., ქართული, Runasimi)
classificationGenealogical anchor: family, genus, buong ancestry chain mula sa Glottolog
contactInfluencesUniversal contact history — borrowing layers, superstrates, substrates
Formality systemT-V distinction, speech levels, keigo, particles, atbp.
Register presetsNamed LLM prompt presets na partikular sa karakter ng wika
Method supportAling translation APIs ang sumusuporta sa wikang ito
Gender guidanceGrammatical gender rules at inclusive writing tips
Script/directionISO 15924 script code at RTL/LTR
RulesTypography (quotes, spacing), capitalization, plural categories
glottocodeCanonical Glottolog identifier para sa cross-referencing
dataSourcesProvenance tracking (hal., ["glottolog-5.3", "cldr-48"])

Pag-scaffold ng Bagong Language Card

Gamitin ang generator upang mag-scaffold ng card mula sa authoritative data sources (IANA, CLDR, Glottolog):

# Preview what would be generated
node scripts/generate-language-card.mjs sw --dry-run

# Generate a unified card
node scripts/generate-language-card.mjs sw

Awtomatikong pina-populate ng generator ang metadata (codes, script, direction, plurals, quotes, method support, classification) at minamarkahan ang linguistic judgment fields bilang TODO para sa human curation.

Paggamit ng Preset Keys

Sa halip na magsulat ng buong register text, maaari kayong gumamit ng preset key name:

{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}

Nire-resolve ng Champollion ang key sa buong register prompt. Patakbuhin ang npx champollion init upang makita ang available presets para sa bawat wika.

Mga Halimbawang Preset

LanguagePresetsDefault
Frenchformal-vous, casual-tuformal-vous
Koreanpolite-haeyo, formal-hapsyo, casual-haepolite-haeyo
Japanesepolite, formal-keigo, casualpolite
Germanformal-Sie, casual-duformal-Sie
Thaineutral-professional, polite-male, polite-femaleneutral-professional
Spanishneutral-professional, formal-usted, casual-tuteoneutral-professional

Tingnan ang Pag-contribute ng Language Card para sa buong spec, kabilang ang field validation at PR checklist.


Tingnan Din