跳转到主要内容

支持的语言

champollion 配备了语言卡片 — 50 种语言的结构化配置文件。每张卡片包含寄存器预设、正式程度系统元数据、方法支持标志、排版规则和文字信息。任何你的 LLM 知道的语言都可以通过单行配置添加 — 这些是具有精心策划、生产就绪寄存器的语言。


翻译方法

每种语言可以使用以下一种或多种翻译方法:

图标方法工作原理成本
🟢Google Translate神经机器翻译基线。130+ 种语言。仅限键值字符串 — 无法安全翻译 Markdown 内容。~$20/1M 字符
🔵LLM (OpenRouter)模型知道的任何语言。寄存器引导提示。处理键值 + Markdown 内容。因模型而异
🟣LLM-CoachedLLM + 语法字典 + 注入到提示中的教练数据。最适合形态复杂的语言。因模型而异
🟠API (Plugin)社区托管的翻译管道通过 HTTP 提供。OCAP 兼容因提供商而异

为 Google Translate 设置 GOOGLE_TRANSLATE_API_KEY,或为 LLM 方法设置 OPENROUTER_API_KEY。详见翻译方法


优先语言

这些是网络和移动应用最常请求的区域设置,按 champollion 推荐的无障碍优先顺序列出。

旗帜语言代码GoogleLLMCoached文字备注
🇸🇦阿拉伯语arRTL。现代标准阿拉伯语 (فصحى)。
🇵🇭菲律宾语 (Taglish)tl / fil在 Docusaurus 配置中使用 fil。champollion 解析两者。
🇫🇷法语frVous 形式。性别包容性 (Connecté·e)。
🇪🇸西班牙语es中立拉丁美洲。
🇩🇪德语deSie 形式。性别包容性 (Benutzer:innen)。
🇯🇵日语ja正文使用 です/ます,UI 标签使用 する。
🇨🇳中文 (简体)zh简体中文。
🇮🇹意大利语itLei 形式。
🇧🇷葡萄牙语 (巴西)pt巴西葡萄牙语。
🇰🇷韩语ko해요체 礼貌寄存器。

主要世界语言

旗帜语言代码GoogleLLMCoached文字备注
🇧🇩孟加拉语bnশুদ্ধ ভাষা 偏好。
🇧🇬保加利亚语bg
🇨🇿捷克语csVykání (vy 形式)。
🇩🇰丹麦语da
🇬🇷希腊语el现代 Δημοτική。
🇮🇷波斯语faRTL。
🇫🇮芬兰语fi无语法性别。
🇮🇱希伯来语heRTL。
🇮🇳印地语hiशुद्ध हिन्दी。最少英语借词。
🇭🇺匈牙利语huÖn 形式。
🇮🇩印度尼西亚语id
🇲🇾马来语ms
🇳🇱荷兰语nlU 形式。
🇳🇴挪威语nb书面挪威语。
🇵🇱波兰语plPan/Pani 形式。
🇵🇹葡萄牙语 (欧洲)pt-PT欧洲葡萄牙语。
🇷🇴罗马尼亚语ro
🇷🇺俄语ruВы 形式。
🇸🇰斯洛伐克语skVykanie (vy 形式)。
🇷🇸塞尔维亚语sr🔤 拉丁→西里尔文确定性文字转换器。
🇸🇪瑞典语sv
🇰🇪斯瓦希里语sw
🇹🇭泰语thครับ/ค่ะ 礼貌粒子。
🇹🇷土耳其语trSiz 形式。
🇺🇦乌克兰语ukВи 形式。
🇵🇰乌尔都语urRTL。آپ 形式。
🇻🇳越南语vi
🇹🇼中文 (繁体)zh-TW繁體中文。
🇬🇪格鲁吉亚语kaქართული。卡特维尔语族。
🇳🇬约鲁巴语yoÈdè Yorùbá。声调语言 (3 个声调)。

地区变体

旗帜语言代码GoogleLLMCoached文字备注
🇲🇽墨西哥西班牙语es-MXTú 形式。温暖寄存器。
🇨🇦加拿大法语fr-CA魁北克习语。

土著语言和低资源语言

这些语言不受商业机器翻译服务支持。champollion 为语言社区提供工具,以在 OCAP 原则下构建自己的方法。

语言代码GoogleLLMCoached文字状态
🪶平原克里语crk🔤 SRO→音节文字🚧 开发中
🌄克丘亚语quRunasimi。证据后缀。

:::info 平原克里语正在积极开发中 平原克里语的寄存器、教练基础设施、文字转换器和评估工具都可以正常工作,但翻译管道尚未发布。我们正在 OCAP 原则下与语言社区合作,以确保发布前的质量。详见支持低资源语言 — 以及你如何能做出贡献。 :::

:::tip 添加更多低资源语言 champollion 的方法插件系统就是为此设计的。语言社区可以构建自定义翻译方法,在自己的控制下托管,并通过 API 方法提供。方法排行榜跟踪任何语言对的分数 — 构建方法、运行工具,并声称最高分数。 :::


构造语言

通过 LLM 寄存器和可选的文字转换器支持构造语言。它们使用与真实语言相同的基础设施 — 质量门、教练系统和文字转换管道的工作方式完全相同。

语言代码GoogleLLM文字备注
🖖克林贡语tlh🔤 罗马化→pIqaD需要 PUA 字体。Marc Okrand 词汇。
🧝辛达林语 (托尔金精灵语)x-elvish-s🔤 拉丁→Tengwar需要 CSUR PUA 字体。
🏴‍☠️海盗英语x-pirate仅寄存器。航海隐喻。
🦸氪星语x-kryptonian🔤 拉丁→氪星文需要 PUA 字体。
🎭莎士比亚英语x-shakespeare仅寄存器。Thee/thou、-eth/-est 形式。
🐸尤达说话方式x-yoda仅寄存器。OSV 词序。

详见构造语言、文字和正字法了解 PUA 字体要求、Unicode 限制以及如何添加你自己的。


语言预设

init 向导支持预设名称以快速设置。你可以混合预设和单个代码。

预设展开为
europeanfr, de, es, it, pt, nl
asianja, zh, ko
globalfr, es, de, ja, zh, ko, pt, ar
nordicda, fi, nb, sv
# Mix presets with individual codes
champollion init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

添加任何语言

champollion 可以翻译到你的 LLM 知道的任何语言 — 上表只列出了具有内置寄存器预设的语言。要添加未列出的语言,请在配置中包含其 BCP-47 代码:

{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}

LLM 将使用其对该语言的训练知识进行翻译。设置 register 让你控制语调、正式程度和正字法约定。详见配置


语言卡片

每种内置语言都有一张语言卡片shared/language-cards/ 中的统一 JSON 文件,包含所有元数据:寄存器、正式程度、方法支持、排版规则、系谱分类、语言学挑战和 NLP 资源。

统一卡片架构

每张卡片在导入时急切加载。没有单独的参考层 — 所有数据都存在于每种语言的单个文件中。卡片从权威来源进行丰富:

来源数据
Glottolog族系分类、祖先链、Glottocode
WALS属分类、类型学特征
CLDR文字、方向、复数规则、排版
ISO 15924文字代码

关键卡片字段

字段包含内容
nativeName内族名 — 语言用其自己的文字对自己的称呼 (例如 ქართული、Runasimi)
classification系谱锚点:族系、属、来自 Glottolog 的完整祖先链
contactInfluences通用接触历史 — 借用层、上层语言、下层语言
正式程度系统T-V 区分、言语级别、敬语、粒子等。
寄存器预设特定于语言特征的命名 LLM 提示预设
方法支持哪些翻译 API 支持此语言
性别指导语法性别规则和包容性写作提示
文字/方向ISO 15924 文字代码和 RTL/LTR
规则排版 (引号、间距)、大小写、复数类别
glottocode规范 Glottolog 标识符用于交叉引用
dataSources来源跟踪 (例如 ["glottolog-5.3", "cldr-48"])

搭建新语言卡片

使用生成器从权威数据源 (IANA、CLDR、Glottolog) 搭建卡片:

# Preview what would be generated
node scripts/generate-language-card.mjs sw --dry-run

# Generate a unified card
node scripts/generate-language-card.mjs sw

生成器自动填充元数据 (代码、文字、方向、复数、引号、方法支持、分类),并将语言学判断字段标记为 TODO 以供人工策划。

使用预设键

你可以使用预设键名而不是编写完整的寄存器文本:

{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}

Champollion 将键解析为完整的寄存器提示。运行 npx champollion init 查看每种语言的可用预设。

示例预设

语言预设默认
法语formal-vouscasual-tuformal-vous
韩语polite-haeyoformal-hapsyocasual-haepolite-haeyo
日语politeformal-keigocasualpolite
德语formal-Siecasual-duformal-Sie
泰语neutral-professionalpolite-malepolite-femaleneutral-professional
西班牙语neutral-professionalformal-ustedcasual-tuteoneutral-professional

详见贡献语言卡片了解完整规范,包括字段验证和 PR 检查清单。


另见