サポートされている言語
champollion には Language Cards が付属しています。これは50言語分の構造化された設定ファイルです。各カードには、レジスタープリセット、敬語システムのメタデータ、翻訳方法のサポートフラグ、タイポグラフィルール、スクリプト情報が含まれています。LLM が知っている言語であれば、設定を1行追加するだけで対応できます。ここに掲載されているのは、厳選された本番環境対応のレジスターを持つ言語です。
翻訳方法
各言語は以下の翻訳方法を1つ以上使用できます。
| アイコン | 方法 | 仕組み | コスト |
|---|---|---|---|
| 🟢 | Google Translate | ニューラル MT ベースライン。130以上の言語に対応。キーと値の文字列のみ — Markdown コンテンツの翻訳には安全に使用できません。 | 約 $20/100万文字 |
| 🔵 | LLM (OpenRouter) | モデルが知っている任意の言語に対応。レジスター制御プロンプト。キーと値 + Markdown コンテンツを処理できます。 | モデルによって異なります |
| 🟣 | LLM-Coached | LLM + 文法辞書 + コーチングデータをプロンプトに注入。形態論的に複雑な言語に最適です。 | モデルによって異なります |
| 🟠 | API (Plugin) | HTTP 経由で提供されるコミュニティホスト型の翻訳パイプライン。OCAP 対応。 | プロバイダーによって異なります |
Google Translate には GOOGLE_TRANSLATE_API_KEY を、LLM 方法には OPENROUTER_API_KEY を設定してください。詳細は 翻訳方法 をご覧ください。
優先言語
これらは Web およびモバイルアプリケーションで最もよくリクエストされるロケールで、champollion が推奨するアクセシビリティ優先の順番で掲載しています。
| フラグ | 言語 | コード | LLM | Coached | スクリプト | 備考 | |
|---|---|---|---|---|---|---|---|
| 🇸🇦 | アラビア語 | ar | ✅ | ✅ | ✅ | — | RTL。現代標準アラビア語 (فصحى)。 |
| 🇵🇭 | フィリピン語 (Taglish) | tl / fil | ✅ | ✅ | ✅ | — | Docusaurus の設定では fil を使用してください。champollion は両方を解決します。 |
| 🇫🇷 | フランス語 | fr | ✅ | ✅ | ✅ | — | Vous 形。ジェンダーインクルーシブ (Connecté·e)。 |
| 🇪🇸 | スペイン語 | es | ✅ | ✅ | ✅ | — | ラテンアメリカ中立形。 |
| 🇩🇪 | ドイツ語 | de | ✅ | ✅ | ✅ | — | Sie 形。ジェンダーインクルーシブ (Benutzer:innen)。 |
| 🇯🇵 | 日本語 | ja | ✅ | ✅ | ✅ | — | 本文はです/ます体、UI ラベルはする形。 |
| 🇨🇳 | 中国語(簡体字) | zh | ✅ | ✅ | ✅ | — | 简体中文。 |
| 🇮🇹 | イタリア語 | it | ✅ | ✅ | ✅ | — | Lei 形。 |
| 🇧🇷 | ポルトガル語(ブラジル) | pt | ✅ | ✅ | ✅ | — | ブラジルポルトガル語。 |
| 🇰🇷 | 韓国語 | ko | ✅ | ✅ | ✅ | — | 해요체 丁寧レジスター。 |
主要世界言語
| フラグ | 言語 | コード | LLM | Coached | スクリプト | 備考 | |
|---|---|---|---|---|---|---|---|
| 🇧🇩 | ベンガル語 | bn | ✅ | ✅ | ✅ | — | শুদ্ধ ভাষা 優先。 |
| 🇧🇬 | ブルガリア語 | bg | ✅ | ✅ | ✅ | — | |
| 🇨🇿 | チェコ語 | cs | ✅ | ✅ | ✅ | — | Vykání(vy 形)。 |
| 🇩🇰 | デンマーク語 | da | ✅ | ✅ | ✅ | — | |
| 🇬🇷 | ギリシャ語 | el | ✅ | ✅ | ✅ | — | 現代 Δημοτική。 |
| 🇮🇷 | ペルシャ語 | fa | ✅ | ✅ | ✅ | — | RTL。 |
| 🇫🇮 | フィンランド語 | fi | ✅ | ✅ | ✅ | — | 文法的な性別なし。 |
| 🇮🇱 | ヘブライ語 | he | ✅ | ✅ | ✅ | — | RTL。 |
| 🇮🇳 | ヒンディー語 | hi | ✅ | ✅ | ✅ | — | शुद्ध हिन्दी。英語からの借用語を最小限に。 |
| 🇭🇺 | ハンガリー語 | hu | ✅ | ✅ | ✅ | — | Ön 形。 |
| 🇮🇩 | インドネシア語 | id | ✅ | ✅ | ✅ | — | |
| 🇲🇾 | マレー語 | ms | ✅ | ✅ | ✅ | — | |
| 🇳🇱 | オランダ語 | nl | ✅ | ✅ | ✅ | — | U 形。 |
| 🇳🇴 | ノルウェー語 | nb | ✅ | ✅ | ✅ | — | Bokmål。 |
| 🇵🇱 | ポーランド語 | pl | ✅ | ✅ | ✅ | — | Pan/Pani 形。 |
| 🇵🇹 | ポルトガル語(EU) | pt-PT | ✅ | ✅ | ✅ | — | ヨーロッパポルトガル語。 |
| 🇷🇴 | ルーマニア語 | ro | ✅ | ✅ | ✅ | — | |
| 🇷🇺 | ロシア語 | ru | ✅ | ✅ | ✅ | — | Вы 形。 |
| 🇸🇰 | スロバキア語 | sk | ✅ | ✅ | ✅ | — | Vykanie(vy 形)。 |
| 🇷🇸 | セルビア語 | sr | ✅ | ✅ | ✅ | 🔤 ラテン文字→キリル文字 | 決定論的スクリプトコンバーター。 |
| 🇸🇪 | スウェーデン語 | sv | ✅ | ✅ | ✅ | — | |
| 🇰🇪 | スワヒリ語 | sw | ✅ | ✅ | ✅ | — | |
| 🇹🇭 | タイ語 | th | ✅ | ✅ | ✅ | — | ครับ/ค่ะ 丁寧語助詞。 |
| 🇹🇷 | トルコ語 | tr | ✅ | ✅ | ✅ | — | Siz 形。 |
| 🇺🇦 | ウクライナ語 | uk | ✅ | ✅ | ✅ | — | Ви 形。 |
| 🇵🇰 | ウルドゥー語 | ur | ✅ | ✅ | ✅ | — | RTL。آپ 形。 |
| 🇻🇳 | ベトナム語 | vi | ✅ | ✅ | ✅ | — | |
| 🇹🇼 | 中国語(繁体字) | zh-TW | ✅ | ✅ | ✅ | — | 繁體中文。 |
| 🇬🇪 | ジョージア語 | ka | ✅ | ✅ | — | — | ქართული。カルトヴェリ語族。 |
| 🇳🇬 | ヨルバ語 | yo | ✅ | ✅ | — | — | Èdè Yorùbá。声調言語(3声調)。 |
地域変種
| フラグ | 言語 | コード | LLM | Coached | スクリプト | 備考 | |
|---|---|---|---|---|---|---|---|
| 🇲🇽 | メキシコスペイン語 | es-MX | ✅ | ✅ | ✅ | — | Tú 形。温かみのあるレジスター。 |
| 🇨🇦 | カナダフランス語 | fr-CA | ✅ | ✅ | ✅ | — | ケベック語のイディオム。 |
先住民言語・低リソース言語
これらの言語は商用 MT サービスではサポートされていません。champollion は、言語コミュニティが OCAP 原則 のもとで独自の翻訳方法を構築するためのツールを提供しています。
| 言語 | コード | LLM | Coached | スクリプト | ステータス | ||
|---|---|---|---|---|---|---|---|
| 🪶 | Plains Cree | crk | ❌ | ✅ | ✅ | 🔤 SRO→音節文字 | 🚧 開発中 |
| 🌄 | Quechua | qu | ✅ | ✅ | — | — | Runasimi。証拠性接尾辞あり。 |
:::info Plains Cree は現在開発中です Plains Cree のレジスター、コーチングインフラ、スクリプトコンバーター、評価ハーネスはすべて機能していますが、翻訳パイプラインはまだリリースされていません。リリース前に品質を確保するため、OCAP 原則 のもとで言語コミュニティと協力して取り組んでいます。詳細および貢献方法については、低リソース言語のサポート をご覧ください。 :::
:::tip 低リソース言語を追加する champollion のメソッドプラグインシステムはこのために設計されています。言語コミュニティは独自の翻訳方法を構築し、自分たちの管理下でホストし、API メソッド 経由で提供できます。Method Leaderboard は任意の言語ペアのスコアを追跡します。方法を構築し、ハーネスを実行して、トップスコアを獲得してください。 :::
人工言語
人工言語(Conlang)は LLM レジスターとオプションのスクリプトコンバーターを通じてサポートされています。実在の言語と同じインフラを使用しており、品質ゲート、コーチングシステム、スクリプト変換パイプラインはまったく同じように機能します。
| 言語 | コード | LLM | スクリプト | 備考 | ||
|---|---|---|---|---|---|---|
| 🖖 | クリンゴン語 | tlh | ❌ | ✅ | 🔤 ローマ字→pIqaD | PUA フォント必須。Marc Okrand の語彙。 |
| 🧝 | シンダリン(トールキンのエルフ語) | x-elvish-s | ❌ | ✅ | 🔤 ラテン文字→テングワール | CSUR PUA フォント必須。 |
| 🏴☠️ | 海賊英語 | x-pirate | ❌ | ✅ | — | レジスターのみ。航海の比喩表現。 |
| 🦸 | クリプトン語 | x-kryptonian | ❌ | ✅ | 🔤 ラテン文字→クリプトン文字 | PUA フォント必須。 |
| 🎭 | シェイクスピア英語 | x-shakespeare | ❌ | ✅ | — | レジスターのみ。Thee/thou、-eth/-est 形。 |
| 🐸 | ヨーダ語 | x-yoda | ❌ | ✅ | — | レジスターのみ。OSV 語順。 |
PUA フォントの要件、Unicode の制限、および独自の人工言語の追加方法については、Conlangs、スクリプト、正書法 をご覧ください。
言語プリセット
init ウィザードは、素早いセットアップのためのプリセット名をサポートしています。プリセットと個別のコードを組み合わせることもできます。
| プリセット | 展開先 |
|---|---|
european | fr, de, es, it, pt, nl |
asian | ja, zh, ko |
global | fr, es, de, ja, zh, ko, pt, ar |
nordic | da, fi, nb, sv |
# Mix presets with individual codes
champollion init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja
任意の言語を追加する
champollion は LLM が知っている任意の言語 に翻訳できます。上記の表は組み込みのレジスタープリセットを持つ言語を掲載しているにすぎません。掲載されていない言語を追加するには、設定ファイルに BCP-47 コードを記述してください。
{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}
LLM はその言語に関するトレーニング知識を使って翻訳します。register を設定することで、トーン、フォーマリティ、正書法の規則を制御できます。詳細は 設定 をご覧ください。
Language Cards
各組み込み言語には Language Card があります。これは shared/language-cards/ にある統合 JSON ファイルで、レジスター、フォーマリティ、翻訳方法のサポート、タイポグラフィルール、系統分類、言語的な課題、NLP リソースなどすべてのメタデータが含まれています。
統合カードアーキテクチャ
各カードはインポート時に即座に読み込まれます。別途参照用のティアは存在せず、すべてのデータは言語ごとに1つのファイルに格納されています。カードは権威あるソースから情報が補完されています。
| ソース | データ |
|---|---|
| Glottolog | 語族分類、祖先チェーン、Glottocode |
| WALS | 属分類、類型論的特徴 |
| CLDR | スクリプト、文字方向、複数形ルール、タイポグラフィ |
| ISO 15924 | スクリプトコード |
主要なカードフィールド
| フィールド | 内容 |
|---|---|
nativeName | 自称語名 — その言語が自分自身を呼ぶ名前、自言語のスクリプトで表記(例:ქართული、Runasimi) |
classification | 系統的な基点:語族、属、Glottolog による完全な祖先チェーン |
contactInfluences | 普遍的な接触史 — 借用層、上位言語、基層言語 |
| 敬語システム | T-V 区別、スピーチレベル、敬語、助詞など |
| レジスタープリセット | その言語の特性に合わせた名前付き LLM プロンプトプリセット |
| 翻訳方法サポート | この言語をサポートしている翻訳 API |
| ジェンダーガイダンス | 文法的な性別のルールとインクルーシブな表現のヒント |
| スクリプト/文字方向 | ISO 15924 スクリプトコードと RTL/LTR |
| ルール | タイポグラフィ(引用符、スペーシング)、大文字化、複数形カテゴリ |
glottocode | クロスリファレンス用の正規 Glottolog 識別子 |
dataSources | 出典追跡(例:["glottolog-5.3", "cldr-48"]) |
新しい Language Card のスキャフォールディング
ジェネレーターを使用して、権威あるデータソース(IANA、CLDR、Glottolog)からカードをスキャフォールドできます。
# Preview what would be generated
node scripts/generate-language-card.mjs sw --dry-run
# Generate a unified card
node scripts/generate-language-card.mjs sw
ジェネレーターはメタデータ(コード、スクリプト、文字方向、複数形、引用符、翻訳方法サポート、分類)を自動入力し、言語的な判断が必要なフィールドを人間によるキュレーションのために TODO としてマークします。
プリセットキーの使用
完全なレジストリテキストを記述する代わりに、プリセットキー名を使用できます。
{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}
Champollion はキーを完全なレジスタープロンプトに解決します。各言語で利用可能なプリセットを確認するには npx champollion init を実行してください。
プリセットの例
| 言語 | プリセット | デフォルト |
|---|---|---|
| フランス語 | formal-vous、casual-tu | formal-vous |
| 韓国語 | polite-haeyo、formal-hapsyo、casual-hae | polite-haeyo |
| 日本語 | polite、formal-keigo、casual | polite |
| ドイツ語 | formal-Sie、casual-du | formal-Sie |
| タイ語 | neutral-professional、polite-male、polite-female | neutral-professional |
| スペイン語 | neutral-professional、formal-usted、casual-tuteo | neutral-professional |
完全な仕様(フィールドバリデーションおよび PR チェックリストを含む)については、Language Card の貢献 をご覧ください。
関連情報
- 設定 — 言語設定を含む完全な設定リファレンス
- 翻訳方法 — 各方法の仕組み
- スクリプトコンバーター — 決定論的スクリプト変換パイプライン
- Conlangs、スクリプト、正書法 — PUA フォント、Unicode、人工言語の追加
- 低リソース言語のサポート — サポートが不十分な言語のための翻訳方法の構築