メインコンテンツへスキップ

サポートされている言語

champollion には Language Cards が付属しています。これは50言語分の構造化された設定ファイルです。各カードには、レジスタープリセット、敬語システムのメタデータ、翻訳方法のサポートフラグ、タイポグラフィルール、スクリプト情報が含まれています。LLM が知っている言語であれば、設定を1行追加するだけで対応できます。ここに掲載されているのは、厳選された本番環境対応のレジスターを持つ言語です。


翻訳方法

各言語は以下の翻訳方法を1つ以上使用できます。

アイコン方法仕組みコスト
🟢Google Translateニューラル MT ベースライン。130以上の言語に対応。キーと値の文字列のみ — Markdown コンテンツの翻訳には安全に使用できません。約 $20/100万文字
🔵LLM (OpenRouter)モデルが知っている任意の言語に対応。レジスター制御プロンプト。キーと値 + Markdown コンテンツを処理できます。モデルによって異なります
🟣LLM-CoachedLLM + 文法辞書 + コーチングデータをプロンプトに注入。形態論的に複雑な言語に最適です。モデルによって異なります
🟠API (Plugin)HTTP 経由で提供されるコミュニティホスト型の翻訳パイプライン。OCAP 対応プロバイダーによって異なります

Google Translate には GOOGLE_TRANSLATE_API_KEY を、LLM 方法には OPENROUTER_API_KEY を設定してください。詳細は 翻訳方法 をご覧ください。


優先言語

これらは Web およびモバイルアプリケーションで最もよくリクエストされるロケールで、champollion が推奨するアクセシビリティ優先の順番で掲載しています。

フラグ言語コードGoogleLLMCoachedスクリプト備考
🇸🇦アラビア語arRTL。現代標準アラビア語 (فصحى)。
🇵🇭フィリピン語 (Taglish)tl / filDocusaurus の設定では fil を使用してください。champollion は両方を解決します。
🇫🇷フランス語frVous 形。ジェンダーインクルーシブ (Connecté·e)。
🇪🇸スペイン語esラテンアメリカ中立形。
🇩🇪ドイツ語deSie 形。ジェンダーインクルーシブ (Benutzer:innen)。
🇯🇵日本語ja本文はです/ます体、UI ラベルはする形。
🇨🇳中国語(簡体字)zh简体中文。
🇮🇹イタリア語itLei 形。
🇧🇷ポルトガル語(ブラジル)ptブラジルポルトガル語。
🇰🇷韓国語ko해요체 丁寧レジスター。

主要世界言語

フラグ言語コードGoogleLLMCoachedスクリプト備考
🇧🇩ベンガル語bnশুদ্ধ ভাষা 優先。
🇧🇬ブルガリア語bg
🇨🇿チェコ語csVykání(vy 形)。
🇩🇰デンマーク語da
🇬🇷ギリシャ語el現代 Δημοτική。
🇮🇷ペルシャ語faRTL。
🇫🇮フィンランド語fi文法的な性別なし。
🇮🇱ヘブライ語heRTL。
🇮🇳ヒンディー語hiशुद्ध हिन्दी。英語からの借用語を最小限に。
🇭🇺ハンガリー語huÖn 形。
🇮🇩インドネシア語id
🇲🇾マレー語ms
🇳🇱オランダ語nlU 形。
🇳🇴ノルウェー語nbBokmål。
🇵🇱ポーランド語plPan/Pani 形。
🇵🇹ポルトガル語(EU)pt-PTヨーロッパポルトガル語。
🇷🇴ルーマニア語ro
🇷🇺ロシア語ruВы 形。
🇸🇰スロバキア語skVykanie(vy 形)。
🇷🇸セルビア語sr🔤 ラテン文字→キリル文字決定論的スクリプトコンバーター。
🇸🇪スウェーデン語sv
🇰🇪スワヒリ語sw
🇹🇭タイ語thครับ/ค่ะ 丁寧語助詞。
🇹🇷トルコ語trSiz 形。
🇺🇦ウクライナ語ukВи 形。
🇵🇰ウルドゥー語urRTL。آپ 形。
🇻🇳ベトナム語vi
🇹🇼中国語(繁体字)zh-TW繁體中文。
🇬🇪ジョージア語kaქართული。カルトヴェリ語族。
🇳🇬ヨルバ語yoÈdè Yorùbá。声調言語(3声調)。

地域変種

フラグ言語コードGoogleLLMCoachedスクリプト備考
🇲🇽メキシコスペイン語es-MXTú 形。温かみのあるレジスター。
🇨🇦カナダフランス語fr-CAケベック語のイディオム。

先住民言語・低リソース言語

これらの言語は商用 MT サービスではサポートされていません。champollion は、言語コミュニティが OCAP 原則 のもとで独自の翻訳方法を構築するためのツールを提供しています。

言語コードGoogleLLMCoachedスクリプトステータス
🪶Plains Creecrk🔤 SRO→音節文字🚧 開発中
🌄QuechuaquRunasimi。証拠性接尾辞あり。

:::info Plains Cree は現在開発中です Plains Cree のレジスター、コーチングインフラ、スクリプトコンバーター、評価ハーネスはすべて機能していますが、翻訳パイプラインはまだリリースされていません。リリース前に品質を確保するため、OCAP 原則 のもとで言語コミュニティと協力して取り組んでいます。詳細および貢献方法については、低リソース言語のサポート をご覧ください。 :::

:::tip 低リソース言語を追加する champollion のメソッドプラグインシステムはこのために設計されています。言語コミュニティは独自の翻訳方法を構築し、自分たちの管理下でホストし、API メソッド 経由で提供できます。Method Leaderboard は任意の言語ペアのスコアを追跡します。方法を構築し、ハーネスを実行して、トップスコアを獲得してください。 :::


人工言語

人工言語(Conlang)は LLM レジスターとオプションのスクリプトコンバーターを通じてサポートされています。実在の言語と同じインフラを使用しており、品質ゲート、コーチングシステム、スクリプト変換パイプラインはまったく同じように機能します。

言語コードGoogleLLMスクリプト備考
🖖クリンゴン語tlh🔤 ローマ字→pIqaDPUA フォント必須。Marc Okrand の語彙。
🧝シンダリン(トールキンのエルフ語)x-elvish-s🔤 ラテン文字→テングワールCSUR PUA フォント必須。
🏴‍☠️海賊英語x-pirateレジスターのみ。航海の比喩表現。
🦸クリプトン語x-kryptonian🔤 ラテン文字→クリプトン文字PUA フォント必須。
🎭シェイクスピア英語x-shakespeareレジスターのみ。Thee/thou、-eth/-est 形。
🐸ヨーダ語x-yodaレジスターのみ。OSV 語順。

PUA フォントの要件、Unicode の制限、および独自の人工言語の追加方法については、Conlangs、スクリプト、正書法 をご覧ください。


言語プリセット

init ウィザードは、素早いセットアップのためのプリセット名をサポートしています。プリセットと個別のコードを組み合わせることもできます。

プリセット展開先
europeanfr, de, es, it, pt, nl
asianja, zh, ko
globalfr, es, de, ja, zh, ko, pt, ar
nordicda, fi, nb, sv
# Mix presets with individual codes
champollion init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

任意の言語を追加する

champollion は LLM が知っている任意の言語 に翻訳できます。上記の表は組み込みのレジスタープリセットを持つ言語を掲載しているにすぎません。掲載されていない言語を追加するには、設定ファイルに BCP-47 コードを記述してください。

{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}

LLM はその言語に関するトレーニング知識を使って翻訳します。register を設定することで、トーン、フォーマリティ、正書法の規則を制御できます。詳細は 設定 をご覧ください。


Language Cards

各組み込み言語には Language Card があります。これは shared/language-cards/ にある統合 JSON ファイルで、レジスター、フォーマリティ、翻訳方法のサポート、タイポグラフィルール、系統分類、言語的な課題、NLP リソースなどすべてのメタデータが含まれています。

統合カードアーキテクチャ

各カードはインポート時に即座に読み込まれます。別途参照用のティアは存在せず、すべてのデータは言語ごとに1つのファイルに格納されています。カードは権威あるソースから情報が補完されています。

ソースデータ
Glottolog語族分類、祖先チェーン、Glottocode
WALS属分類、類型論的特徴
CLDRスクリプト、文字方向、複数形ルール、タイポグラフィ
ISO 15924スクリプトコード

主要なカードフィールド

フィールド内容
nativeName自称語名 — その言語が自分自身を呼ぶ名前、自言語のスクリプトで表記(例:ქართული、Runasimi)
classification系統的な基点:語族、属、Glottolog による完全な祖先チェーン
contactInfluences普遍的な接触史 — 借用層、上位言語、基層言語
敬語システムT-V 区別、スピーチレベル、敬語、助詞など
レジスタープリセットその言語の特性に合わせた名前付き LLM プロンプトプリセット
翻訳方法サポートこの言語をサポートしている翻訳 API
ジェンダーガイダンス文法的な性別のルールとインクルーシブな表現のヒント
スクリプト/文字方向ISO 15924 スクリプトコードと RTL/LTR
ルールタイポグラフィ(引用符、スペーシング)、大文字化、複数形カテゴリ
glottocodeクロスリファレンス用の正規 Glottolog 識別子
dataSources出典追跡(例:["glottolog-5.3", "cldr-48"]

新しい Language Card のスキャフォールディング

ジェネレーターを使用して、権威あるデータソース(IANA、CLDR、Glottolog)からカードをスキャフォールドできます。

# Preview what would be generated
node scripts/generate-language-card.mjs sw --dry-run

# Generate a unified card
node scripts/generate-language-card.mjs sw

ジェネレーターはメタデータ(コード、スクリプト、文字方向、複数形、引用符、翻訳方法サポート、分類)を自動入力し、言語的な判断が必要なフィールドを人間によるキュレーションのために TODO としてマークします。

プリセットキーの使用

完全なレジストリテキストを記述する代わりに、プリセットキー名を使用できます。

{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}

Champollion はキーを完全なレジスタープロンプトに解決します。各言語で利用可能なプリセットを確認するには npx champollion init を実行してください。

プリセットの例

言語プリセットデフォルト
フランス語formal-vouscasual-tuformal-vous
韓国語polite-haeyoformal-hapsyocasual-haepolite-haeyo
日本語politeformal-keigocasualpolite
ドイツ語formal-Siecasual-duformal-Sie
タイ語neutral-professionalpolite-malepolite-femaleneutral-professional
スペイン語neutral-professionalformal-ustedcasual-tuteoneutral-professional

完全な仕様(フィールドバリデーションおよび PR チェックリストを含む)については、Language Card の貢献 をご覧ください。


関連情報