メインコンテンツへスキップ

言語カード引用手順

Champollion が言語カード上のすべての主張を一次資料まで追跡可能にする方法。


1. 問題の背景

言語カードには、話者数、危機的状況、接触影響、形態的特性、表記規則、メソッドサポートといった事実に基づく主張が含まれており、これらは検証可能でなければなりません。現状では:

  • dataSources フィールドは文字列のフラット配列(例:["cldr-48", "glottolog-5.3"])です
  • フィールドごとの引用粒度がありません
  • 「約280万人の話者」や「脆弱」といった主張には追跡可能な出典がありません
  • レビュアーはどの資料がどの主張を裏付けているかを判断できません

[!CAUTION] 出典のない主張は検証不可能な主張です。 専門的な厳密さを標榜するプロジェクトとして、言語カード上のすべての主張は、特定のバージョン管理された一次資料まで追跡可能でなければなりません。


2. 権威ある資料(優先度順)

主張の種類ごとに、以下の資料が権威あるものとして認められています。常に利用可能な最も優先度の高い資料を使用してください。

分類と識別情報

優先度資料対象範囲ライセンス引用方法
1Glottolog(マックス・プランク研究所)語族、系統、glottocodeCC-BY 4.0glottolog-5.x
2ISO 639-3(SIL)ISO コード、マクロ言語無償iso639-3-{date}
3WALS(マックス・プランク研究所)属の定義、類型論的特徴CC-BY 4.0wals-2024
4CLDR(Unicode)ロケールコード、スクリプトコード、複数形規則Unicode 利用規約cldr-{version}

話者の人口統計と言語活力

優先度資料対象範囲ライセンス引用方法
1国勢調査データ公式話者数様々(通常は公開)census-{country}-{year}
2Ethnologue話者数推計、EGIDS独自(サブスクリプション)ethnologue-{edition}
3UNESCO Atlas危機的状況無償unesco-atlas-{year}
4学術論文地域別話者調査論文ごとのライセンス{author}-{year}
5Katig Collectiveフィリピンの言語学術katig-{year}

[!WARNING] 人口統計に関する主張の一次資料として、Wikipedia、LLM が生成したテキスト、または自己知識を使用しないでください。 これらはせいぜい二次・三次資料です。常に一次データまで遡ってください。

メソッドサポート(翻訳 API の対応状況)

メソッド検証資料検証方法引用方法
Google Translate言語一覧API 呼び出しまたはドキュメントページgoogle-translate-{date}
DeepL言語一覧API 呼び出しdeepl-api-{date}
Microsoft Translator言語一覧ドキュメントページms-translator-{date}
LibreTranslate言語一覧API 呼び出しlibretranslate-{date}
NLLBFLORES READMEREADME + モデルカードnllb-200-{date}
LLM常に true該当なし(品質は様々)llm-assumed

DLS(デジタル言語サポート)

優先度資料対象範囲引用方法
1Simons et al. 2022DLS スコア(元の 143 ツール)simons-2022
2Ethnologue 第27版以降DLS スコア(拡張版 211 ツール)ethnologue-{edition}-dls

表記、複数形、スクリプト

優先度資料対象範囲引用方法
1CLDR複数形規則、引用符、数値フォーマットcldr-{version}
2Unicode CSURスクリプトコードiso15924-{date}
3出版された文法書言語固有の規則{author}-{year}

接触影響

優先度資料対象範囲引用方法
1出版された歴史言語学論文借用語研究、接触の歴史{author}-{year}
2参照文法書構造的影響の記述{grammar-title}-{year}
3WALS類型論的比較wals-{feature}-{year}

[!IMPORTANT] 接触影響の主張は出典を示すのが最も難しい項目です。 「スペイン語上層言語、深い影響、1571〜1898年」といった主張には歴史言語学の専門知識が必要です。出版された資料が見つからない場合は、推測するのではなく、主張に "citation_needed": true を付けてください。


3. 引用手順(ステップごと)

新しい言語カードを作成する場合

  1. 自動入力フィールドから始める:

    • node scripts/build-language-tree.mjs --enrich を実行 → Glottolog から classification を入力
    • dataSources"glottolog-{version}" を記録する
  2. CLDR データを追加する:

    • CLDR から複数形規則、引用符、スクリプトコードを参照する
    • dataSources"cldr-{version}" を記録する
  3. 話者の人口統計を調査する:

    • まず国勢調査データを確認する
    • Ethnologue と照合する(利用可能な場合)
    • UNESCO Atlas と照合する
    • 参照したすべての資料を dataSources に記録する
  4. メソッドサポートを確認する:

    • 各 API の言語一覧を確認する(記憶や推測に頼らない)
    • 確認日を記録する
  5. 接触影響を調査する:

    • 出版された歴史言語学論文を探す
    • 時期、種類、深さを引用とともに記録する
    • 出版された資料が存在しない場合は、影響エントリに "citation_needed": true を追加する
  6. 言語活力を調査する:

    • EGIDS について Ethnologue を確認する
    • 危機的状況について UNESCO Atlas を確認する
    • 資料間の相違点を記録する
  7. dataSources を入力する:

    • データを提供した資料だけでなく、参照したすべての資料を列挙する
    • 上記の表の引用形式を使用する

既存のカードを更新する場合

  1. dataSources を更新せずに事実に基づく主張を変更しない
  2. 話者数を更新する場合は、古い資料を削除して新しい資料を追加する
  3. メソッドサポートを追加する場合は、API に対して確認し、日付を記録する
  4. メソッドサポートの確認にはすべて日付を記録する — API の対応状況は頻繁に変わります

4. スキーマ拡張の提案:フィールドごとの引用

現在のスキーマ(フラットな dataSources

"dataSources": ["cldr-48", "glottolog-5.3"]

問題点: どのフィールドが CLDR から来たのか?どれが Glottolog から来たのか?どれが未引用なのか?

提案する拡張:構造化された dataSources

"dataSources": {
"classification": ["glottolog-5.3"],
"vitality.unescoStatus": ["unesco-atlas-2024"],
"vitality.egids": ["ethnologue-27"],
"vitality.speakerCount": ["census-ph-2020", "ethnologue-27"],
"rules.plurals": ["cldr-48"],
"rules.typography": ["cldr-48"],
"contactInfluences": ["blust-2013", "llamzon-1969"],
"methodSupport.googleTranslate": ["google-translate-2024-07"],
"methodSupport.nllb": ["nllb-200-2024-03"],
"dls": ["simons-2022", "ethnologue-27-dls"],
"pipelineReadiness": ["manual-assessment-2025-06"]
}

移行パス

これは後方互換性のある変更です:

  1. 既存のカードはフラット配列を維持します(引き続き有効)
  2. 新しいカードは構造化形式を使用します
  3. スキーマ検証は両方の形式を受け入れます
  4. 既存のカードはレビュー時に段階的に移行します

[!TIP] スクリプトで検証してください。 以下を行う validate-citations.mjs スクリプトを追加します:

  • すべてのカードに少なくとも classificationvitality の資料があることを確認する
  • フラットな dataSources 配列を持つカードにアップグレードのフラグを立てる
  • 日付付き確認のない methodSupport エントリについて警告する

5. 品質チェックリスト

言語カードの変更をマージする前に、以下を確認してください:

  • すべての話者数に資料がある(国勢調査または Ethnologue、Wikipedia は不可)
  • すべての UNESCO/EGIDS ステータスに資料がある
  • すべてのメソッドサポートフラグが実際の API に対して確認されている(推測ではない)
  • すべての接触影響に出版された学術資料があるか、または citation_needed が付いている
  • 分類が Glottolog から自動入力されている(手動で構築されていない)
  • dataSources に参照したすべての資料が列挙されている
  • LLM が生成した知識のみに依存している主張がない
  • ネイティブスピーカーがレビューした場合、humanReviewed にレビュアーの識別子と日付が設定されている

6. humanReviewed フィールド

言語カードスキーマには humanReviewed フィールドが含まれており、現在すべてのカードで null になっています。このフィールドは、ネイティブスピーカーまたは資格のある言語学者がカードをレビューした際に入力する必要があります:

"humanReviewed": {
"reviewer": "Prof. Kenneth Jamandre",
"affiliation": "University of the Philippines",
"date": "2026-06-08",
"scope": "full",
"notes": "Verified speaker count, vitality assessment, and contact influences."
}

[!IMPORTANT] コミュニティによるレビューが最高水準です。 自動化されたデータと学術論文は基盤を提供しますが、ネイティブスピーカーによるレビューが最終的な検証となります。これは特に以下の点において重要です:

  • 接触影響の主張(コミュニティのメンバーは実際に使われている借用語を知っています)
  • 言語活力の評価(コミュニティのメンバーは子どもたちがその言語を話しているかどうかを知っています)
  • 敬語・丁寧さのシステム(学術的な記述は日常的な使用パターンを見落とすことがあります)

7. この手順の参考資料

  1. Glottolog: https://glottolog.org — CC-BY 4.0
  2. ISO 639-3: https://iso639-3.sil.org — 無償
  3. WALS: https://wals.info — CC-BY 4.0
  4. CLDR: https://cldr.unicode.org — Unicode 利用規約
  5. Ethnologue: https://www.ethnologue.com — 独自(サブスクリプション)
  6. UNESCO Atlas: http://www.unesco.org/languages-atlas/ — 無償
  7. Simons et al. (2022): https://aclanthology.org/2022.coling-1.379/
  8. Champollion Language Card Spec: cli/website/docs/reference/language-card-spec.md