ข้ามไปยังเนื้อหาหลัก

ขั้นตอนการอ้างอิงบัตรข้อมูลภาษา

วิธีที่ Champollion ตรวจสอบให้แน่ใจว่าทุกข้อความในบัตรข้อมูลภาษาสามารถสืบค้นกลับไปยังแหล่งข้อมูลหลักได้


1. ปัญหา

บัตรข้อมูลภาษาประกอบด้วยข้อความเชิงข้อเท็จจริง — จำนวนผู้พูด สถานะความเสี่ยง อิทธิพลจากการสัมผัสภาษา คุณสมบัติทางสัณฐานวิทยา ข้อกำหนดด้านการพิมพ์ การรองรับวิธีการแปล — ซึ่งต้องสามารถตรวจสอบได้ ในปัจจุบัน:

  • ฟิลด์ dataSources เป็น array แบบแบนของสตริง (เช่น ["cldr-48", "glottolog-5.3"])
  • ไม่มีการระบุแหล่งอ้างอิงในระดับต่อฟิลด์
  • ข้อความเช่น "~2.8M speakers" หรือ "vulnerable" ไม่มีที่มาที่สามารถสืบค้นได้
  • ผู้ตรวจสอบไม่สามารถระบุได้ว่าแหล่งข้อมูลใดรองรับข้อความใด

[!CAUTION] ข้อความที่ไม่มีแหล่งอ้างอิงคือข้อความที่ไม่สามารถตรวจสอบได้ สำหรับโปรเจกต์ที่วางตำแหน่งตัวเองว่ามีความเข้มงวดในระดับมืออาชีพ ทุกข้อความในบัตรข้อมูลภาษาต้องสามารถสืบค้นกลับไปยังแหล่งข้อมูลหลักที่เฉพาะเจาะจงและมีการกำหนดเวอร์ชันได้


2. แหล่งข้อมูลที่เชื่อถือได้ (จัดลำดับตามความสำคัญ)

สำหรับข้อความแต่ละประเภท แหล่งข้อมูลต่อไปนี้ถือเป็นแหล่งอ้างอิงที่เชื่อถือได้ ให้เลือกใช้แหล่งข้อมูลที่มีลำดับสูงสุดที่มีอยู่เสมอ

การจำแนกประเภทและอัตลักษณ์

ลำดับแหล่งข้อมูลครอบคลุมสัญญาอนุญาตวิธีอ้างอิง
1Glottolog (Max Planck)ตระกูลภาษา บรรพบุรุษ glottocodeCC-BY 4.0glottolog-5.x
2ISO 639-3 (SIL)รหัส ISO, macrolanguagesฟรีiso639-3-{date}
3WALS (Max Planck)คำจำกัดความ genus, คุณลักษณะทางประเภทวิทยาCC-BY 4.0wals-2024
4CLDR (Unicode)รหัส locale, รหัสอักษร, กฎพหูพจน์Unicode ToScldr-{version}

ข้อมูลประชากรผู้พูดและความมีชีวิตชีวาของภาษา

ลำดับแหล่งข้อมูลครอบคลุมสัญญาอนุญาตวิธีอ้างอิง
1ข้อมูลสำมะโนประชากรแห่งชาติจำนวนผู้พูดอย่างเป็นทางการแตกต่างกัน (โดยทั่วไปเป็นสาธารณะ)census-{country}-{year}
2Ethnologueการประมาณจำนวนผู้พูด, EGIDSกรรมสิทธิ์ (ต้องสมัครสมาชิก)ethnologue-{edition}
3UNESCO Atlasสถานะความเสี่ยงฟรีunesco-atlas-{year}
4บทความวิชาการที่ตีพิมพ์แล้วการสำรวจผู้พูดในระดับภูมิภาคสัญญาอนุญาตตามบทความ{author}-{year}
5Katig Collectiveภาษาฟิลิปปินส์วิชาการkatig-{year}

[!WARNING] ห้ามใช้ Wikipedia, ข้อความที่สร้างโดย LLM, หรือความรู้ส่วนตัวเป็นแหล่งข้อมูลหลักสำหรับข้อมูลประชากร แหล่งข้อมูลเหล่านี้เป็นแหล่งข้อมูลรองหรือตติยภูมิอย่างดีที่สุด ให้สืบค้นกลับไปยังข้อมูลหลักเสมอ

การรองรับวิธีการแปล (ความครอบคลุมของ Translation API)

วิธีการแหล่งตรวจสอบวิธีตรวจสอบวิธีอ้างอิง
Google Translateรายการภาษาเรียก API หรือดูหน้าเอกสารgoogle-translate-{date}
DeepLรายการภาษาเรียก APIdeepl-api-{date}
Microsoft Translatorรายการภาษาหน้าเอกสารms-translator-{date}
LibreTranslateรายการภาษาเรียก APIlibretranslate-{date}
NLLBFLORES READMEREADME + model cardnllb-200-{date}
LLMtrue เสมอไม่มี (คุณภาพแตกต่างกัน)llm-assumed

DLS (การรองรับภาษาดิจิทัล)

ลำดับแหล่งข้อมูลครอบคลุมวิธีอ้างอิง
1Simons et al. 2022คะแนน DLS (143 เครื่องมือดั้งเดิม)simons-2022
2Ethnologue ฉบับที่ 27 ขึ้นไปคะแนน DLS (211 เครื่องมือที่ขยายเพิ่ม)ethnologue-{edition}-dls

การพิมพ์ พหูพจน์ และอักษร

ลำดับแหล่งข้อมูลครอบคลุมวิธีอ้างอิง
1CLDRกฎพหูพจน์ เครื่องหมายคำพูด การจัดรูปแบบตัวเลขcldr-{version}
2Unicode CSURรหัสอักษรiso15924-{date}
3ไวยากรณ์ที่ตีพิมพ์แล้วกฎเฉพาะของภาษา{author}-{year}

อิทธิพลจากการสัมผัสภาษา

ลำดับแหล่งข้อมูลครอบคลุมวิธีอ้างอิง
1บทความภาษาศาสตร์ประวัติศาสตร์ที่ตีพิมพ์แล้วการศึกษาคำยืม ประวัติการสัมผัสภาษา{author}-{year}
2ไวยากรณ์อ้างอิงคำอธิบายอิทธิพลเชิงโครงสร้าง{grammar-title}-{year}
3WALSการเปรียบเทียบทางประเภทวิทยาwals-{feature}-{year}

[!IMPORTANT] ข้อความเกี่ยวกับอิทธิพลจากการสัมผัสภาษาเป็นสิ่งที่หาแหล่งอ้างอิงได้ยากที่สุด ข้อความเช่น "Spanish superstrate, deep, 1571–1898" ต้องอาศัยความเชี่ยวชาญด้านภาษาศาสตร์ประวัติศาสตร์ หากไม่สามารถหาแหล่งข้อมูลที่ตีพิมพ์แล้วได้ ให้ทำเครื่องหมายข้อความนั้นด้วย "citation_needed": true แทนการคาดเดา


3. ขั้นตอนการอ้างอิง (ทีละขั้นตอน)

เมื่อสร้างบัตรข้อมูลภาษาใหม่

  1. เริ่มต้นด้วยฟิลด์ที่กรอกข้อมูลอัตโนมัติ:

    • รัน node scripts/build-language-tree.mjs --enrich → กรอกข้อมูล classification จาก Glottolog
    • บันทึก "glottolog-{version}" ใน dataSources
  2. เพิ่มข้อมูล CLDR:

    • ค้นหากฎพหูพจน์ เครื่องหมายคำพูด รหัสอักษรจาก CLDR
    • บันทึก "cldr-{version}" ใน dataSources
  3. ค้นคว้าข้อมูลประชากรผู้พูด:

    • ตรวจสอบข้อมูลสำมะโนประชากรแห่งชาติก่อนเป็นอันดับแรก
    • ตรวจสอบข้ามกับ Ethnologue (หากมี)
    • ตรวจสอบข้ามกับ UNESCO Atlas
    • บันทึกแหล่งข้อมูลทั้งหมดที่ค้นคว้าใน dataSources
  4. ตรวจสอบการรองรับวิธีการแปล:

    • ตรวจสอบรายการภาษาของ API แต่ละตัว (ไม่ใช่จากความจำหรือการสันนิษฐาน)
    • บันทึกวันที่ตรวจสอบ
  5. ค้นคว้าอิทธิพลจากการสัมผัสภาษา:

    • ค้นหาบทความภาษาศาสตร์ประวัติศาสตร์ที่ตีพิมพ์แล้ว
    • บันทึกช่วงเวลา ประเภท และความลึกพร้อมการอ้างอิง
    • หากไม่มีแหล่งข้อมูลที่ตีพิมพ์แล้ว ให้เพิ่ม "citation_needed": true ในรายการอิทธิพลนั้น
  6. ค้นคว้าความมีชีวิตชีวาของภาษา:

    • ตรวจสอบ Ethnologue สำหรับ EGIDS
    • ตรวจสอบ UNESCO Atlas สำหรับสถานะความเสี่ยง
    • บันทึกความแตกต่างระหว่างแหล่งข้อมูล
  7. กรอกข้อมูล dataSources:

    • ระบุแหล่งข้อมูลทุกแหล่งที่ค้นคว้า (ไม่ใช่เฉพาะที่ให้ข้อมูล)
    • ใช้รูปแบบการอ้างอิงจากตารางข้างต้น

เมื่ออัปเดตบัตรข้อมูลที่มีอยู่แล้ว

  1. ห้ามเปลี่ยนแปลงข้อความเชิงข้อเท็จจริงโดยไม่อัปเดต dataSources
  2. หากอัปเดตจำนวนผู้พูด ให้ลบแหล่งข้อมูลเดิมและเพิ่มแหล่งข้อมูลใหม่
  3. หากเพิ่มการรองรับวิธีการแปล ให้ตรวจสอบกับ API และบันทึกวันที่
  4. ประทับวันที่การตรวจสอบการรองรับวิธีการแปลทุกครั้ง — ความครอบคลุมของ API เปลี่ยนแปลงบ่อย

4. ข้อเสนอการปรับปรุง Schema: การอ้างอิงระดับต่อฟิลด์

Schema ปัจจุบัน (dataSources แบบแบน)

"dataSources": ["cldr-48", "glottolog-5.3"]

ปัญหา: ฟิลด์ใดมาจาก CLDR? ฟิลด์ใดมาจาก Glottolog? ฟิลด์ใดไม่มีการอ้างอิง?

ข้อเสนอการปรับปรุง: dataSources แบบมีโครงสร้าง

"dataSources": {
"classification": ["glottolog-5.3"],
"vitality.unescoStatus": ["unesco-atlas-2024"],
"vitality.egids": ["ethnologue-27"],
"vitality.speakerCount": ["census-ph-2020", "ethnologue-27"],
"rules.plurals": ["cldr-48"],
"rules.typography": ["cldr-48"],
"contactInfluences": ["blust-2013", "llamzon-1969"],
"methodSupport.googleTranslate": ["google-translate-2024-07"],
"methodSupport.nllb": ["nllb-200-2024-03"],
"dls": ["simons-2022", "ethnologue-27-dls"],
"pipelineReadiness": ["manual-assessment-2025-06"]
}

เส้นทางการย้ายข้อมูล

นี่คือการเปลี่ยนแปลงที่ เข้ากันได้กับเวอร์ชันก่อนหน้า:

  1. บัตรข้อมูลที่มีอยู่แล้วยังคงใช้ array แบบแบน (ยังคงใช้งานได้)
  2. บัตรข้อมูลใหม่ใช้รูปแบบที่มีโครงสร้าง
  3. การตรวจสอบ schema ยอมรับทั้งสองรูปแบบ
  4. ย้ายข้อมูลบัตรที่มีอยู่แล้วทีละส่วนเมื่อมีการตรวจสอบ

[!TIP] ตรวจสอบด้วย script เพิ่ม script validate-citations.mjs ที่:

  • ตรวจสอบว่าทุกบัตรมีแหล่งข้อมูล classification และ vitality อย่างน้อยหนึ่งแหล่ง
  • ทำเครื่องหมายบัตรที่มี array dataSources แบบแบนเพื่ออัปเกรด
  • แจ้งเตือนรายการ methodSupport ที่ไม่มีการตรวจสอบพร้อมประทับวันที่

5. รายการตรวจสอบคุณภาพ

ก่อนรวมการเปลี่ยนแปลงบัตรข้อมูลภาษาใด ๆ ให้ตรวจสอบ:

  • จำนวนผู้พูดทุกตัวเลขมีแหล่งอ้างอิง (สำมะโนประชากรหรือ Ethnologue ไม่ใช่ Wikipedia)
  • สถานะ UNESCO/EGIDS ทุกรายการมีแหล่งอ้างอิง
  • การรองรับวิธีการแปลทุกรายการได้รับการตรวจสอบกับ API จริง (ไม่ใช่การสันนิษฐาน)
  • อิทธิพลจากการสัมผัสภาษาทุกรายการมีแหล่งวิชาการที่ตีพิมพ์แล้ว หรือทำเครื่องหมาย citation_needed
  • การจำแนกประเภทถูกกรอกข้อมูลอัตโนมัติจาก Glottolog (ไม่ได้สร้างด้วยมือ)
  • dataSources ระบุแหล่งข้อมูลทุกแหล่งที่ค้นคว้า
  • ไม่มีข้อความใดที่อาศัยเพียงความรู้ที่สร้างโดย LLM
  • humanReviewed ถูกตั้งค่าเป็นตัวระบุผู้ตรวจสอบและวันที่ หากมีเจ้าของภาษาตรวจสอบ

6. ฟิลด์ humanReviewed

schema ของบัตรข้อมูลภาษาประกอบด้วยฟิลด์ humanReviewed ซึ่งปัจจุบันเป็น null ในทุกบัตร ฟิลด์นี้ควรกรอกข้อมูลเมื่อเจ้าของภาษาหรือนักภาษาศาสตร์ที่มีคุณสมบัติเหมาะสมตรวจสอบบัตรแล้ว:

"humanReviewed": {
"reviewer": "Prof. Kenneth Jamandre",
"affiliation": "University of the Philippines",
"date": "2026-06-08",
"scope": "full",
"notes": "Verified speaker count, vitality assessment, and contact influences."
}

[!IMPORTANT] การตรวจสอบโดยชุมชนคือมาตรฐานสูงสุด ข้อมูลอัตโนมัติและบทความวิชาการให้รากฐาน แต่การตรวจสอบโดยเจ้าของภาษาคือการยืนยันขั้นสุดท้าย สิ่งนี้มีความสำคัญอย่างยิ่งสำหรับ:

  • ข้อความเกี่ยวกับอิทธิพลจากการสัมผัสภาษา (สมาชิกชุมชนรู้ว่าคำยืมใดที่ใช้จริง)
  • การประเมินความมีชีวิตชีวาของภาษา (สมาชิกชุมชนรู้ว่าเด็ก ๆ ยังพูดภาษานั้นอยู่หรือไม่)
  • ระบบความเป็นทางการ (คำอธิบายทางวิชาการอาจพลาดรูปแบบการใช้งานในชีวิตประจำวัน)

7. เอกสารอ้างอิงสำหรับขั้นตอนนี้

  1. Glottolog: https://glottolog.org — CC-BY 4.0
  2. ISO 639-3: https://iso639-3.sil.org — ฟรี
  3. WALS: https://wals.info — CC-BY 4.0
  4. CLDR: https://cldr.unicode.org — Unicode Terms of Use
  5. Ethnologue: https://www.ethnologue.com — กรรมสิทธิ์ (ต้องสมัครสมาชิก)
  6. UNESCO Atlas: http://www.unesco.org/languages-atlas/ — ฟรี
  7. Simons et al. (2022): https://aclanthology.org/2022.coling-1.379/
  8. Champollion Language Card Spec: cli/website/docs/reference/language-card-spec.md