ขั้นตอนการอ้างอิงบัตรข้อมูลภาษา
วิธีที่ Champollion ตรวจสอบให้แน่ใจว่าทุกข้อความในบัตรข้อมูลภาษาสามารถสืบค้นกลับไปยังแหล่งข้อมูลหลักได้
1. ปัญหา
บัตรข้อมูลภาษาประกอบด้วยข้อความเชิงข้อเท็จจริง — จำนวนผู้พูด สถานะความเสี่ยง อิทธิพลจากการสัมผัสภาษา คุณสมบัติทางสัณฐานวิทยา ข้อกำหนดด้านการพิมพ์ การรองรับวิธีการแปล — ซึ่งต้องสามารถตรวจสอบได้ ในปัจจุบัน:
- ฟิลด์
dataSourcesเป็น array แบบแบนของสตริง (เช่น["cldr-48", "glottolog-5.3"]) - ไม่มีการระบุแหล่งอ้างอิงในระดับต่อฟิลด์
- ข้อความเช่น "~2.8M speakers" หรือ "vulnerable" ไม่มีที่มาที่สามารถสืบค้นได้
- ผู้ตรวจสอบไม่สามารถระบุได้ว่าแหล่งข้อมูลใดรองรับข้อความใด
[!CAUTION] ข้อความที่ไม่มีแหล่งอ้างอิงคือข้อความที่ไม่สามารถตรวจสอบได้ สำหรับโปรเจกต์ที่วางตำแหน่งตัวเองว่ามีความเข้มงวดในระดับมืออาชีพ ทุกข้อความในบัตรข้อมูลภาษาต้องสามารถสืบค้นกลับไปยังแหล่งข้อมูลหลักที่เฉพาะเจาะจงและมีการกำหนดเวอร์ชันได้
2. แหล่งข้อมูลที่เชื่อถือได้ (จัดลำดับตามความสำคัญ)
สำหรับข้อความแต่ละประเภท แหล่งข้อมูลต่อไปนี้ถือเป็นแหล่งอ้างอิงที่เชื่อถือได้ ให้เลือกใช้แหล่งข้อมูลที่มีลำดับสูงสุดที่มีอยู่เสมอ
การจำแนกประเภทและอัตลักษณ์
| ลำดับ | แหล่งข้อมูล | ครอบคลุม | สัญญาอนุญาต | วิธีอ้างอิง |
|---|---|---|---|---|
| 1 | Glottolog (Max Planck) | ตระกูลภาษา บรรพบุรุษ glottocode | CC-BY 4.0 | glottolog-5.x |
| 2 | ISO 639-3 (SIL) | รหัส ISO, macrolanguages | ฟรี | iso639-3-{date} |
| 3 | WALS (Max Planck) | คำจำกัดความ genus, คุณลักษณะทางประเภทวิทยา | CC-BY 4.0 | wals-2024 |
| 4 | CLDR (Unicode) | รหัส locale, รหัสอักษร, กฎพหูพจน์ | Unicode ToS | cldr-{version} |
ข้อมูลประชากรผู้พูดและความมีชีวิตชีวาของภาษา
| ลำดับ | แหล่งข้อมูล | ครอบคลุม | สัญญาอนุญาต | วิธีอ้างอิง |
|---|---|---|---|---|
| 1 | ข้อมูลสำมะโนประชากรแห่งชาติ | จำนวนผู้พูดอย่างเป็นทางการ | แตกต่างกัน (โดยทั่วไปเป็นสาธารณะ) | census-{country}-{year} |
| 2 | Ethnologue | การประมาณจำนวนผู้พูด, EGIDS | กรรมสิทธิ์ (ต้องสมัครสมาชิก) | ethnologue-{edition} |
| 3 | UNESCO Atlas | สถานะความเสี่ยง | ฟรี | unesco-atlas-{year} |
| 4 | บทความวิชาการที่ตีพิมพ์แล้ว | การสำรวจผู้พูดในระดับภูมิภาค | สัญญาอนุญาตตามบทความ | {author}-{year} |
| 5 | Katig Collective | ภาษาฟิลิปปินส์ | วิชาการ | katig-{year} |
[!WARNING] ห้ามใช้ Wikipedia, ข้อความที่สร้างโดย LLM, หรือความรู้ส่วนตัวเป็นแหล่งข้อมูลหลักสำหรับข้อมูลประชากร แหล่งข้อมูลเหล่านี้เป็นแหล่งข้อมูลรองหรือตติยภูมิอย่างดีที่สุด ให้สืบค้นกลับไปยังข้อมูลหลักเสมอ
การรองรับวิธีการแปล (ความครอบคลุมของ Translation API)
| วิธีการ | แหล่งตรวจสอบ | วิธีตรวจสอบ | วิธีอ้างอิง |
|---|---|---|---|
| Google Translate | รายการภาษา | เรียก API หรือดูหน้าเอกสาร | google-translate-{date} |
| DeepL | รายการภาษา | เรียก API | deepl-api-{date} |
| Microsoft Translator | รายการภาษา | หน้าเอกสาร | ms-translator-{date} |
| LibreTranslate | รายการภาษา | เรียก API | libretranslate-{date} |
| NLLB | FLORES README | README + model card | nllb-200-{date} |
| LLM | true เสมอ | ไม่มี (คุณภาพแตกต่างกัน) | llm-assumed |
DLS (การรองรับภาษาดิจิทัล)
| ลำดับ | แหล่งข้อมูล | ครอบคลุม | วิธีอ้างอิง |
|---|---|---|---|
| 1 | Simons et al. 2022 | คะแนน DLS (143 เครื่องมือดั้งเดิม) | simons-2022 |
| 2 | Ethnologue ฉบับที่ 27 ขึ้นไป | คะแนน DLS (211 เครื่องมือที่ขยายเพิ่ม) | ethnologue-{edition}-dls |
การพิมพ์ พหูพจน์ และอักษร
| ลำดับ | แหล่งข้อมูล | ครอบคลุม | วิธีอ้างอิง |
|---|---|---|---|
| 1 | CLDR | กฎพหูพจน์ เครื่องหมายคำพูด การจัดรูปแบบตัวเลข | cldr-{version} |
| 2 | Unicode CSUR | รหัสอักษร | iso15924-{date} |
| 3 | ไวยากรณ์ที่ตีพิมพ์แล้ว | กฎเฉพาะของภาษา | {author}-{year} |
อิทธิพลจากการสัมผัสภาษา
| ลำดับ | แหล่งข้อมูล | ครอบคลุม | วิธีอ้างอิง |
|---|---|---|---|
| 1 | บทความภาษาศาสตร์ประวัติศาสตร์ที่ตีพิมพ์แล้ว | การศึกษาคำยืม ประวัติการสัมผัสภาษา | {author}-{year} |
| 2 | ไวยากรณ์อ้างอิง | คำอธิบายอิทธิพลเชิงโครงสร้าง | {grammar-title}-{year} |
| 3 | WALS | การเปรียบเทียบทางประเภทวิทยา | wals-{feature}-{year} |
[!IMPORTANT] ข้อความเกี่ยวกับอิทธิพลจากการสัมผัสภาษาเป็นสิ่งที่หาแหล่งอ้างอิงได้ยากที่สุด ข้อความเช่น "Spanish superstrate, deep, 1571–1898" ต้องอาศัยความเชี่ยวชาญด้านภาษาศาสตร์ประวัติศาสตร์ หากไม่สามารถหาแหล่งข้อมูลที่ตีพิมพ์แล้วได้ ให้ทำเครื่องหมายข้อความนั้นด้วย
"citation_needed": trueแทนการคาดเดา
3. ขั้นตอนการอ้างอิง (ทีละขั้นตอน)
เมื่อสร้างบัตรข้อมูลภาษาใหม่
-
เริ่มต้นด้วยฟิลด์ที่กรอกข้อมูลอัตโนมัติ:
- รัน
node scripts/build-language-tree.mjs --enrich→ กรอกข้อมูลclassificationจาก Glottolog - บันทึก
"glottolog-{version}"ในdataSources
- รัน
-
เพิ่มข้อมูล CLDR:
- ค้นหากฎพหูพจน์ เครื่องหมายคำพูด รหัสอักษรจาก CLDR
- บันทึก
"cldr-{version}"ในdataSources
-
ค้นคว้าข้อมูลประชากรผู้พูด:
- ตรวจสอบข้อมูลสำมะโนประชากรแห่งชาติก่อนเป็นอันดับแรก
- ตรวจสอบข้ามกับ Ethnologue (หากมี)
- ตรวจสอบข้ามกับ UNESCO Atlas
- บันทึกแหล่งข้อมูลทั้งหมดที่ค้นคว้าใน
dataSources
-
ตรวจสอบการรองรับวิธีการแปล:
- ตรวจสอบรายการภาษาของ API แต่ละตัว (ไม่ใช่จากความจำหรือการสันนิษฐาน)
- บันทึกวันที่ตรวจสอบ
-
ค้นคว้าอิทธิพลจากการสัมผัสภาษา:
- ค้นหาบทความภาษาศาสตร์ประวัติศาสตร์ที่ตีพิมพ์แล้ว
- บันทึกช่วงเวลา ประเภท และความลึกพร้อมการอ้างอิง
- หากไม่มีแหล่งข้อมูลที่ตีพิมพ์แล้ว ให้เพิ่ม
"citation_needed": trueในรายการอิทธิพลนั้น
-
ค้นคว้าความมีชีวิตชีวาของภาษา:
- ตรวจสอบ Ethnologue สำหรับ EGIDS
- ตรวจสอบ UNESCO Atlas สำหรับสถานะความเสี่ยง
- บันทึกความแตกต่างระหว่างแหล่งข้อมูล
-
กรอกข้อมูล
dataSources:- ระบุแหล่งข้อมูลทุกแหล่งที่ค้นคว้า (ไม่ใช่เฉพาะที่ให้ข้อมูล)
- ใช้รูปแบบการอ้างอิงจากตารางข้างต้น
เมื่ออัปเดตบัตรข้อมูลที่มีอยู่แล้ว
- ห้ามเปลี่ยนแปลงข้อความเชิงข้อเท็จจริงโดยไม่อัปเดต
dataSources - หากอัปเดตจำนวนผู้พูด ให้ลบแหล่งข้อมูลเดิมและเพิ่มแหล่งข้อมูลใหม่
- หากเพิ่มการรองรับวิธีการแปล ให้ตรวจสอบกับ API และบันทึกวันที่
- ประทับวันที่การตรวจสอบการรองรับวิธีการแปลทุกครั้ง — ความครอบคลุมของ API เปลี่ยนแปลงบ่อย
4. ข้อเสนอการปรับปรุง Schema: การอ้างอิงระดับต่อฟิลด์
Schema ปัจจุบัน (dataSources แบบแบน)
"dataSources": ["cldr-48", "glottolog-5.3"]
ปัญหา: ฟิลด์ใดมาจาก CLDR? ฟิลด์ใดมาจาก Glottolog? ฟิลด์ใดไม่มีการอ้างอิง?
ข้อเสนอการปรับปรุง: dataSources แบบมีโครงสร้าง
"dataSources": {
"classification": ["glottolog-5.3"],
"vitality.unescoStatus": ["unesco-atlas-2024"],
"vitality.egids": ["ethnologue-27"],
"vitality.speakerCount": ["census-ph-2020", "ethnologue-27"],
"rules.plurals": ["cldr-48"],
"rules.typography": ["cldr-48"],
"contactInfluences": ["blust-2013", "llamzon-1969"],
"methodSupport.googleTranslate": ["google-translate-2024-07"],
"methodSupport.nllb": ["nllb-200-2024-03"],
"dls": ["simons-2022", "ethnologue-27-dls"],
"pipelineReadiness": ["manual-assessment-2025-06"]
}
เส้นทางการย้ายข้อมูล
นี่คือการเปลี่ยนแปลงที่ เข้ากันได้กับเวอร์ชันก่อนหน้า:
- บัตรข้อมูลที่มีอยู่แล้วยังคงใช้ array แบบแบน (ยังคงใช้งานได้)
- บัตรข้อมูลใหม่ใช้รูปแบบที่มีโครงสร้าง
- การตรวจสอบ schema ยอมรับทั้งสองรูปแบบ
- ย้ายข้อมูลบัตรที่มีอยู่แล้วทีละส่วนเมื่อมีการตรวจสอบ
[!TIP] ตรวจสอบด้วย script เพิ่ม script
validate-citations.mjsที่:
- ตรวจสอบว่าทุกบัตรมีแหล่งข้อมูล
classificationและvitalityอย่างน้อยหนึ่งแหล่ง- ทำเครื่องหมายบัตรที่มี array
dataSourcesแบบแบนเพื่ออัปเกรด- แจ้งเตือนรายการ
methodSupportที่ไม่มีการตรวจสอบพร้อมประทับวันที่
5. รายการตรวจสอบคุณภาพ
ก่อนรวมการเปลี่ยนแปลงบัตรข้อมูลภาษาใด ๆ ให้ตรวจสอบ:
- จำนวนผู้พูดทุกตัวเลขมีแหล่งอ้างอิง (สำมะโนประชากรหรือ Ethnologue ไม่ใช่ Wikipedia)
- สถานะ UNESCO/EGIDS ทุกรายการมีแหล่งอ้างอิง
- การรองรับวิธีการแปลทุกรายการได้รับการตรวจสอบกับ API จริง (ไม่ใช่การสันนิษฐาน)
- อิทธิพลจากการสัมผัสภาษาทุกรายการมีแหล่งวิชาการที่ตีพิมพ์แล้ว หรือทำเครื่องหมาย
citation_needed - การจำแนกประเภทถูกกรอกข้อมูลอัตโนมัติจาก Glottolog (ไม่ได้สร้างด้วยมือ)
-
dataSourcesระบุแหล่งข้อมูลทุกแหล่งที่ค้นคว้า - ไม่มีข้อความใดที่อาศัยเพียงความรู้ที่สร้างโดย LLM
-
humanReviewedถูกตั้งค่าเป็นตัวระบุผู้ตรวจสอบและวันที่ หากมีเจ้าของภาษาตรวจสอบ
6. ฟิลด์ humanReviewed
schema ของบัตรข้อมูลภาษาประกอบด้วยฟิลด์ humanReviewed ซึ่งปัจจุบันเป็น null ในทุกบัตร ฟิลด์นี้ควรกรอกข้อมูลเมื่อเจ้าของภาษาหรือนักภาษาศาสตร์ที่มีคุณสมบัติเหมาะสมตรวจสอบบัตรแล้ว:
"humanReviewed": {
"reviewer": "Prof. Kenneth Jamandre",
"affiliation": "University of the Philippines",
"date": "2026-06-08",
"scope": "full",
"notes": "Verified speaker count, vitality assessment, and contact influences."
}
[!IMPORTANT] การตรวจสอบโดยชุมชนคือมาตรฐานสูงสุด ข้อมูลอัตโนมัติและบทความวิชาการให้รากฐาน แต่การตรวจสอบโดยเจ้าของภาษาคือการยืนยันขั้นสุดท้าย สิ่งนี้มีความสำคัญอย่างยิ่งสำหรับ:
- ข้อความเกี่ยวกับอิทธิพลจากการสัมผัสภาษา (สมาชิกชุมชนรู้ว่าคำยืมใดที่ใช้จริง)
- การประเมินความมีชีวิตชีวาของภาษา (สมาชิกชุมชนรู้ว่าเด็ก ๆ ยังพูดภาษานั้นอยู่หรือไม่)
- ระบบความเป็นทางการ (คำอธิบายทางวิชาการอาจพลาดรูปแบบการใช้งานในชีวิตประจำวัน)
7. เอกสารอ้างอิงสำหรับขั้นตอนนี้
- Glottolog: https://glottolog.org — CC-BY 4.0
- ISO 639-3: https://iso639-3.sil.org — ฟรี
- WALS: https://wals.info — CC-BY 4.0
- CLDR: https://cldr.unicode.org — Unicode Terms of Use
- Ethnologue: https://www.ethnologue.com — กรรมสิทธิ์ (ต้องสมัครสมาชิก)
- UNESCO Atlas: http://www.unesco.org/languages-atlas/ — ฟรี
- Simons et al. (2022): https://aclanthology.org/2022.coling-1.379/
- Champollion Language Card Spec:
cli/website/docs/reference/language-card-spec.md