ข้ามไปยังเนื้อหาหลัก

ภาษาที่รองรับ

champollion มาพร้อมกับ Language Cards — ไฟล์การกำหนดค่าแบบมีโครงสร้างสำหรับ 50 ภาษา การ์ดแต่ละใบประกอบด้วยค่าพรีเซ็ตของ register ข้อมูล metadata ของระบบความเป็นทางการ แฟล็กการรองรับวิธีการแปล กฎการพิมพ์ และข้อมูลอักษร ภาษาใดก็ตามที่ LLM ของคุณรู้จักสามารถเพิ่มได้ด้วยการกำหนดค่าเพียงบรรทัดเดียว — เหล่านี้คือภาษาที่มี register ที่ผ่านการดูแลและพร้อมใช้งานในระดับ production


วิธีการแปล

แต่ละภาษาสามารถใช้วิธีการแปลได้หนึ่งวิธีหรือมากกว่า:

ไอคอนวิธีการวิธีทำงานค่าใช้จ่าย
🟢Google TranslateNeural MT พื้นฐาน รองรับ 130+ ภาษา ใช้ได้กับสตริง key-value เท่านั้น — ไม่สามารถแปลเนื้อหา Markdown ได้อย่างปลอดภัย~$20/1M ตัวอักษร
🔵LLM (OpenRouter)รองรับทุกภาษาที่โมเดลรู้จัก ใช้ prompt ที่ควบคุมด้วย register รองรับทั้ง key-value และเนื้อหา Markdownขึ้นอยู่กับโมเดล
🟣LLM-CoachedLLM + พจนานุกรมไวยากรณ์ + ข้อมูล coaching ที่ฝังในตัว prompt เหมาะที่สุดสำหรับภาษาที่มีความซับซ้อนทางสัณฐานวิทยาขึ้นอยู่กับโมเดล
🟠API (Plugin)pipeline การแปลที่ชุมชนโฮสต์ให้บริการผ่าน HTTP รองรับ OCAPขึ้นอยู่กับผู้ให้บริการ

ตั้งค่า GOOGLE_TRANSLATE_API_KEY สำหรับ Google Translate หรือ OPENROUTER_API_KEY สำหรับวิธี LLM ดูรายละเอียดทั้งหมดได้ที่ วิธีการแปล


ภาษาหลัก

ภาษาเหล่านี้คือ locale ที่ได้รับการร้องขอมากที่สุดสำหรับแอปพลิเคชันเว็บและมือถือ เรียงตามลำดับที่ champollion แนะนำโดยให้ความสำคัญกับการเข้าถึงก่อน

ธงภาษารหัสGoogleLLMCoachedอักษรหมายเหตุ
🇸🇦อาหรับarRTL. Modern Standard Arabic (فصحى).
🇵🇭ฟิลิปิโน (Taglish)tl / filใช้ fil ในการกำหนดค่า Docusaurus champollion รองรับทั้งสองรูปแบบ
🇫🇷ฝรั่งเศสfrรูปแบบ Vous เพศสภาพแบบรวม (Connecté·e)
🇪🇸สเปนesภาษาสเปนละตินอเมริกากลาง
🇩🇪เยอรมันdeรูปแบบ Sie เพศสภาพแบบรวม (Benutzer:innen)
🇯🇵ญี่ปุ่นjaです/ます สำหรับเนื้อหาทั่วไป する สำหรับป้ายกำกับ UI
🇨🇳จีน (ตัวย่อ)zh简体中文.
🇮🇹อิตาลีitรูปแบบ Lei
🇧🇷โปรตุเกส (BR)ptโปรตุเกสบราซิล
🇰🇷เกาหลีkoregister สุภาพ 해요체

ภาษาหลักของโลก

ธงภาษารหัสGoogleLLMCoachedอักษรหมายเหตุ
🇧🇩เบงกาลีbnให้ความสำคัญกับ শুদ্ধ ভাষা
🇧🇬บัลแกเรียbg
🇨🇿เช็กcsVykání (รูปแบบ vy)
🇩🇰เดนมาร์กda
🇬🇷กรีกelΔημοτική สมัยใหม่
🇮🇷เปอร์เซียfaRTL.
🇫🇮ฟินแลนด์fiไม่มีเพศทางไวยากรณ์
🇮🇱ฮีบรูheRTL.
🇮🇳ฮินดีhiशुद्ध हिन्दी ใช้คำยืมภาษาอังกฤษน้อยที่สุด
🇭🇺ฮังการีhuรูปแบบ Ön
🇮🇩อินโดนีเซียid
🇲🇾มาเลย์ms
🇳🇱ดัตช์nlรูปแบบ U
🇳🇴นอร์เวย์nbBokmål.
🇵🇱โปแลนด์plรูปแบบ Pan/Pani
🇵🇹โปรตุเกส (EU)pt-PTโปรตุเกสยุโรป
🇷🇴โรมาเนียro
🇷🇺รัสเซียruรูปแบบ Вы
🇸🇰สโลวักskVykanie (รูปแบบ vy)
🇷🇸เซอร์เบียsr🔤 Latin→Cyrillicตัวแปลงอักษรแบบ deterministic
🇸🇪สวีเดนsv
🇰🇪สวาฮีลีsw
🇹🇭ไทยthคำลงท้ายสุภาพ ครับ/ค่ะ
🇹🇷ตุรกีtrรูปแบบ Siz
🇺🇦ยูเครนukรูปแบบ Ви
🇵🇰อูรดูurRTL. รูปแบบ آپ
🇻🇳เวียดนามvi
🇹🇼จีน (ตัวเต็ม)zh-TW繁體中文.
🇬🇪จอร์เจียkaქართული. ตระกูล Kartvelian
🇳🇬โยรูบาyoÈdè Yorùbá. มีวรรณยุกต์ (3 ระดับ)

ภาษาตามภูมิภาค

ธงภาษารหัสGoogleLLMCoachedอักษรหมายเหตุ
🇲🇽สเปนเม็กซิโกes-MXรูปแบบ Tú register อบอุ่น
🇨🇦ฝรั่งเศสแคนาดาfr-CAสำนวน Québécois

ภาษาพื้นเมืองและภาษาที่มีทรัพยากรน้อย

ภาษาเหล่านี้ไม่ได้รับการรองรับจากบริการ MT เชิงพาณิชย์ champollion มอบเครื่องมือให้ชุมชนภาษาสร้างวิธีการของตนเองภายใต้ หลักการ OCAP

ภาษารหัสGoogleLLMCoachedอักษรสถานะ
🪶Plains Creecrk🔤 SRO→Syllabics🚧 อยู่ระหว่างพัฒนา
🌄QuechuaquRunasimi. มี evidential suffixes

:::info Plains Cree อยู่ระหว่างการพัฒนาอย่างต่อเนื่อง register โครงสร้างพื้นฐาน coaching ตัวแปลงอักษร และ evaluation harness สำหรับ Plains Cree ทำงานได้ทั้งหมด แต่ pipeline การแปลยังไม่ได้เผยแพร่ เรากำลังทำงานร่วมกับชุมชนภาษาภายใต้หลักการ OCAP เพื่อให้มั่นใจในคุณภาพก่อนเผยแพร่ ดู การสนับสนุนภาษาที่มีทรัพยากรน้อย สำหรับเรื่องราวทั้งหมด — และวิธีที่คุณสามารถมีส่วนร่วมได้ :::

:::tip การเพิ่มภาษาที่มีทรัพยากรน้อยเพิ่มเติม ระบบ plugin ของ champollion ได้รับการออกแบบมาเพื่อสิ่งนี้โดยเฉพาะ ชุมชนภาษาสามารถสร้างวิธีการแปลแบบกำหนดเอง โฮสต์ภายใต้การควบคุมของตนเอง และให้บริการผ่านวิธี API Method Leaderboard ติดตามคะแนนสำหรับทุกคู่ภาษา — สร้างวิธีการ รัน harness และคว้าคะแนนสูงสุด :::


ภาษาประดิษฐ์

Conlang ได้รับการรองรับผ่าน LLM register และตัวแปลงอักษรแบบเสริม ใช้โครงสร้างพื้นฐานเดียวกันกับภาษาจริง — ระบบตรวจสอบคุณภาพ ระบบ coaching และ pipeline การแปลงอักษรทำงานเหมือนกันทุกประการ

ภาษารหัสGoogleLLMอักษรหมายเหตุ
🖖Klingontlh🔤 Romanization→pIqaDต้องใช้ฟอนต์ PUA คำศัพท์ Marc Okrand
🧝Sindarin (Tolkien Elvish)x-elvish-s🔤 Latin→Tengwarต้องใช้ฟอนต์ CSUR PUA
🏴‍☠️Pirate Englishx-pirateRegister เท่านั้น ใช้อุปมาอุปไมยทางทะเล
🦸Kryptonianx-kryptonian🔤 Latin→Kryptonianต้องใช้ฟอนต์ PUA
🎭Shakespearean Englishx-shakespeareRegister เท่านั้น รูปแบบ Thee/thou, -eth/-est
🐸Yoda-speakx-yodaRegister เท่านั้น ลำดับคำแบบ OSV

ดู Conlangs, Scripts & Orthography สำหรับข้อกำหนดฟอนต์ PUA ข้อจำกัด Unicode และวิธีเพิ่มภาษาของคุณเอง


Language Presets

wizard init รองรับชื่อ preset สำหรับการตั้งค่าอย่างรวดเร็ว คุณสามารถผสม preset กับรหัสภาษาแต่ละรหัสได้

Presetขยายเป็น
europeanfr, de, es, it, pt, nl
asianja, zh, ko
globalfr, es, de, ja, zh, ko, pt, ar
nordicda, fi, nb, sv
# Mix presets with individual codes
champollion init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

การเพิ่มภาษาใดก็ได้

champollion สามารถแปลเป็น ภาษาใดก็ตามที่ LLM ของคุณรู้จัก — ตารางด้านบนเป็นเพียงรายการภาษาที่มี register preset ในตัว หากต้องการเพิ่มภาษาที่ไม่อยู่ในรายการ ให้ระบุรหัส BCP-47 ในการกำหนดค่าของคุณ:

{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}

LLM จะแปลโดยใช้ความรู้เกี่ยวกับภาษานั้นจากการฝึกอบรม การตั้งค่า register ช่วยให้คุณควบคุมน้ำเสียง ความเป็นทางการ และรูปแบบการเขียน ดูรายละเอียดได้ที่ การกำหนดค่า


Language Cards

ภาษาในตัวแต่ละภาษามี Language Card — ไฟล์ JSON เดียวใน shared/language-cards/ ที่ประกอบด้วย metadata ทั้งหมด ได้แก่ register ความเป็นทางการ การรองรับวิธีการ กฎการพิมพ์ การจำแนกทางลำดับวงศ์ตระกูล ความท้าทายทางภาษาศาสตร์ และทรัพยากร NLP

สถาปัตยกรรม Card แบบรวม

การ์ดแต่ละใบถูกโหลดทันทีเมื่อ import ไม่มีชั้นข้อมูลอ้างอิงแยกต่างหาก — ข้อมูลทั้งหมดอยู่ในไฟล์เดียวต่อภาษา การ์ดได้รับการเสริมข้อมูลจากแหล่งที่มีอำนาจ:

แหล่งที่มาข้อมูล
Glottologการจำแนกตระกูลภาษา สายบรรพบุรุษ Glottocode
WALSการจำแนก genus คุณลักษณะทางประเภทวิทยา
CLDRอักษร ทิศทาง กฎพหูพจน์ การพิมพ์
ISO 15924รหัสอักษร

ฟิลด์หลักของ Card

ฟิลด์เนื้อหา
nativeNameEndonym — ชื่อภาษาในภาษาของตนเอง เขียนด้วยอักษรของตนเอง (เช่น ქართული, Runasimi)
classificationจุดยึดทางลำดับวงศ์ตระกูล: ตระกูล genus สายบรรพบุรุษทั้งหมดจาก Glottolog
contactInfluencesประวัติการสัมผัสภาษาแบบสากล — ชั้นการยืมคำ superstrate substrate
ระบบความเป็นทางการความแตกต่าง T-V ระดับการพูด keigo คำลงท้าย ฯลฯ
Register presetsค่าพรีเซ็ต prompt LLM ที่ตั้งชื่อเฉพาะสำหรับลักษณะของแต่ละภาษา
การรองรับวิธีการAPI การแปลใดที่รองรับภาษานี้
คำแนะนำเรื่องเพศกฎเพศทางไวยากรณ์และเคล็ดลับการเขียนแบบรวม
อักษร/ทิศทางรหัสอักษร ISO 15924 และ RTL/LTR
กฎการพิมพ์ (เครื่องหมายคำพูด การเว้นวรรค) การใช้ตัวพิมพ์ใหญ่ หมวดหมู่พหูพจน์
glottocodeตัวระบุ Glottolog มาตรฐานสำหรับการอ้างอิงข้าม
dataSourcesการติดตามที่มา (เช่น ["glottolog-5.3", "cldr-48"])

การสร้างโครงร่าง Language Card ใหม่

ใช้ generator เพื่อสร้างโครงร่าง card จากแหล่งข้อมูลที่มีอำนาจ (IANA, CLDR, Glottolog):

# Preview what would be generated
node scripts/generate-language-card.mjs sw --dry-run

# Generate a unified card
node scripts/generate-language-card.mjs sw

generator จะเติม metadata โดยอัตโนมัติ (รหัส อักษร ทิศทาง พหูพจน์ เครื่องหมายคำพูด การรองรับวิธีการ การจำแนก) และทำเครื่องหมายฟิลด์ที่ต้องใช้วิจารณญาณทางภาษาศาสตร์เป็น TODO สำหรับการดูแลโดยมนุษย์

การใช้ Preset Keys

แทนที่จะเขียนข้อความ register แบบเต็ม คุณสามารถใช้ชื่อ preset key ได้:

{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}

Champollion จะแปลง key เป็น prompt register แบบเต็ม รัน npx champollion init เพื่อดู preset ที่มีสำหรับแต่ละภาษา

ตัวอย่าง Presets

ภาษาPresetsค่าเริ่มต้น
ฝรั่งเศสformal-vous, casual-tuformal-vous
เกาหลีpolite-haeyo, formal-hapsyo, casual-haepolite-haeyo
ญี่ปุ่นpolite, formal-keigo, casualpolite
เยอรมันformal-Sie, casual-duformal-Sie
ไทยneutral-professional, polite-male, polite-femaleneutral-professional
สเปนneutral-professional, formal-usted, casual-tuteoneutral-professional

ดู การมีส่วนร่วมใน Language Card สำหรับข้อกำหนดทั้งหมด รวมถึงการตรวจสอบฟิลด์และรายการตรวจสอบ PR


ดูเพิ่มเติม