ข้ามไปยังเนื้อหาหลัก

สะพานเชื่อม Eval Harness

champollion และ MT Eval Harness เป็นเครื่องมือสองชิ้นที่แยกจากกัน แต่ก่อตัวเป็นระบบนิเวศเดียวกัน Harness คือที่ที่วิธีการแปลได้รับการพิสูจน์ Champollion คือที่ที่วิธีการที่พิสูจน์แล้วถูกนำไปใช้งานจริง ทั้งสองเชื่อมต่อกันผ่านรูปแบบ plugin ที่ใช้ร่วมกัน

กระบวนการ: งานวิจัย → การใช้งานจริง

1. สร้างวิธีการใน Harness

คลาส Python ใดก็ตามที่ implement async translate(entries, config) → [{id, predicted}] สามารถเชื่อมต่อกับ harness ได้ Harness ไม่สนใจว่าภายในจะทำงานอย่างไร — ไม่ว่าจะเป็น LLM แบบ prompted, โมเดลที่ฝึกเอง, กฎแบบ deterministic หรืออะไรก็ตาม

2. ทำ Benchmark

Harness จะให้คะแนนวิธีการของคุณเทียบกับ corpus มาตรฐานด้วย metric ที่ทำซ้ำได้: chrF++, FST acceptance (สำหรับภาษาที่มีโครงสร้างทางสัณฐานวิทยาซับซ้อน), ความถูกต้องทางสัณฐานวิทยา และการให้คะแนนเชิงความหมาย

3. Export เป็น Plugin

เมื่อวิธีการของคุณถึงระดับคุณภาพที่ยอมรับได้ ให้แพ็กเกจเป็น champollion plugin — manifest แบบ method.json พร้อม coaching data เสริม

:::info Export CLI อยู่ในแผนงาน ขณะนี้คุณต้องสร้าง manifest ของ method.json ด้วยตนเอง คำสั่ง mt-eval export จะช่วยทำให้กระบวนการนี้เป็นอัตโนมัติ ดู Method Interface สำหรับรูปแบบ plugin แบบเต็ม :::

4. ติดตั้งใน Champollion

champollion plugin install ./my-method-plugin/

5. แปลเนื้อหาจริง

champollion sync

วิธีการที่ผ่าน benchmark แล้วของคุณกำลังสร้างการแปลจริงในระบบ production

กระบวนการ: การใช้งานจริง → งานวิจัย

การแปลที่ deploy แล้วจะได้รับการตรวจสอบโดยผู้พูดสองภาษา ข้อเสนอแนะของพวกเขาช่วยระบุข้อผิดพลาดที่เกิดซ้ำอย่างเป็นระบบ (รูปแบบกาลที่ผิด, คำศัพท์ที่ขาดหาย, การใช้ภาษาที่ไม่เป็นธรรมชาติ) นักวิจัยจะอัปเดตวิธีการใน harness ทำ benchmark ใหม่ export ใหม่ และ deploy ใหม่ ระบบเรียนรู้จากการใช้งาน

รูปแบบ Plugin

manifest method.json คือสัญญาระหว่างเครื่องมือทั้งสอง:

{
"name": "crk-coached-v3",
"type": "llm-coached",
"version": "3.0.0",
"description": "Coached LLM translation for Plains Cree",
"locales": ["crk"],
"config": {
"model": "google/gemini-3.5-flash",
"temperature": 0.3
},
"benchmarks": {
"crk": {
"composite_score": 0.67,
"fst_acceptance": 0.82,
"corpus_size": 150
}
}
}

ดู Plugin Specification สำหรับรูปแบบแบบเต็ม

สิ่งที่สร้างแล้ว vs. ที่วางแผนไว้

ส่วนประกอบสถานะ
TranslationMethod protocol✅ สร้างแล้ว
Harness benchmark runner✅ สร้างแล้ว
method.json plugin format✅ สร้างแล้ว
champollion plugin install/remove/list✅ สร้างแล้ว
การโหลด Coaching data✅ สร้างแล้ว
mt-eval export CLI🔲 วางแผนไว้
อินเทอร์เฟซรีวิวจากชุมชน🔲 วางแผนไว้
การประเมินด้วย Cryptographic test set🔲 วางแผนไว้

อ่านเพิ่มเติม