Cầu nối Eval Harness

Champollion và MT Eval Harness là hai công cụ riêng biệt tạo nên một hệ sinh thái thống nhất. Harness là nơi các phương pháp dịch thuật được kiểm chứng. Champollion là nơi các phương pháp đã được kiểm chứng được triển khai. Chúng kết nối với nhau thông qua một định dạng plugin chung.

Quy trình: Nghiên cứu → Production

1. Xây dựng phương pháp trong harness

Bất kỳ class Python nào triển khai async translate(entries, config) → [{id, predicted}] đều có thể tích hợp vào harness. Harness không quan tâm đến những gì xảy ra bên trong — LLM được prompt, mô hình được huấn luyện tùy chỉnh, các quy tắc tất định (deterministic rules), hay bất kỳ thứ gì khác.

2. Đánh giá hiệu năng (Benchmark)

Harness sẽ chấm điểm phương pháp của bạn dựa trên một tập ngữ liệu chuẩn hóa với các chỉ số có thể tái lập: chrF++, độ chấp nhận FST (đối với các ngôn ngữ có hình thái phong phú), độ chính xác hình thái học và điểm số ngữ nghĩa.

3. Xuất dưới dạng plugin

Khi phương pháp của bạn đạt chất lượng chấp nhận được, hãy đóng gói nó thành một plugin Champollion — một manifest method.json đi kèm dữ liệu huấn luyện (coaching data) tùy chọn.

:::info CLI xuất plugin đang được lên kế hoạch Hiện tại, bạn cần tạo manifest method.json một cách thủ công. Lệnh mt-eval export sẽ tự động hóa việc này. Xem Giao diện Phương pháp để biết định dạng plugin đầy đủ. :::

4. Cài đặt trong Champollion

champollion plugin install ./my-method-plugin/

5. Dịch nội dung thực tế

champollion sync

Phương pháp đã qua đánh giá của bạn giờ đây đang tạo ra các bản dịch thực tế trong môi trường production.

Quy trình: Production → Nghiên cứu

Các bản dịch đã triển khai sẽ được xem xét bởi những người nói song ngữ. Phản hồi của họ giúp xác định các lỗi mang tính hệ thống (sai cấu trúc thì, thiếu từ vựng, diễn đạt không tự nhiên). Nhà nghiên cứu sẽ cập nhật phương pháp trong harness, đánh giá lại, xuất lại và tái triển khai. Hệ thống sẽ tự học hỏi từ quá trình sử dụng.

Định dạng Plugin

Manifest method.json là bản giao ước giữa hai công cụ:

{
  "name": "crk-coached-v3",
  "type": "llm-coached",
  "version": "3.0.0",
  "description": "Coached LLM translation for Plains Cree",
  "locales": ["crk"],
  "config": {
    "model": "google/gemini-3.5-flash",
    "temperature": 0.3
  },
  "benchmarks": {
    "crk": {
      "composite_score": 0.67,
      "fst_acceptance": 0.82,
      "corpus_size": 150
    }
  }
}

Xem Thông số kỹ thuật Plugin để biết định dạng đầy đủ.

Những gì đã hoàn thành so với Kế hoạch

Thành phần	Trạng thái
Giao thức TranslationMethod	✅ Đã hoàn thành
Trình chạy benchmark của Harness	✅ Đã hoàn thành
Định dạng plugin method.json	✅ Đã hoàn thành
`champollion plugin install/remove/list`	✅ Đã hoàn thành
Tải dữ liệu huấn luyện (Coaching data)	✅ Đã hoàn thành
CLI `mt-eval export`	🔲 Đang lên kế hoạch
Giao diện đánh giá từ cộng đồng	🔲 Đang lên kế hoạch
Đánh giá tập kiểm thử bằng mật mã	🔲 Đang lên kế hoạch

Đọc thêm

Các phương pháp dịch thuật — tất cả các phương pháp hiện có và cách chúng hoạt động
Thông số kỹ thuật Plugin — định dạng method.json
Cung cấp phương pháp qua API — lưu trữ phương pháp ở phía máy chủ (server-side)
Chủ quyền dữ liệu — OCAP, CARE và bảo vệ bằng mật mã
Dành cho nhà nghiên cứu MT — tài liệu hướng dẫn về eval harness

Quy trình: Nghiên cứu → Production​

1. Xây dựng phương pháp trong harness​

2. Đánh giá hiệu năng (Benchmark)​

3. Xuất dưới dạng plugin​

4. Cài đặt trong Champollion​

5. Dịch nội dung thực tế​

Quy trình: Production → Nghiên cứu​

Định dạng Plugin​

Những gì đã hoàn thành so với Kế hoạch​

Đọc thêm​