Dữ liệu Huấn luyện

Dữ liệu huấn luyện là cơ chế của Champollion để dạy cho các LLM về những ngôn ngữ mà chúng chưa từng được đào tạo. Bằng cách cung cấp các quy tắc ngữ pháp, từ điển và lưu ý về phong cách cùng với mỗi yêu cầu dịch thuật, bạn sẽ biến một LLM đa dụng thành một trình dịch thuật nhận biết ngữ cảnh cho bất kỳ ngôn ngữ nào — bao gồm cả các ngôn ngữ hoàn toàn chưa được hỗ trợ dịch máy (MT).

Cách thức Hoạt động

Khi bạn thiết lập phương thức của một cặp ngôn ngữ thành llm-coached, Champollion sẽ tải một tệp huấn luyện từ .champollion/coaching/<locale>.json và chèn nội dung của nó vào mọi prompt của LLM như một phần của thông điệp hệ thống (system message). LLM sẽ thấy các quy tắc ngôn ngữ của bạn cùng với yêu cầu dịch thuật, từ đó tạo ra kết quả đầu ra tuân theo ngữ pháp và thuật ngữ của bạn thay vì tự đoán.

┌──────────────────────────────────────────────────────┐
│ System Message (cached across batches)               │
│ ┌──────────────────────────────────────────────────┐ │
│ │ Base translation rules                           │ │
│ │ + Register instructions                          │ │
│ │ + Coaching guidance (from coachingFile, if set)   │ │
│ │ + Grammar rules (from coaching data)             │ │
│ │ + Dictionary entries (from coaching data)         │ │
│ │ + Style notes (from coaching data)               │ │
│ └──────────────────────────────────────────────────┘ │
├──────────────────────────────────────────────────────┤
│ User Message (per batch)                             │
│ ┌──────────────────────────────────────────────────┐ │
│ │ Keys to translate (JSON)                         │ │
│ └──────────────────────────────────────────────────┘ │
└──────────────────────────────────────────────────────┘

Có hai loại nội dung huấn luyện:

Dữ liệu huấn luyện có cấu trúc (phương thức llm-coached) — Các quy tắc ngữ pháp, từ điển và lưu ý về phong cách ở định dạng JSON. Được tải từ .champollion/coaching/<locale>.json hoặc thư mục coaching/ của một plugin.
Prompt huấn luyện dạng văn bản tự do (trường cấu hình coachingFile) — Một tệp văn bản thuần túy chứa hướng dẫn bổ sung được chèn vào prompt hệ thống. Hoạt động với bất kỳ phương thức LLM nào, không chỉ riêng llm-coached. Được thiết lập thông qua coachingFile trong cấu hình của bạn hoặc --coaching-file trên CLI.

Cả hai đều có thể được sử dụng cùng nhau. Hệ thống đánh giá (eval harness) sử dụng cấu trúc prompt hoàn toàn giống hệt — vì vậy điểm số benchmark của bạn sẽ phản ánh chính xác các prompt thực tế trong môi trường production.

Vì dữ liệu huấn luyện là một phần của thông điệp hệ thống, nó sẽ được hưởng lợi từ prompt caching — các nhà cung cấp như Anthropic và Google sẽ lưu cache các tiền tố hệ thống lặp đi lặp lại, vì vậy bạn chỉ cần trả phí cho ngữ cảnh huấn luyện một lần cho mỗi phiên, chứ không phải cho mỗi batch.

Định dạng Tệp Huấn luyện

Tạo một tệp JSON cho mỗi locale trong .champollion/coaching/:

.champollion/coaching/crk.json
{
  "grammar_rules": [
    "Plains Cree is polysynthetic — a single word can express what English needs a full sentence for",
    "Animate/inanimate noun distinction affects verb conjugation",
    "Use SRO (Standard Roman Orthography) unless script converter handles conversion",
    "Verb stems are modified by prefixes and suffixes to indicate person, number, tense, and evidentiality"
  ],
  "dictionary": {
    "home": "kīwēwin",
    "settings": "isi-nākatohkēwin",
    "search": "nānātawāpahtam",
    "welcome": "tānisi",
    "submit": "ispīhci",
    "cancel": "pōni"
  },
  "style_notes": "Use formal register. Preserve English technical terms in parentheses when no Cree equivalent exists. Avoid loanwords when a descriptive Cree expression exists."
}

Các trường

Trường	Kiểu dữ liệu	Bắt buộc	Mô tả
`grammar_rules`	`string[]`	Không	Mảng các quy tắc ngữ pháp được chèn vào prompt hệ thống. Mỗi quy tắc nên là một hướng dẫn ngắn gọn, có thể thực hiện được mà LLM có thể tuân theo.
`dictionary`	`object`	Không	Bản đồ key-value của thuật ngữ tiếng Anh → thuật ngữ ngôn ngữ đích. Được sử dụng cho từ vựng chuyên ngành mà LLM không biết.
`style_notes`	`string`	Không	Các hướng dẫn phong cách tự do (văn phong, tông giọng, quy ước về mức độ trang trọng).

Tất cả các trường đều là tùy chọn — bạn có thể bắt đầu chỉ với một từ điển và thêm các quy tắc ngữ pháp khi bạn tinh chỉnh dần.

Hành vi Dự phòng (Fallback)

Nếu một cặp ngôn ngữ được cấu hình cho llm-coached nhưng không có tệp huấn luyện nào tồn tại cho locale đó, Champollion sẽ quay về phương thức llm tiêu chuẩn kèm theo một cảnh báo trên console:

[INFO] No coaching data for "crk" at .champollion/coaching/crk.json
       Falling back to standard LLM method. Create coaching data for better results.

Điều này có nghĩa là bạn có thể thiết lập "defaultMethod": "llm-coached" trên toàn cục một cách an toàn — các ngôn ngữ có dữ liệu huấn luyện sẽ sử dụng nó, và các ngôn ngữ còn lại sẽ nhận được bản dịch LLM tiêu chuẩn mà không gặp lỗi.

Khi nào nên Sử dụng Huấn luyện

Kịch bản	Phương thức Khuyến nghị
Các ngôn ngữ Nhóm 1 (tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức)	`llm` hoặc `google-translate` — LLM đã biết rất rõ các ngôn ngữ này
Các ngôn ngữ Nhóm 2 (tiếng Hàn, tiếng Thổ Nhĩ Kỳ, tiếng Thái)	`llm` với một văn phong cụ thể — LLM xử lý các ngôn ngữ này ở mức chấp nhận được nếu có hướng dẫn về phong cách
Các ngôn ngữ Nhóm 3 (Plains Cree, Yoruba, Quechua)	`llm-coached` — LLM cần các quy tắc ngữ pháp và từ điển
Ngôn ngữ nhân tạo (Klingon, Sindarin, Kryptonian)	`llm-coached` — LLM có một số dữ liệu đào tạo nhưng cần được sửa lỗi

Xây dựng Dữ liệu Huấn luyện Chất lượng

Quy tắc Ngữ pháp

Hãy viết các quy tắc dưới dạng hướng dẫn, không phải mô tả. LLM tuân theo các hướng dẫn tốt hơn là tự diễn giải lý thuyết ngôn ngữ học.

// ❌ Descriptive (the LLM learns nothing actionable)
"Plains Cree has animate and inanimate noun classes"

// ✅ Instructive (the LLM knows what to do)
"When translating nouns, check whether the Cree equivalent is animate (NA) or inanimate (NI) — this affects which verb conjugation to use"

Từ điển

Tập trung vào các thuật ngữ chuyên ngành mà LLM dễ dịch sai hoặc tự chế ra. Đừng bận tâm đến các từ thông dụng mà LLM đã xử lý tốt — hãy tập trung vào các thuật ngữ đặc thù trong giao diện người dùng (UI) của ứng dụng của bạn.

Lưu ý về Phong cách

Hãy cụ thể về văn phong, mức độ trang trọng và các quy ước:

"style_notes": "Use formal register (vous-form in French). Preserve brand names untranslated. UI labels should be imperative mood ('Save', not 'Saves'). Maximum 40 characters for button text."

Kiểm thử các Bản dịch được Huấn luyện

Sử dụng MT Eval Harness để đánh giá (benchmark) các bản dịch được huấn luyện của bạn so với một kho ngữ liệu tham chiếu:

# Install the harness
pip install mt-eval-harness

# Run coached translations against your test corpus
mt-eval run --corpus data/crk-corpus.json --model google/gemini-2.5-pro

# Score the results
mt-eval test eval/logs/run_*.json

Công cụ này sẽ cung cấp cho bạn các điểm số chrF++, BLEU và khớp chính xác (exact match). Hãy tạo nhiều phiên bản tệp huấn luyện khác nhau và so sánh — các chỉ số khách quan luôn tốt hơn việc đánh giá cảm tính.

Xem thêm

Phương thức Dịch thuật — phương thức llm-coached
Hỗ trợ Ngôn ngữ Ít tài nguyên — huấn luyện trong thực tế
Đặc tả Plugin — đóng gói dữ liệu huấn luyện trong một plugin
Cổng Chất lượng (Quality Gate) — cách các bản dịch được huấn luyện được xác thực
Cấu hình — cấu hình huấn luyện cho từng cặp ngôn ngữ

Cách thức Hoạt động​

Định dạng Tệp Huấn luyện​

Các trường​

Hành vi Dự phòng (Fallback)​

Khi nào nên Sử dụng Huấn luyện​

Xây dựng Dữ liệu Huấn luyện Chất lượng​

Quy tắc Ngữ pháp​

Từ điển​

Lưu ý về Phong cách​

Kiểm thử các Bản dịch được Huấn luyện​

Xem thêm​