بيانات التدريب اللغوي (Coaching Data)

بيانات التدريب اللغوي هي آلية champollion لتعليم نماذج اللغة الكبيرة (LLM) لغاتٍ لم تُدرَّب عليها. من خلال توفير قواعد النحو والقواميس وملاحظات الأسلوب مع كل طلب ترجمة، تحوّل نموذج لغة عام الأغراض إلى مترجم واعٍ بالسياق لأي لغة — بما في ذلك اللغات التي لا يتوفر لها أي دعم للترجمة الآلية على الإطلاق.

كيف تعمل

عند تعيين طريقة زوج اللغات إلى llm-coached، يقوم champollion بتحميل ملف تدريب لغوي من .champollion/coaching/<locale>.json ويُدرج محتوياته في كل طلب موجّه إلى نموذج اللغة كجزء من رسالة النظام. يرى النموذج قواعدك اللغوية إلى جانب طلب الترجمة، فينتج مخرجات تتبع قواعدك ومصطلحاتك بدلاً من التخمين.

┌──────────────────────────────────────────────────────┐
│ System Message (cached across batches)               │
│ ┌──────────────────────────────────────────────────┐ │
│ │ Base translation rules                           │ │
│ │ + Register instructions                          │ │
│ │ + Coaching guidance (from coachingFile, if set)   │ │
│ │ + Grammar rules (from coaching data)             │ │
│ │ + Dictionary entries (from coaching data)         │ │
│ │ + Style notes (from coaching data)               │ │
│ └──────────────────────────────────────────────────┘ │
├──────────────────────────────────────────────────────┤
│ User Message (per batch)                             │
│ ┌──────────────────────────────────────────────────┐ │
│ │ Keys to translate (JSON)                         │ │
│ └──────────────────────────────────────────────────┘ │
└──────────────────────────────────────────────────────┘

هناك نوعان من محتوى التدريب اللغوي:

بيانات تدريب لغوي منظّمة (طريقة llm-coached) — قواعد نحوية وقواميس وملاحظات أسلوبية بصيغة JSON. تُحمَّل من .champollion/coaching/<locale>.json أو من دليل coaching/ الخاص بإحدى الإضافات.
موجّه تدريب لغوي نصي حر (حقل الإعداد coachingFile) — ملف نصي عادي يحتوي على إرشادات إضافية تُدرج في موجّه النظام. يعمل مع أي طريقة تعتمد على نماذج اللغة، وليس فقط مع llm-coached. يُعيَّن عبر coachingFile في ملف الإعدادات أو --coaching-file في سطر الأوامر.

يمكن استخدام النوعين معًا. يستخدم إطار التقييم (eval harness) بنية الموجّه نفسها تمامًا — وبالتالي تعكس نتائج المعايير موجّهات الإنتاج الفعلية لديك.

نظرًا لأن بيانات التدريب اللغوي جزء من رسالة النظام، فإنها تستفيد من التخزين المؤقت للموجّهات (prompt caching) — إذ يقوم مزوّدون مثل Anthropic وGoogle بتخزين بادئات النظام المتكررة مؤقتًا، فلا تدفع تكلفة سياق التدريب اللغوي سوى مرة واحدة لكل جلسة، وليس مرة لكل دفعة.

صيغة ملف التدريب اللغوي

أنشئ ملف JSON واحدًا لكل لغة محلية في .champollion/coaching/:

.champollion/coaching/crk.json
{
  "grammar_rules": [
    "Plains Cree is polysynthetic — a single word can express what English needs a full sentence for",
    "Animate/inanimate noun distinction affects verb conjugation",
    "Use SRO (Standard Roman Orthography) unless script converter handles conversion",
    "Verb stems are modified by prefixes and suffixes to indicate person, number, tense, and evidentiality"
  ],
  "dictionary": {
    "home": "kīwēwin",
    "settings": "isi-nākatohkēwin",
    "search": "nānātawāpahtam",
    "welcome": "tānisi",
    "submit": "ispīhci",
    "cancel": "pōni"
  },
  "style_notes": "Use formal register. Preserve English technical terms in parentheses when no Cree equivalent exists. Avoid loanwords when a descriptive Cree expression exists."
}

الحقول

الحقل	النوع	مطلوب	الوصف
`grammar_rules`	`string[]`	لا	مصفوفة من القواعد النحوية تُدرج في موجّه النظام. ينبغي أن تكون كل قاعدة تعليمة موجزة وقابلة للتنفيذ يمكن للنموذج اتباعها.
`dictionary`	`object`	لا	خريطة مفتاح-قيمة من المصطلح الإنجليزي ← المصطلح في اللغة الهدف. تُستخدم للمفردات المتخصصة بالمجال التي لا يعرفها النموذج.
`style_notes`	`string`	لا	تعليمات أسلوبية حرة الصياغة (المستوى اللغوي، النبرة، أعراف الرسمية).

جميع الحقول اختيارية — يمكنك البدء بقاموس فقط ثم إضافة القواعد النحوية مع تحسين عملك تدريجيًا.

السلوك الاحتياطي

إذا كان زوج اللغات مهيّأً لاستخدام llm-coached ولكن لا يوجد ملف تدريب لغوي لتلك اللغة، فإن champollion يتراجع إلى الطريقة القياسية llm مع إظهار تحذير في وحدة التحكم:

[INFO] No coaching data for "crk" at .champollion/coaching/crk.json
       Falling back to standard LLM method. Create coaching data for better results.

هذا يعني أنه يمكنك بأمان تعيين "defaultMethod": "llm-coached" بشكل عام — فاللغات التي تتوفر لها بيانات تدريب لغوي ستستخدمها، أما البقية فستحصل على ترجمة قياسية بنموذج اللغة دون أخطاء.

متى تستخدم التدريب اللغوي

السيناريو	الطريقة الموصى بها
لغات المستوى الأول (الفرنسية، الإسبانية، الألمانية)	`llm` أو `google-translate` — نماذج اللغة تجيدها بالفعل
لغات المستوى الثاني (الكورية، التركية، التايلاندية)	`llm` مع تحديد المستوى اللغوي — تتعامل النماذج معها بشكل مقبول مع إرشادات أسلوبية
لغات المستوى الثالث (كري السهول، اليوروبا، الكيتشوا)	`llm-coached` — تحتاج النماذج إلى قواعد نحوية وقواميس
اللغات المصطنعة (الكلينغونية، السندارينية، الكريبتونية)	`llm-coached` — لدى النماذج بعض بيانات التدريب لكنها تحتاج إلى تصحيحات

بناء بيانات تدريب لغوي جيدة

القواعد النحوية

اكتب القواعد على شكل تعليمات، وليس أوصافًا. يتّبع النموذج التعليمات بشكل أفضل من تفسيره للنظرية اللغوية.

// ❌ Descriptive (the LLM learns nothing actionable)
"Plains Cree has animate and inanimate noun classes"

// ✅ Instructive (the LLM knows what to do)
"When translating nouns, check whether the Cree equivalent is animate (NA) or inanimate (NI) — this affects which verb conjugation to use"

القواميس

ركّز على المصطلحات المتخصصة بالمجال التي قد يخطئ فيها النموذج أو يختلقها. لا داعي للاهتمام بالكلمات الشائعة التي يتعامل معها النموذج جيدًا بالفعل — ركّز على المصطلحات الخاصة بواجهة تطبيقك.

ملاحظات الأسلوب

كن محددًا بشأن المستوى اللغوي والرسمية والأعراف:

"style_notes": "Use formal register (vous-form in French). Preserve brand names untranslated. UI labels should be imperative mood ('Save', not 'Saves'). Maximum 40 characters for button text."

اختبار الترجمات المدرَّبة لغويًا

استخدم إطار تقييم الترجمة الآلية (MT Eval Harness) لقياس أداء ترجماتك المدرَّبة لغويًا مقارنةً بمدونة مرجعية:

# Install the harness
pip install mt-eval-harness

# Run coached translations against your test corpus
mt-eval run --corpus data/crk-corpus.json --model google/gemini-2.5-pro

# Score the results
mt-eval test eval/logs/run_*.json

يمنحك ذلك درجات chrF++ وBLEU والتطابق التام. أنشئ إصدارات متعددة من ملفات التدريب اللغوي وقارن بينها — فالمقاييس الموضوعية أفضل من المراجعة الذاتية.

انظر أيضًا

طرق الترجمة — طريقة llm-coached
دعم لغة منخفضة الموارد — التدريب اللغوي في التطبيق العملي
مواصفات الإضافات — تضمين بيانات التدريب اللغوي في إضافة
بوابة الجودة — كيفية التحقق من صحة الترجمات المدرَّبة لغويًا
الإعدادات — إعدادات التدريب اللغوي لكل زوج لغات

كيف تعمل​

صيغة ملف التدريب اللغوي​

الحقول​

السلوك الاحتياطي​

متى تستخدم التدريب اللغوي​

بناء بيانات تدريب لغوي جيدة​

القواعد النحوية​

القواميس​

ملاحظات الأسلوب​

اختبار الترجمات المدرَّبة لغويًا​

انظر أيضًا​