Chuyển đến nội dung chính

Các ngôn ngữ được hỗ trợ

champollion đi kèm với Language Cards (Thẻ ngôn ngữ) — các tệp cấu hình có cấu trúc dành cho 50 ngôn ngữ. Mỗi thẻ chứa các thiết lập trước về văn phong (register presets), siêu dữ liệu hệ thống mức độ trang trọng (formality system metadata), cờ hỗ trợ phương thức, quy tắc trình bày văn bản (typography rules) và thông tin chữ viết (script information). Bất kỳ ngôn ngữ nào mà LLM của bạn biết đều có thể được thêm vào chỉ với một dòng cấu hình duy nhất — đây là những ngôn ngữ có các văn phong đã được tinh chỉnh và sẵn sàng cho môi trường production.


Các phương thức dịch thuật

Mỗi ngôn ngữ có thể sử dụng một hoặc nhiều phương thức dịch thuật sau:

Biểu tượngPhương thứcCách hoạt độngChi phí
🟢Google TranslateBản dịch máy nơ-ron (Neural MT) cơ bản. Hơn 130 ngôn ngữ. Chỉ hỗ trợ chuỗi key-value — không thể dịch nội dung Markdown một cách an toàn.~$20/1 triệu ký tự
🔵LLM (OpenRouter)Bất kỳ ngôn ngữ nào mô hình biết. Prompt điều hướng theo văn phong. Xử lý cả chuỗi key-value + nội dung Markdown.Thay đổi tùy theo mô hình
🟣LLM-CoachedLLM + từ điển ngữ pháp + dữ liệu hướng dẫn (coaching data) được đưa vào prompt. Tốt nhất cho các ngôn ngữ có hình thái học phức tạp.Thay đổi tùy theo mô hình
🟠API (Plugin)Các pipeline dịch thuật do cộng đồng host được cung cấp qua HTTP. Tương thích với OCAP.Thay đổi tùy theo nhà cung cấp

Thiết lập GOOGLE_TRANSLATE_API_KEY cho Google Translate, hoặc OPENROUTER_API_KEY cho các phương thức LLM. Xem Các phương thức dịch thuật để biết thêm chi tiết.


Các ngôn ngữ ưu tiên

Đây là các locale được yêu cầu phổ biến nhất cho các ứng dụng web và di động, được liệt kê theo thứ tự ưu tiên khả năng tiếp cận (accessibility-first) do champollion khuyến nghị.

Quốc kỳNgôn ngữGoogleLLMCoachedChữ viếtGhi chú
🇸🇦Tiếng Ả RậparRTL (Viết từ phải sang trái). Tiếng Ả Rập chuẩn hiện đại (فصحى).
🇵🇭Tiếng Philippines (Taglish)tl / filSử dụng fil trong cấu hình Docusaurus. champollion xử lý được cả hai.
🇫🇷Tiếng PhápfrNgôi trang trọng (Vous-form). Bao hàm giới tính (Connecté·e).
🇪🇸Tiếng Tây Ban NhaesTiếng Tây Ban Nha Mỹ Latinh trung tính.
🇩🇪Tiếng ĐứcdeNgôi trang trọng (Sie-form). Bao hàm giới tính (Benutzer:innen).
🇯🇵Tiếng NhậtjaDùng です/ます cho văn bản nội dung, する cho nhãn giao diện (UI).
🇨🇳Tiếng Trung (Giản thể)zh简体中文.
🇮🇹Tiếng ÝitNgôi trang trọng (Lei-form).
🇧🇷Tiếng Bồ Đào Nha (Brazil)ptTiếng Bồ Đào Nha Brazil.
🇰🇷Tiếng HànkoVăn phong lịch sự 해요체.

Các ngôn ngữ lớn trên thế giới

Quốc kỳNgôn ngữGoogleLLMCoachedChữ viếtGhi chú
🇧🇩Tiếng BengalbnƯu tiên dùng শুদ্ধ ভাষা (Shuddho bhasha).
🇧🇬Tiếng Bulgariabg
🇨🇿Tiếng SéccsNgôi trang trọng Vykání (vy-form).
🇩🇰Tiếng Đan Mạchda
🇬🇷Tiếng Hy LạpelTiếng Hy Lạp hiện đại (Δημοτική).
🇮🇷Tiếng Ba TưfaRTL (Viết từ phải sang trái).
🇫🇮Tiếng Phần LanfiKhông có giống ngữ pháp.
🇮🇱Tiếng Do TháiheRTL (Viết từ phải sang trái).
🇮🇳Tiếng HindihiTiếng Hindi thuần (शुद्ध हिन्दी). Hạn chế tối đa từ mượn tiếng Anh.
🇭🇺Tiếng HungaryhuNgôi trang trọng Ön-form.
🇮🇩Tiếng Indonesiaid
🇲🇾Tiếng Mã Laims
🇳🇱Tiếng Hà LannlNgôi trang trọng U-form.
🇳🇴Tiếng Na UynbTiếng Na Uy Bokmål.
🇵🇱Tiếng Ba LanplNgôi trang trọng Pan/Pani.
🇵🇹Tiếng Bồ Đào Nha (Châu Âu)pt-PTTiếng Bồ Đào Nha Châu Âu.
🇷🇴Tiếng Romaniaro
🇷🇺Tiếng NgaruNgôi trang trọng Вы-form.
🇸🇰Tiếng SlovakiaskNgôi trang trọng Vykanie (vy-form).
🇷🇸Tiếng Serbiasr🔤 Latin→CyrillicBộ chuyển đổi chữ viết đơn trị (deterministic).
🇸🇪Tiếng Thụy Điểnsv
🇰🇪Tiếng Swahilisw
🇹🇭Tiếng TháithCác từ đệm lịch sự ครับ/ค่ะ.
🇹🇷Tiếng Thổ Nhĩ KỳtrNgôi trang trọng Siz-form.
🇺🇦Tiếng UkraineukNgôi trang trọng Ви-form.
🇵🇰Tiếng UrduurRTL (Viết từ phải sang trái). Ngôi trang trọng آپ.
🇻🇳Tiếng Việtvi
🇹🇼Tiếng Trung (Phồn thể)zh-TW繁體中文.
🇬🇪Tiếng Gruziakaქართული. Ngữ hệ Nam Kavkaz (Kartvelian).
🇳🇬Tiếng YorubayoÈdè Yorùbá. Ngôn ngữ thanh điệu (3 thanh điệu).

Các biến thể khu vực

Quốc kỳNgôn ngữGoogleLLMCoachedChữ viếtGhi chú
🇲🇽Tiếng Tây Ban Nha Mexicoes-MXNgôi thân mật Tú-form. Văn phong ấm áp.
🇨🇦Tiếng Pháp Canadafr-CAThành ngữ Québécois.

Ngôn ngữ bản địa & Ngôn ngữ ít tài nguyên

Những ngôn ngữ này không được hỗ trợ bởi các dịch vụ dịch máy thương mại. champollion cung cấp các công cụ để các cộng đồng ngôn ngữ tự xây dựng phương thức dịch thuật của riêng họ theo các nguyên tắc OCAP.

Ngôn ngữGoogleLLMCoachedChữ viếtTrạng thái
🪶Tiếng Plains Creecrk🔤 SRO→Syllabics🚧 Đang phát triển
🌄Tiếng QuechuaquRunasimi. Hậu tố chứng thực (evidential suffixes).

:::info Tiếng Plains Cree đang được tích cực phát triển Văn phong, cơ sở hạ tầng hướng dẫn (coaching), bộ chuyển đổi chữ viết và khung đánh giá (evaluation harness) cho tiếng Plains Cree đều đã hoạt động, nhưng pipeline dịch thuật vẫn chưa được phát hành. Chúng tôi đang làm việc với các cộng đồng ngôn ngữ theo các nguyên tắc OCAP để đảm bảo chất lượng trước khi phát hành. Xem Hỗ trợ một ngôn ngữ ít tài nguyên để biết toàn bộ câu chuyện — và cách bạn có thể đóng góp. :::

:::tip Thêm nhiều ngôn ngữ ít tài nguyên hơn Hệ thống plugin phương thức của champollion được thiết kế cho việc này. Một cộng đồng ngôn ngữ có thể xây dựng một phương thức dịch thuật tùy chỉnh, tự host và quản lý nó, rồi cung cấp thông qua phương thức API. Bảng xếp hạng phương thức theo dõi điểm số cho bất kỳ cặp ngôn ngữ nào — hãy xây dựng một phương thức, chạy khung đánh giá và giành vị trí dẫn đầu. :::


Ngôn ngữ nhân tạo

Các ngôn ngữ nhân tạo (conlang) được hỗ trợ thông qua văn phong LLM và các bộ chuyển đổi chữ viết tùy chọn. Chúng sử dụng cùng một cơ sở hạ tầng như các ngôn ngữ thực tế — quy trình kiểm soát chất lượng (quality gate), hệ thống hướng dẫn (coaching system) và pipeline chuyển đổi chữ viết hoạt động hoàn toàn giống nhau.

Ngôn ngữGoogleLLMChữ viếtGhi chú
🖖Tiếng Klingontlh🔤 Romanization→pIqaDYêu cầu font PUA. Từ vựng của Marc Okrand.
🧝Tiếng Sindarin (Tiếng Elf của Tolkien)x-elvish-s🔤 Latin→TengwarYêu cầu font CSUR PUA.
🏴‍☠️Tiếng Anh cướp biểnx-pirateChỉ có văn phong. Sử dụng các ẩn dụ hàng hải.
🦸Tiếng Kryptonx-kryptonian🔤 Latin→KryptonianYêu cầu font PUA.
🎭Tiếng Anh thời Shakespearex-shakespeareChỉ có văn phong. Sử dụng các dạng từ thee/thou, -eth/-est.
🐸Cách nói của Yodax-yodaChỉ có văn phong. Trật tự từ OSV (Tân ngữ - Chủ ngữ - Động từ).

Xem Ngôn ngữ nhân tạo, Chữ viết & Chính tả để biết các yêu cầu về font PUA, giới hạn Unicode và cách thêm ngôn ngữ của riêng bạn.


Các thiết lập sẵn ngôn ngữ

Trình hướng dẫn init hỗ trợ các tên thiết lập sẵn (preset) để thiết lập nhanh. Bạn có thể kết hợp các thiết lập sẵn với các mã ngôn ngữ riêng lẻ.

Thiết lập sẵnMở rộng thành
europeanfr, de, es, it, pt, nl
asianja, zh, ko
globalfr, es, de, ja, zh, ko, pt, ar
nordicda, fi, nb, sv
# Mix presets with individual codes
champollion init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

Thêm bất kỳ ngôn ngữ nào

champollion có thể dịch sang bất kỳ ngôn ngữ nào mà LLM của bạn biết — bảng trên chỉ liệt kê các ngôn ngữ có sẵn các thiết lập trước về văn phong. Để thêm một ngôn ngữ không có trong danh sách, hãy đưa mã BCP-47 của ngôn ngữ đó vào cấu hình của bạn:

{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}

LLM sẽ dịch bằng cách sử dụng kiến thức đã được huấn luyện về ngôn ngữ đó. Việc thiết lập một register giúp bạn kiểm soát tông giọng, mức độ trang trọng và các quy ước chính tả. Xem Cấu hình để biết thêm chi tiết.


Language Cards

Mỗi ngôn ngữ tích hợp sẵn đều có một Language Card (Thẻ ngôn ngữ) — một tệp JSON thống nhất trong shared/language-cards/ chứa tất cả siêu dữ liệu: văn phong, mức độ trang trọng, hỗ trợ phương thức, quy tắc trình bày văn bản, phân loại phả hệ, các thách thức ngôn ngữ và tài nguyên NLP.

Kiến trúc thẻ thống nhất

Mỗi thẻ được tải ngay lập tức (eagerly) khi import. Không có tầng tham chiếu riêng biệt — tất cả dữ liệu nằm trong một tệp duy nhất cho mỗi ngôn ngữ. Các thẻ được làm phong phú từ các nguồn uy tín:

NguồnDữ liệu
GlottologPhân loại ngữ hệ, chuỗi nguồn gốc, Glottocode
WALSPhân loại chi (genus), các đặc điểm loại hình học
CLDRChữ viết, hướng viết, quy tắc số nhiều, trình bày văn bản
ISO 15924Mã chữ viết

Các trường chính của thẻ

TrườngNội dung chứa
nativeNameTên tự gọi (Endonym) — tên của chính ngôn ngữ đó bằng chữ viết riêng của nó (ví dụ: ქართული, Runasimi)
classificationĐiểm neo phả hệ: ngữ hệ, chi, chuỗi nguồn gốc đầy đủ từ Glottolog
contactInfluencesLịch sử tiếp xúc phổ quát — các lớp từ mượn, siêu tầng (superstrates), phân tầng (substrates)
Hệ thống mức độ trang trọngPhân biệt T-V (ngôi thân mật/trang trọng), các cấp độ nói, kính ngữ (keigo), trợ từ, v.v.
Thiết lập sẵn văn phongCác thiết lập sẵn prompt LLM có tên gọi cụ thể cho đặc trưng của ngôn ngữ
Hỗ trợ phương thứcCác API dịch thuật nào hỗ trợ ngôn ngữ này
Hướng dẫn về giới tínhCác quy tắc giống ngữ pháp và mẹo viết bao hàm giới tính
Chữ viết/hướng viếtMã chữ viết ISO 15924 và RTL/LTR
Quy tắcTrình bày văn bản (dấu ngoặc kép, khoảng cách), viết hoa, các danh mục số nhiều
glottocodeMã định danh Glottolog chuẩn để đối chiếu chéo
dataSourcesTheo dõi nguồn gốc (ví dụ: ["glottolog-5.3", "cldr-48"])

Khởi tạo khung (Scaffolding) cho một Language Card mới

Sử dụng trình tạo để khởi tạo khung cho một thẻ từ các nguồn dữ liệu uy tín (IANA, CLDR, Glottolog):

# Preview what would be generated
node scripts/generate-language-card.mjs sw --dry-run

# Generate a unified card
node scripts/generate-language-card.mjs sw

Trình tạo sẽ tự động điền siêu dữ liệu (mã, chữ viết, hướng viết, số nhiều, dấu ngoặc kép, hỗ trợ phương thức, phân loại) và đánh dấu các trường đánh giá ngôn ngữ là TODO để con người tinh chỉnh.

Sử dụng các Preset Key

Thay vì viết toàn bộ văn bản văn phong, bạn có thể sử dụng tên preset key:

{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}

Champollion sẽ phân giải key đó thành prompt văn phong đầy đủ. Chạy npx champollion init để xem các thiết lập sẵn có cho từng ngôn ngữ.

Các thiết lập sẵn ví dụ

Ngôn ngữThiết lập sẵnMặc định
Tiếng Phápformal-vous, casual-tuformal-vous
Tiếng Hànpolite-haeyo, formal-hapsyo, casual-haepolite-haeyo
Tiếng Nhậtpolite, formal-keigo, casualpolite
Tiếng Đứcformal-Sie, casual-duformal-Sie
Tiếng Tháineutral-professional, polite-male, polite-femaleneutral-professional
Tiếng Tây Ban Nhaneutral-professional, formal-usted, casual-tuteoneutral-professional

Xem Đóng góp một Language Card để biết đặc tả đầy đủ, bao gồm xác thực trường dữ liệu và danh sách kiểm tra PR.


Xem thêm