champollion
완전히 커스터마이즈할 수 있는 국제화 프레임워크예요. 명령어 하나로 로케일 파일을 번역해요. 설정 하나로 모든 방식, 모델, 언어 쌍을 제어해요. 그리고 내장된 방식이 충분하지 않다면 — 직접 만들고, 작동을 증명하고, 배포하세요.
npx champollion sync
champollion은 로케일 파일, 형식, 대상 언어를 자동으로 감지해요. 누락된 부분을 번역하고, 완료된 부분은 건너뛰고, 모든 결과를 검증하고, 깔끔한 출력을 작성해요. 이것이 출발점이에요.
그냥 직접 스크립트를 작성하면 안 되나요?
각 키에 대해 Google Translate를 호출하는 간단한 루프를 작성할 수 있어요. 대부분의 개발자가 그렇게 하죠 — 약 30줄이면 돼요. 그런데 여기서 문제가 생겨요:
- 변경 감지가 없어요. 영어 문자열을 업데이트하면 — 번역은 영원히 오래된 상태로 남아요. champollion은 모든 소스 값을 SHA-256 해시로 추적하고 변경된 부분만 다시 번역해요.
- 배치 처리가 없어요. 키당 API 호출 하나면 키 200개 = 왕복 요청 200번이에요. champollion은 지능적으로 배치 처리해요(설정 가능, LLM은 기본 80키/배치, Google은 128키).
- 캐싱이 없어요. 동기화할 때마다 모든 것을 다시 번역해요. champollion의 Translation Memory는 소스 텍스트 + 로케일 + 방식 기준으로 번역을 캐시해요 — 키 하나가 변경된 후 sync를 다시 실행하면 전체 파일이 아니라 그 키 하나만 번역해요.
- 품질 게이트가 없어요. 기계 번역은 환각을 일으키거나, 소스를 그대로 반복하거나, 잘못된 문자 체계로 출력해요. champollion은 모든 번역을 작성하기 전에 검증해요 — 잘못된 문자 체계, 길이 부풀림, 소스 반복을 잡아내고 거부해요.
- 형식 인식이 없어요. JSON에 하드코딩되어 있나요? champollion은 JSON, TOML, YAML, Hugo Markdown(frontmatter + 본문)을 자동 감지로 처리해요.
- 방식 제어가 없어요. 모든 쌍이 동일한 방식을 사용해요. champollion은 프랑스어에 Google Translate, 일본어에 LLM, Cree에 커뮤니티가 호스팅하는 커스텀 파이프라인을 — 같은 설정 파일 안에서 사용할 수 있게 해줘요.
champollion은 그 스크립트의 프로덕션 버전이에요.
무엇이 다른가요
모든 방식은 플러그인이에요
번역 방식은 언어 쌍별로 설정 가능해요. 같은 프로젝트에서 Google Translate, LLM, 코칭된 프롬프트, 커스텀 API를 혼합하세요:
{
"version": 3,
"pairs": {
"en:fr": { "method": "google-translate" },
"en:ja": { "method": "llm", "model": "google/gemini-2.5-pro" },
"en:crk": { "methodPlugin": "crk-coached-v1" }
}
}
프랑스어는 Google Translate를 사용해요(빠르고 저렴해요). 일본어는 프리미엄 LLM을 사용해요(뉘앙스가 풍부해요). Plains Cree는 문법 규칙, 사전, 형태론적 검증을 갖춘 코칭된 플러그인을 사용해요. 같은 sync 명령어예요. 같은 품질 게이트예요. 같은 CLI예요.
증명하세요
당신의 방식이 영어를 스페인어로 번역할 수 있다고 생각하나요? 터키어를 아제르바이잔어로? 영어를 Cree로?
증명하세요. 함께 제공되는 eval harness는 재현 가능하고 핑거프린팅된 채점으로 모든 번역 방식을 벤치마크해요. leaderboard는 모든 제출 항목을 추적해요.
eval harness와 프로덕션 CLI는 같은 플러그인 인터페이스를 공유해요. harness에서 좋은 점수를 받은 방식은 프로덕션에서 사용할 수 있어요 — 그 방식이 서비스하는 언어의 커뮤니티가 동의한다면요. 원주민 언어와 저자원 언어의 경우, 그 동의가 중요해요. Data Sovereignty를 참고하세요.
# Benchmark your method (in the eval harness repo)
cd arena
python eval/baseline_experiment.py --dataset data/edtekla-dev-v1.json --submit
# Use it locally
npx champollion sync
같은 플러그인이에요. 연결하고 테스트하세요.
완전한 도구 모음
champollion은 단순히 sync만이 아니에요. 완전한 i18n 파이프라인이에요:
| 명령어 | 하는 일 |
|---|---|
sync | 누락되거나 오래된 키 번역(동기화 후 검증 포함) |
watch | 소스 파일이 변경될 때 자동 동기화 |
lint | 소스 코드에서 하드코딩된 문자열 스캔 |
wrap | 하드코딩된 문자열을 t() 호출로 자동 래핑 |
audit | 이전 실행에서 생긴 모든 [EN] 폴백 마커 나열 |
verify | 번역이 존재하고 올바른지 검증(CI 게이트) |
integrity | 플레이스홀더 손상, 인코딩 문제, ICU 복수형 완전성 감지 |
seo | hreflang 태그, 사이트맵, JSON-LD 스키마 생성 |
status | 쌍 설정, 플러그인, 벤치마크 점수 표시 |
provenance | 번역 리소스 라이선스 감사 |
plugin | 방식 플러그인 설치, 제거, 나열 |
fonts | PUA 문자 체계 변환기용 웹 폰트 다운로드 |
tm | Translation Memory 캐시 관리(통계, 삭제, 로케일별) |
xliff | 전문 번역가 검토를 위한 XLIFF 1.2 내보내기/가져오기 |
이 중 네 가지 — lint, sync, verify, audit — 는 하드코딩된 문자열을 잡아내고, 번역하고, 정확성을 검증하고, 로케일이 불완전하면 빌드를 실패시키는 CI 파이프라인을 구성해요.
The Arena
Method Leaderboard는 점수판이에요. 모든 제출 항목은 Git 커밋에 핑거프린팅되고, 특정 데이터셋에 버전이 지정되고, 같은 harness로 채점돼요. 누구나 제출할 수 있어요.
무엇을 증명할 수 있나요? harness는 JSON을 받아요. 플러그인도 JSON을 받아요. JSON을 생성하는 모든 방식을 테스트할 수 있어요:
| 접근 방식 | 예시 |
|---|---|
| 코칭된 LLM | 프런티어 모델의 프롬프트에 문법 규칙과 사전을 주입 |
| 파인튜닝된 모델 | 병렬 텍스트로 오픈 모델 훈련 — 단, eval 데이터로는 안 됨 |
| FST 게이트 파이프라인 | LLM이 생성 → 유한 상태 변환기가 형태론 검증 → 재시도 |
| 체이닝된 모델 | 모델 A가 초안 작성 → 모델 B가 후편집 → 모델 C가 채점 |
| 사전 + LLM | 사전의 알려진 용어를 강제하고, 나머지는 LLM이 처리 |
| 진화적 방식 | 후보 생성, 채점, 최고 후보 변형, 반복 |
| 부분 번역 | 샘플을 직접 번역, LLM이 일치함을 증명, 나머지는 자동 번역 |
모델을 파인튜닝하세요. 진화 알고리즘을 배포하세요. 언어 시험에서 학생 답안을 테스트하세요. 룩업 테이블을 만드세요. 세 모델을 함께 체이닝하세요. 당신의 방식이 JSON을 생성하기만 하면, harness가 채점하고 프레임워크가 실행해요.
:::danger 단 하나의 규칙 평가 데이터로 훈련하지 마세요. 벤치마크 데이터셋에 노출된 방식은 실격돼요. 원하는 무엇으로든 파인튜닝하세요. 단, 테스트 세트로는 안 돼요. :::
이것은 열린 초대예요. 저자원 언어를 다루신다면 — 연구자로서, 커뮤니티 구성원으로서, 학생으로서, 또는 그저 관심을 가진 사람으로서 — 방식을 만들고, harness를 실행하고, 최고 점수를 차지하세요. 이 문제는 아직 해결되지 않았어요. 인프라는 여기에 있어요.
다음 단계
시작하기:
- Installation — 2분 안에 설정하기
- Quick Start — 첫 동기화 실행하기
- Supported Languages — 기본 제공되는 항목
설정 커스터마이즈하기:
- Translation Methods — 쌍별로 알맞은 방식 선택하기
- Translation Memory — 캐싱이 비용을 절약하는 방법
- Configuration — 전체 설정 레퍼런스
- Hugo Multilingual Site — Markdown 콘텐츠 번역
더 깊이 들어가기:
- Working with Professional Translators — XLIFF 내보내기/가져오기 워크플로
- Data Sovereignty — OCAP, CARE, Māori Data Sovereignty 원칙
- Support a Low-Resource Language — 모든 것을 시작한 도전
- Cookbook: FST-Gated Pipeline — 분해 파이프라인 구축하기
- MT Evaluation — harness와 리더보드의 작동 방식
- Method Leaderboard — 실시간 점수와 제출 항목