본문으로 건너뛰기

champollion

완전히 커스터마이즈할 수 있는 국제화 프레임워크예요. 명령어 하나로 로케일 파일을 번역해요. 설정 하나로 모든 방식, 모델, 언어 쌍을 제어해요. 그리고 내장된 방식이 충분하지 않다면 — 직접 만들고, 작동을 증명하고, 배포하세요.

npx champollion sync

champollion은 로케일 파일, 형식, 대상 언어를 자동으로 감지해요. 누락된 부분을 번역하고, 완료된 부분은 건너뛰고, 모든 결과를 검증하고, 깔끔한 출력을 작성해요. 이것이 출발점이에요.


그냥 직접 스크립트를 작성하면 안 되나요?

각 키에 대해 Google Translate를 호출하는 간단한 루프를 작성할 수 있어요. 대부분의 개발자가 그렇게 하죠 — 약 30줄이면 돼요. 그런데 여기서 문제가 생겨요:

  • 변경 감지가 없어요. 영어 문자열을 업데이트하면 — 번역은 영원히 오래된 상태로 남아요. champollion은 모든 소스 값을 SHA-256 해시로 추적하고 변경된 부분만 다시 번역해요.
  • 배치 처리가 없어요. 키당 API 호출 하나면 키 200개 = 왕복 요청 200번이에요. champollion은 지능적으로 배치 처리해요(설정 가능, LLM은 기본 80키/배치, Google은 128키).
  • 캐싱이 없어요. 동기화할 때마다 모든 것을 다시 번역해요. champollion의 Translation Memory는 소스 텍스트 + 로케일 + 방식 기준으로 번역을 캐시해요 — 키 하나가 변경된 후 sync를 다시 실행하면 전체 파일이 아니라 그 키 하나만 번역해요.
  • 품질 게이트가 없어요. 기계 번역은 환각을 일으키거나, 소스를 그대로 반복하거나, 잘못된 문자 체계로 출력해요. champollion은 모든 번역을 작성하기 전에 검증해요 — 잘못된 문자 체계, 길이 부풀림, 소스 반복을 잡아내고 거부해요.
  • 형식 인식이 없어요. JSON에 하드코딩되어 있나요? champollion은 JSON, TOML, YAML, Hugo Markdown(frontmatter + 본문)을 자동 감지로 처리해요.
  • 방식 제어가 없어요. 모든 쌍이 동일한 방식을 사용해요. champollion은 프랑스어에 Google Translate, 일본어에 LLM, Cree에 커뮤니티가 호스팅하는 커스텀 파이프라인을 — 같은 설정 파일 안에서 사용할 수 있게 해줘요.

champollion은 그 스크립트의 프로덕션 버전이에요.


무엇이 다른가요

모든 방식은 플러그인이에요

번역 방식은 언어 쌍별로 설정 가능해요. 같은 프로젝트에서 Google Translate, LLM, 코칭된 프롬프트, 커스텀 API를 혼합하세요:

champollion.config.json
{
"version": 3,
"pairs": {
"en:fr": { "method": "google-translate" },
"en:ja": { "method": "llm", "model": "google/gemini-2.5-pro" },
"en:crk": { "methodPlugin": "crk-coached-v1" }
}
}

프랑스어는 Google Translate를 사용해요(빠르고 저렴해요). 일본어는 프리미엄 LLM을 사용해요(뉘앙스가 풍부해요). Plains Cree는 문법 규칙, 사전, 형태론적 검증을 갖춘 코칭된 플러그인을 사용해요. 같은 sync 명령어예요. 같은 품질 게이트예요. 같은 CLI예요.

증명하세요

당신의 방식이 영어를 스페인어로 번역할 수 있다고 생각하나요? 터키어를 아제르바이잔어로? 영어를 Cree로?

증명하세요. 함께 제공되는 eval harness는 재현 가능하고 핑거프린팅된 채점으로 모든 번역 방식을 벤치마크해요. leaderboard는 모든 제출 항목을 추적해요.

eval harness와 프로덕션 CLI는 같은 플러그인 인터페이스를 공유해요. harness에서 좋은 점수를 받은 방식은 프로덕션에서 사용할 수 있어요 — 그 방식이 서비스하는 언어의 커뮤니티가 동의한다면요. 원주민 언어와 저자원 언어의 경우, 그 동의가 중요해요. Data Sovereignty를 참고하세요.

# Benchmark your method (in the eval harness repo)
cd arena
python eval/baseline_experiment.py --dataset data/edtekla-dev-v1.json --submit

# Use it locally
npx champollion sync

같은 플러그인이에요. 연결하고 테스트하세요.

완전한 도구 모음

champollion은 단순히 sync만이 아니에요. 완전한 i18n 파이프라인이에요:

명령어하는 일
sync누락되거나 오래된 키 번역(동기화 후 검증 포함)
watch소스 파일이 변경될 때 자동 동기화
lint소스 코드에서 하드코딩된 문자열 스캔
wrap하드코딩된 문자열을 t() 호출로 자동 래핑
audit이전 실행에서 생긴 모든 [EN] 폴백 마커 나열
verify번역이 존재하고 올바른지 검증(CI 게이트)
integrity플레이스홀더 손상, 인코딩 문제, ICU 복수형 완전성 감지
seohreflang 태그, 사이트맵, JSON-LD 스키마 생성
status쌍 설정, 플러그인, 벤치마크 점수 표시
provenance번역 리소스 라이선스 감사
plugin방식 플러그인 설치, 제거, 나열
fontsPUA 문자 체계 변환기용 웹 폰트 다운로드
tmTranslation Memory 캐시 관리(통계, 삭제, 로케일별)
xliff전문 번역가 검토를 위한 XLIFF 1.2 내보내기/가져오기

이 중 네 가지 — lint, sync, verify, audit — 는 하드코딩된 문자열을 잡아내고, 번역하고, 정확성을 검증하고, 로케일이 불완전하면 빌드를 실패시키는 CI 파이프라인을 구성해요.


The Arena

Method Leaderboard는 점수판이에요. 모든 제출 항목은 Git 커밋에 핑거프린팅되고, 특정 데이터셋에 버전이 지정되고, 같은 harness로 채점돼요. 누구나 제출할 수 있어요.

무엇을 증명할 수 있나요? harness는 JSON을 받아요. 플러그인도 JSON을 받아요. JSON을 생성하는 모든 방식을 테스트할 수 있어요:

접근 방식예시
코칭된 LLM프런티어 모델의 프롬프트에 문법 규칙과 사전을 주입
파인튜닝된 모델병렬 텍스트로 오픈 모델 훈련 — 단, eval 데이터로는 안 됨
FST 게이트 파이프라인LLM이 생성 → 유한 상태 변환기가 형태론 검증 → 재시도
체이닝된 모델모델 A가 초안 작성 → 모델 B가 후편집 → 모델 C가 채점
사전 + LLM사전의 알려진 용어를 강제하고, 나머지는 LLM이 처리
진화적 방식후보 생성, 채점, 최고 후보 변형, 반복
부분 번역샘플을 직접 번역, LLM이 일치함을 증명, 나머지는 자동 번역

모델을 파인튜닝하세요. 진화 알고리즘을 배포하세요. 언어 시험에서 학생 답안을 테스트하세요. 룩업 테이블을 만드세요. 세 모델을 함께 체이닝하세요. 당신의 방식이 JSON을 생성하기만 하면, harness가 채점하고 프레임워크가 실행해요.

:::danger 단 하나의 규칙 평가 데이터로 훈련하지 마세요. 벤치마크 데이터셋에 노출된 방식은 실격돼요. 원하는 무엇으로든 파인튜닝하세요. 단, 테스트 세트로는 안 돼요. :::

이것은 열린 초대예요. 저자원 언어를 다루신다면 — 연구자로서, 커뮤니티 구성원으로서, 학생으로서, 또는 그저 관심을 가진 사람으로서 — 방식을 만들고, harness를 실행하고, 최고 점수를 차지하세요. 이 문제는 아직 해결되지 않았어요. 인프라는 여기에 있어요.

→ 리더보드 보기


다음 단계

시작하기:

설정 커스터마이즈하기:

더 깊이 들어가기: