champollion 작동 방식
champollion은 명령어 하나로 앱의 로케일 파일을 번역해요. 내부에서 어떤 일이 일어나는지 살펴볼게요.
파이프라인
npx champollion sync을(를) 실행하면 champollion은 6단계 파이프라인을 실행해요:
주요 설계 결정 사항:
-
SHA-256 해시를 통한 변경 감지. Champollion은
.champollion.lock에 해시로 모든 소스 값을 추적해요. 영어 문자열을 업데이트하면 해당 키만 다시 번역돼요. 이것이 반복 실행 시sync이(가) 빠른 이유예요 — 최소한의 작업만 하거든요. -
Translation Memory 캐싱. API 호출을 하기 전에 champollion은
.champollion/tm.json에서 캐시된 번역(소스 텍스트 + 로케일 + 방식으로 키 지정)을 확인해요. 키 하나를 변경한 후 일반적인 재동기화 시 142개 키는 캐시에서 가져오고 1개 키만 API를 호출해요. -
쓰기 전 품질 게이트. 모든 번역은 파일에 적용되기 전에 다섯 가지 자동 검사(빈 값, 소스 반복, 환각 루프, 길이 팽창, 스크립트 준수)를 통과해요. 실패는 기록되며, 절대 조용히 수용되지 않아요.
-
실패 시 재시도 캐스케이드. 배치가 실패하면(JSON 파싱 오류, API 타임아웃) champollion은 점점 더 작은 배치로 재시도해요: 전체 → 절반 → 개별. 이렇게 하면 나머지를 차단하지 않고 문제가 되는 키를 격리할 수 있어요.
번역 방식
Champollion은 네 가지 번역 방식을 지원하며, 각각 다른 시나리오에 적합해요:
| 방식 | 작동 방식 | 가장 적합한 경우 |
|---|---|---|
llm | 모든 OpenRouter 모델에 대한 구조화된 프롬프트 | 자원이 풍부한 언어 |
llm-coached | 동일한 프롬프트 + 문법 규칙, 사전, 스타일 노트 | LLM이 예측 가능한 오류를 만드는 언어 |
google-translate | Google Cloud Translation API 배치 요청 | GT 지원이 우수한 고자원 언어 |
api | 자체 엔드포인트로 HTTP POST | 맞춤형 파이프라인, 커뮤니티가 제어하는 모델 |
방식은 언어 쌍별로 구성돼요. 프랑스어에는 google-translate을(를) 사용하고 Plains Cree에는 llm-coached을(를) 사용할 수 있어요 — 각 쌍에 가장 적합한 방식을 사용하면 돼요.
코칭 데이터
llm-coached 쌍의 경우, 코칭 데이터는 LLM에 명시적인 언어 지식을 제공해요: 문법 규칙, 강제 용어, 스타일 선호도. 이것은 구조화된 컨텍스트로 모든 프롬프트에 주입돼요.
{
"grammar_rules": ["Animate nouns take different plural forms than inanimate nouns"],
"dictionary": {"welcome": "ᑕᓂᓯ", "settings": "ᐃᑕᐢᑌᐘᐃᓇ"},
"style_notes": "Use Standard Roman Orthography (SRO) unless explicitly configured otherwise."
}
코칭 데이터는 모델을 미세 조정하지 않고도 번역 품질을 개선하는 주요 메커니즘이에요. 규칙 변경 → 동기화 재실행 → 효과가 있는지 확인. 반복이 즉각적이에요.
플러그인
플러그인은 특정 언어 쌍을 위한 사전 패키지화된 번역 레시피예요. 코드가 아닌 JSON 매니페스트로, champollion에 어떤 방식을 어떤 설정으로 사용할지, 그리고 어떤 품질이 벤치마크되었는지 알려줘요.
champollion plugin install ./crk-coached-v3/
champollion sync # uses the installed plugin for en→crk
플러그인은 연구와 프로덕션 사이의 간극을 메워요: MT Eval Arena에서 좋은 점수를 받은 방식을 플러그인으로 패키지화하여 여기에 배포할 수 있어요.
더 큰 그림
champollion은 두 부분으로 구성된 생태계의 절반이에요:
- MT Eval Arena — 번역 방식이 재현 가능한 벤치마킹으로 개발되고 검증되는 곳
- champollion — 검증된 방식이 실제 콘텐츠를 번역하기 위해 배포되는 곳
Eval Harness Bridge가 둘을 연결해요. Arena에서 검증된 방식이 여기에 배포돼요. 프로덕션에서의 화자 피드백이 다음 버전을 개선해요.
더 자세히 알아보기
- 동기화 작동 방식 — 단계별 상세 파이프라인 안내
- 품질 게이트 — 다섯 가지 자동 검사
- Translation Memory — 캐싱 및 비용 절감
- 번역 방식 — 상세 방식 비교
- 아키텍처 — 시스템 설계 개요