Procedimento de Citação em Cartões de Idioma
Como o Champollion garante que toda afirmação em um cartão de idioma seja rastreável até uma fonte primária.
1. O Problema
Cartões de idioma contêm afirmações factuais — contagens de falantes, status de ameaça, influências de contato, propriedades morfológicas, convenções tipográficas, suporte de método — que devem ser verificáveis. Atualmente:
- O campo
dataSourcesé um array simples de strings (ex:["cldr-48", "glottolog-5.3"]) - Não há granularidade de citação por campo
- Afirmações como "~2,8M falantes" ou "vulnerável" não têm proveniência rastreável
- Um revisor não consegue determinar qual fonte suporta qual afirmação
[!CAUTION] Uma afirmação sem fonte é uma afirmação não verificável. Para um projeto que se posiciona como rigoroso profissionalmente, toda asserção em um cartão de idioma deve ser rastreável até uma fonte primária específica e versionada.
2. Fontes Autoritárias (Classificadas por Prioridade)
Para cada tipo de afirmação, as seguintes fontes são autoritárias. Sempre prefira a fonte de maior prioridade disponível.
Classificação e Identidade
| Prioridade | Fonte | Cobre | Licença | Como Citar |
|---|---|---|---|---|
| 1 | Glottolog (Max Planck) | Família, ancestralidade, glottocode | CC-BY 4.0 | glottolog-5.x |
| 2 | ISO 639-3 (SIL) | Códigos ISO, macrolínguas | Livre | iso639-3-{date} |
| 3 | WALS (Max Planck) | Definições de gênero, características tipológicas | CC-BY 4.0 | wals-2024 |
| 4 | CLDR (Unicode) | Códigos de locale, códigos de script, regras de plural | Unicode ToS | cldr-{version} |
Demografia de Falantes e Vitalidade
| Prioridade | Fonte | Cobre | Licença | Como Citar |
|---|---|---|---|---|
| 1 | Dados de censo nacional | Contagens oficiais de falantes | Varia (geralmente público) | census-{country}-{year} |
| 2 | Ethnologue | Estimativas de falantes, EGIDS | Proprietária (assinatura) | ethnologue-{edition} |
| 3 | Atlas UNESCO | Status de ameaça | Livre | unesco-atlas-{year} |
| 4 | Artigos acadêmicos publicados | Pesquisas regionais de falantes | Licença por artigo | {author}-{year} |
| 5 | Katig Collective | Idiomas das Filipinas | Acadêmica | katig-{year} |
[!WARNING] Nunca use Wikipedia, texto gerado por IA ou conhecimento próprio como fonte primária para afirmações demográficas. Essas são fontes secundárias/terciárias no melhor dos casos. Sempre rastreie até os dados primários.
Suporte de Método (Cobertura de API de Tradução)
| Método | Fonte de Verificação | Como Verificar | Como Citar |
|---|---|---|---|
| Google Translate | Lista de idiomas | Chamada de API ou página de docs | google-translate-{date} |
| DeepL | Lista de idiomas | Chamada de API | deepl-api-{date} |
| Microsoft Translator | Lista de idiomas | Página de docs | ms-translator-{date} |
| LibreTranslate | Lista de idiomas | Chamada de API | libretranslate-{date} |
| NLLB | FLORES README | README + model card | nllb-200-{date} |
| LLM | Sempre true | N/A (qualidade varia) | llm-assumed |
DLS (Suporte Digital de Idioma)
| Prioridade | Fonte | Cobre | Como Citar |
|---|---|---|---|
| 1 | Simons et al. 2022 | Pontuações DLS (143 ferramentas originais) | simons-2022 |
| 2 | Ethnologue 27ª+ ed. | Pontuações DLS (211 ferramentas expandidas) | ethnologue-{edition}-dls |
Tipografia, Plurais, Scripts
| Prioridade | Fonte | Cobre | Como Citar |
|---|---|---|---|
| 1 | CLDR | Regras de plural, aspas, formatação de números | cldr-{version} |
| 2 | Unicode CSUR | Códigos de script | iso15924-{date} |
| 3 | Gramáticas publicadas | Regras específicas do idioma | {author}-{year} |
Influências de Contato
| Prioridade | Fonte | Cobre | Como Citar |
|---|---|---|---|
| 1 | Artigos publicados de linguística histórica | Estudos de empréstimos, história de contato | {author}-{year} |
| 2 | Gramáticas de referência | Descrições de influência estrutural | {grammar-title}-{year} |
| 3 | WALS | Comparações tipológicas | wals-{feature}-{year} |
[!IMPORTANT] Afirmações de influência de contato são as mais difíceis de fundamentar. Afirmações como "superstrato espanhol, profundo, 1571–1898" requerem expertise em linguística histórica. Se uma fonte publicada não puder ser encontrada, marque a afirmação com
"citation_needed": trueem vez de adivinhar.
3. Procedimento de Citação (Passo a Passo)
Ao Criar um Novo Cartão de Idioma
-
Comece com campos preenchidos automaticamente:
- Execute
node scripts/build-language-tree.mjs --enrich→ preencheclassificationdo Glottolog - Registre
"glottolog-{version}"emdataSources
- Execute
-
Adicione dados CLDR:
- Procure regras de plural, aspas, código de script no CLDR
- Registre
"cldr-{version}"emdataSources
-
Pesquise demografia de falantes:
- Verifique dados de censo nacional PRIMEIRO
- Referência cruzada com Ethnologue (se disponível)
- Referência cruzada com Atlas UNESCO
- Registre TODAS as fontes consultadas em
dataSources
-
Verifique suporte de método:
- Verifique a lista de idiomas de CADA API (não memória, não suposições)
- Registre data de verificação
-
Pesquise influências de contato:
- Encontre artigos publicados de linguística histórica
- Documente período, tipo, profundidade com citações
- Se nenhuma fonte publicada existir, adicione
"citation_needed": trueà entrada de influência
-
Pesquise vitalidade:
- Verifique Ethnologue para EGIDS
- Verifique Atlas UNESCO para status de ameaça
- Anote qualquer discrepância entre fontes
-
Preencha
dataSources:- Liste TODA fonte consultada (não apenas as que forneceram dados)
- Use o formato de citação das tabelas acima
Ao Atualizar um Cartão Existente
- Nunca altere uma afirmação factual sem atualizar
dataSources - Se você atualizar uma contagem de falantes, remova a fonte antiga e adicione a nova
- Se você adicionar suporte de método, verifique contra a API e registre a data
- Coloque data em todas as verificações de suporte de método — a cobertura de API muda frequentemente
4. Melhoria de Schema Proposta: Citações por Campo
Schema Atual (dataSources Simples)
"dataSources": ["cldr-48", "glottolog-5.3"]
Problema: Quais campos vieram do CLDR? Quais do Glottolog? Quais não têm citação?
Melhoria Proposta: dataSources Estruturado
"dataSources": {
"classification": ["glottolog-5.3"],
"vitality.unescoStatus": ["unesco-atlas-2024"],
"vitality.egids": ["ethnologue-27"],
"vitality.speakerCount": ["census-ph-2020", "ethnologue-27"],
"rules.plurals": ["cldr-48"],
"rules.typography": ["cldr-48"],
"contactInfluences": ["blust-2013", "llamzon-1969"],
"methodSupport.googleTranslate": ["google-translate-2024-07"],
"methodSupport.nllb": ["nllb-200-2024-03"],
"dls": ["simons-2022", "ethnologue-27-dls"],
"pipelineReadiness": ["manual-assessment-2025-06"]
}
Caminho de Migração
Esta é uma mudança compatível com versões anteriores:
- Cartões existentes mantêm o array simples (ainda válido)
- Novos cartões usam o formato estruturado
- Validação de schema aceita ambos os formatos
- Migre cartões existentes incrementalmente conforme forem revisados
[!TIP] Valide com um script. Adicione um script
validate-citations.mjsque:
- Verifique se todo cartão tem pelo menos fontes
classificationevitality- Sinalize cartões com arrays
dataSourcessimples para atualização- Avise sobre entradas
methodSupportsem verificação com data
5. Checklist de Qualidade
Antes de fazer merge de qualquer alteração em cartão de idioma, verifique:
- Toda contagem de falantes tem uma fonte (censo ou Ethnologue, não Wikipedia)
- Todo status UNESCO/EGIDS tem uma fonte
- Todo sinalizador de suporte de método foi verificado contra a API real (não assumido)
- Toda influência de contato tem uma fonte acadêmica publicada OU está marcada
citation_needed - Classificação foi preenchida automaticamente do Glottolog (não construída manualmente)
-
dataSourceslista TODAS as fontes consultadas - Nenhuma afirmação depende unicamente de conhecimento gerado por IA
-
humanReviewedestá definido para o identificador do revisor e data se um falante nativo revisou
6. Campo humanReviewed
O schema do cartão de idioma inclui um campo humanReviewed que está atualmente null em todos os cartões. Este campo deve ser preenchido quando um falante nativo ou linguista qualificado revisa o cartão:
"humanReviewed": {
"reviewer": "Prof. Kenneth Jamandre",
"affiliation": "University of the Philippines",
"date": "2026-06-08",
"scope": "full",
"notes": "Verified speaker count, vitality assessment, and contact influences."
}
[!IMPORTANT] Revisão comunitária é o padrão ouro. Dados automatizados e artigos acadêmicos fornecem a base, mas a revisão de um falante nativo é a validação final. Isso é especialmente crítico para:
- Afirmações de influência de contato (membros da comunidade sabem quais palavras emprestadas são realmente usadas)
- Avaliações de vitalidade (membros da comunidade sabem se crianças estão falando o idioma)
- Sistemas de formalidade (descrições acadêmicas podem perder padrões de uso cotidiano)
7. Referências para Este Procedimento
- Glottolog: https://glottolog.org — CC-BY 4.0
- ISO 639-3: https://iso639-3.sil.org — Livre
- WALS: https://wals.info — CC-BY 4.0
- CLDR: https://cldr.unicode.org — Termos de Uso Unicode
- Ethnologue: https://www.ethnologue.com — Proprietária (assinatura)
- Atlas UNESCO: http://www.unesco.org/languages-atlas/ — Livre
- Simons et al. (2022): https://aclanthology.org/2022.coling-1.379/
- Especificação de Cartão de Idioma Champollion:
cli/website/docs/reference/language-card-spec.md