Naar hoofdinhoud gaan

Citatieproces voor Taalkaarten

Hoe Champollion ervoor zorgt dat elke bewering op een taalkaart herleidbaar is tot een primaire bron.


1. Het Probleem

Taalkaarten bevatten feitelijke beweringen — aantallen sprekers, bedreigingsstatus, contactinvloeden, morfologische eigenschappen, typografische conventies, ondersteuning van methoden — die verifieerbaar moeten zijn. Momenteel geldt:

  • Het veld dataSources is een platte reeks tekenreeksen (bijv. ["cldr-48", "glottolog-5.3"])
  • Er is geen citatiegranulariteit per veld
  • Beweringen zoals "~2,8 miljoen sprekers" of "kwetsbaar" hebben geen traceerbare herkomst
  • Een beoordelaar kan niet bepalen welke bron welke bewering onderbouwt

[!CAUTION] Een niet-onderbouwde bewering is een niet-verifieerbare bewering. Voor een project dat zichzelf als professioneel rigoureus positioneert, moet elke bewering op een taalkaart herleidbaar zijn tot een specifieke, versioned primaire bron.


2. Gezaghebbende Bronnen (Gerangschikt op Prioriteit)

Voor elk type bewering zijn de volgende bronnen gezaghebbend. Geef altijd de voorkeur aan de hoogst gerangschikte beschikbare bron.

Classificatie en Identiteit

PrioriteitBronDektLicentieHoe te citeren
1Glottolog (Max Planck)Familie, afstamming, glottocodeCC-BY 4.0glottolog-5.x
2ISO 639-3 (SIL)ISO-codes, macrotalenVrijiso639-3-{date}
3WALS (Max Planck)Genusdefinities, typologische kenmerkenCC-BY 4.0wals-2024
4CLDR (Unicode)Localecodes, schriftcodes, meervoudsregelsUnicode ToScldr-{version}

Demografische Gegevens en Vitaliteit van Sprekers

PrioriteitBronDektLicentieHoe te citeren
1Nationale volkstellingsgegevensOfficiële aantallen sprekersVarieert (doorgaans openbaar)census-{country}-{year}
2EthnologueSchattingen van sprekers, EGIDSEigendomsrechtelijk (abonnement)ethnologue-{edition}
3UNESCO AtlasBedreigingsstatusVrijunesco-atlas-{year}
4Gepubliceerde academische artikelenRegionale sprekersenquêtesPer-artikel licentie{author}-{year}
5Katig CollectiveFilipijnse talenAcademischkatig-{year}

[!WARNING] Gebruik nooit Wikipedia, door LLM gegenereerde tekst of eigen kennis als primaire bron voor demografische beweringen. Dit zijn op zijn best secundaire of tertiaire bronnen. Herleid altijd terug naar de primaire gegevens.

Ondersteuning van Methoden (Dekking van Vertaal-API's)

MethodeVerificatiebronHoe te verifiërenHoe te citeren
Google TranslateTalenlijstAPI-aanroep of documentatiepaginagoogle-translate-{date}
DeepLTalenlijstAPI-aanroepdeepl-api-{date}
Microsoft TranslatorTalenlijstDocumentatiepaginams-translator-{date}
LibreTranslateTalenlijstAPI-aanroeplibretranslate-{date}
NLLBFLORES READMEREADME + modelkaartnllb-200-{date}
LLMAltijd trueN.v.t. (kwaliteit varieert)llm-assumed

DLS (Digitale Taalondersteuning)

PrioriteitBronDektHoe te citeren
1Simons et al. 2022DLS-scores (originele 143 tools)simons-2022
2Ethnologue 27e+ editieDLS-scores (uitgebreide 211 tools)ethnologue-{edition}-dls

Typografie, Meervoudsvormen, Schriften

PrioriteitBronDektHoe te citeren
1CLDRMeervoudsregels, aanhalingstekens, getalopmaakcldr-{version}
2Unicode CSURSchriftcodesiso15924-{date}
3Gepubliceerde grammatica'sTaalspecifieke regels{author}-{year}

Contactinvloeden

PrioriteitBronDektHoe te citeren
1Gepubliceerde artikelen over historische taalkundeStudies naar leenwoorden, contactgeschiedenis{author}-{year}
2Referentiegrammatica'sBeschrijvingen van structurele invloed{grammar-title}-{year}
3WALSTypologische vergelijkingenwals-{feature}-{year}

[!IMPORTANT] Beweringen over contactinvloeden zijn het moeilijkst te onderbouwen. Beweringen zoals "Spaans superstraat, diep, 1571–1898" vereisen expertise in historische taalkunde. Als er geen gepubliceerde bron gevonden kan worden, markeer de bewering dan met "citation_needed": true in plaats van te gissen.


3. Citatieproces (Stap voor Stap)

Bij het Aanmaken van een Nieuwe Taalkaart

  1. Begin met automatisch ingevulde velden:

    • Voer node scripts/build-language-tree.mjs --enrich uit → vult classification in vanuit Glottolog
    • Leg "glottolog-{version}" vast in dataSources
  2. Voeg CLDR-gegevens toe:

    • Zoek meervoudsregels, aanhalingstekens en schriftcode op in CLDR
    • Leg "cldr-{version}" vast in dataSources
  3. Onderzoek demografische gegevens van sprekers:

    • Raadpleeg EERST nationale volkstellingsgegevens
    • Vergelijk met Ethnologue (indien beschikbaar)
    • Vergelijk met de UNESCO Atlas
    • Leg ALLE geraadpleegde bronnen vast in dataSources
  4. Verifieer ondersteuning van methoden:

    • Controleer de talenlijst van ELKE API (niet op basis van geheugen of aannames)
    • Leg de verificatiedatum vast
  5. Onderzoek contactinvloeden:

    • Zoek gepubliceerde artikelen over historische taalkunde
    • Documenteer periode, type en diepte met citaten
    • Als er geen gepubliceerde bron bestaat, voeg "citation_needed": true toe aan het invloeditem
  6. Onderzoek vitaliteit:

    • Raadpleeg Ethnologue voor EGIDS
    • Raadpleeg de UNESCO Atlas voor bedreigingsstatus
    • Noteer eventuele discrepanties tussen bronnen
  7. Vul dataSources in:

    • Vermeld ELKE geraadpleegde bron (niet alleen bronnen die gegevens hebben verstrekt)
    • Gebruik het citatieformaat uit de bovenstaande tabellen

Bij het Bijwerken van een Bestaande Kaart

  1. Wijzig nooit een feitelijke bewering zonder dataSources bij te werken
  2. Als u een aantal sprekers bijwerkt, verwijder dan de oude bron en voeg de nieuwe toe
  3. Als u ondersteuning voor een methode toevoegt, verifieer dit via de API en leg de datum vast
  4. Voorzie alle controles van methodondersteuning van een datumstempel — API-dekking verandert regelmatig

4. Voorgestelde Schemaverbetering: Citaten per Veld

Huidig Schema (Platte dataSources)

"dataSources": ["cldr-48", "glottolog-5.3"]

Probleem: Welke velden zijn afkomstig van CLDR? Welke van Glottolog? Welke zijn niet geciteerd?

Voorgestelde Verbetering: Gestructureerde dataSources

"dataSources": {
"classification": ["glottolog-5.3"],
"vitality.unescoStatus": ["unesco-atlas-2024"],
"vitality.egids": ["ethnologue-27"],
"vitality.speakerCount": ["census-ph-2020", "ethnologue-27"],
"rules.plurals": ["cldr-48"],
"rules.typography": ["cldr-48"],
"contactInfluences": ["blust-2013", "llamzon-1969"],
"methodSupport.googleTranslate": ["google-translate-2024-07"],
"methodSupport.nllb": ["nllb-200-2024-03"],
"dls": ["simons-2022", "ethnologue-27-dls"],
"pipelineReadiness": ["manual-assessment-2025-06"]
}

Migratiepad

Dit is een achterwaarts compatibele wijziging:

  1. Bestaande kaarten behouden de platte reeks (nog steeds geldig)
  2. Nieuwe kaarten gebruiken het gestructureerde formaat
  3. Schemavalidatie accepteert beide formaten
  4. Migreer bestaande kaarten incrementeel naarmate ze worden beoordeeld

[!TIP] Valideer met een script. Voeg een validate-citations.mjs-script toe dat:

  • Controleert of elke kaart ten minste classification en vitality bronnen heeft
  • Kaarten met platte dataSources-reeksen markeert voor upgrade
  • Waarschuwt bij methodSupport-items zonder datumgestempelde verificatie

5. Kwaliteitscontrolelijst

Verifieer het volgende voordat u een wijziging aan een taalkaart samenvoegt:

  • Elk aantal sprekers heeft een bron (volkstelling of Ethnologue, niet Wikipedia)
  • Elke UNESCO/EGIDS-status heeft een bron
  • Elke vlag voor methodondersteuning is geverifieerd via de daadwerkelijke API (niet aangenomen)
  • Elke contactinvloed heeft een gepubliceerde academische bron OF is gemarkeerd met citation_needed
  • Classificatie is automatisch ingevuld vanuit Glottolog (niet handmatig opgebouwd)
  • dataSources vermeldt ALLE geraadpleegde bronnen
  • Geen enkele bewering is uitsluitend gebaseerd op door LLM gegenereerde kennis
  • humanReviewed is ingesteld op de identificatie van de beoordelaar en de datum als een moedertaalspreker de kaart heeft beoordeeld

6. Het Veld humanReviewed

Het taalkaartschema bevat een veld humanReviewed dat momenteel null is op alle kaarten. Dit veld dient te worden ingevuld wanneer een moedertaalspreker of gekwalificeerd taalkundige de kaart beoordeelt:

"humanReviewed": {
"reviewer": "Prof. Kenneth Jamandre",
"affiliation": "University of the Philippines",
"date": "2026-06-08",
"scope": "full",
"notes": "Verified speaker count, vitality assessment, and contact influences."
}

[!IMPORTANT] Gemeenschapsreview is de gouden standaard. Geautomatiseerde gegevens en academische artikelen vormen de basis, maar de beoordeling door een moedertaalspreker is de definitieve validatie. Dit is met name van belang voor:

  • Beweringen over contactinvloeden (gemeenschapsleden weten welke leenwoorden daadwerkelijk worden gebruikt)
  • Vitaliteitsbeoordelingen (gemeenschapsleden weten of kinderen de taal nog spreken)
  • Formaliteitssystemen (academische beschrijvingen kunnen alledaagse gebruikspatronen missen)

7. Referenties voor Dit Proces

  1. Glottolog: https://glottolog.org — CC-BY 4.0
  2. ISO 639-3: https://iso639-3.sil.org — Vrij
  3. WALS: https://wals.info — CC-BY 4.0
  4. CLDR: https://cldr.unicode.org — Unicode-gebruiksvoorwaarden
  5. Ethnologue: https://www.ethnologue.com — Eigendomsrechtelijk (abonnement)
  6. UNESCO Atlas: http://www.unesco.org/languages-atlas/ — Vrij
  7. Simons et al. (2022): https://aclanthology.org/2022.coling-1.379/
  8. Champollion Taalkaartspecificatie: cli/website/docs/reference/language-card-spec.md