Metode
Slik samler, behandler og publiserer vi data om NRKs rettelser.
Hva er dette?
NRK Rettelser er en uoffisiell oversikt over offentliggjorte rettelser i NRKs nettjournalistikk. Siden er inspirert av vg.no/rettelser, som samler VGs egne rettelser på ett sted.
NRK har ingen tilsvarende samlet oversikt. Dette prosjektet fyller den tomrommet ved å automatisk lete etter rettelsesformuleringer i NRKs artikler.
Hvorfor?
Åpenhet om feil er en forutsetning for tillit til journalistikk. Når medier retter seg selv, er det i utgangspunktet bra — men verdien av rettelsen avhenger av om den er synlig.
En rettelse begravd midt i en artikkel, uten noe samlet sted å finne den, er vanskelig å oppdage for lesere som ikke tilfeldigvis klikker seg inn igjen. Aggregering gjør rettelsene tilgjengelige og søkbare, og gjør det enklere å se mønstre over tid: Hvilke saker rettes? Hvor raskt? Hvilke deler av redaksjonen?
NRK er finansiert av allmennheten gjennom lisensen. Det gir ekstra grunn til å følge med på hvordan redaksjonen håndterer egne feil. Dette prosjektet er et forsøk på å gjøre den oppgaven litt lettere.
Datakilder
Vi henter artikler fra to kilder:
- Søkebasert skanning — NRKs søkemotor spørres med 10 rettelsesrelaterte søkeord. De to første resultatsidene per søkeord sjekkes. Tar ca. 30 sekunder og fanger de fleste nye rettelser raskt.
- Nettstedskart (sitemap) — NRKs
sitemap.xmlinneholder hundrevis av del-kart. Artikler som er endret de siste 30 dagene sjekkes — opptil 1 000 URL-er fra 50 del-kart. Tar 5–15 minutter og fanger faktaboks-rettelser som NRK-søk ikke indekserer.
Begge metodene mater inn i samme rådatafil, som deretter berikes og kvalitetssikres.
Slik oppdages rettelser
Hver artikkel analyseres for kjente uttrykk som indikerer en rettelse. Vi ser etter disse ordene og vendingene (uten hensyn til store/små bokstaver):
Bokmål
Nynorsk
Når en slik formulering finnes, hentes rettelsesteksten ut med en tre-trinns strategi:
- <p>-elementer — sjekkes først (opptil 800 tegn per blokk)
- <aside> og <blockquote> — for faktaboks-rettelser (opptil 2 000 tegn)
- <div>-elementer — siste utvei (opptil 800 tegn)
Navigasjonstekst og andre kjente støykilder filtreres bort automatisk.
Berikelse og kvalitetssikring med KI
Alle nye funn går gjennom et automatisk berikelsesteg som bruker Google Gemini 3.1 Flash Lite. Opptil 20 000 tegn av artikkelens brødtekst sendes til modellen for kontekst. KI-en produserer følgende for hver oppføring:
- QA-validering — klassifiserer funnet som ekte rettelse, usikker eller ikke en rettelse. Oppføringer som ikke godkjennes filtreres bort fra den publiserte listen.
- Nyhetskategori — én av 13 kategorier: Sport, Kultur, Politikk, Økonomi, Vitenskap, Helse, Teknologi, Distrikt, Utenriks, Krim, Vær, Underholdning, Annet.
- Feiltype — én av 14 typer: Faktafeil, Feil navn, Feil tall, Feil bilde, Feil dato, Feil sted, Feil oversettelse, Villedende tittel, Manglende kontekst, Kildefeil, Tilbaketrukket påstand, Skrivefeil/språk, Attribusjonsfeil, Annet.
- Rettetid — tid fra publisering til rettelse, beregnet ut fra artikkelens publiseringsdato og rettelsesdato.
- Oppsummering — en kort beskrivelse av hva som ble rettet.
- Journalist og ansvarlig redaktør — hentet og verifisert fra artikkelens metadata.
Oppdateringsfrekvens
Datainnsamlingen kjøres automatisk via GitHub Actions med tre arbeidsflyter:
- Søkebasert skraping — kjører hver 6. time (og kan startes manuelt). Søker NRK og beriker nye funn.
- Sitemap-skanning — kjører ukentlig (søndager) og kan startes manuelt. Dyp gjennomgang av nettstedskartet for å fange rettelser som NRK-søk ikke indekserer.
- Manuell bakover-skanning — startes manuelt for å finne historiske rettelser via NRK-søk.
Alle arbeidsflyter bruker en felles samtidighetsgruppe slik at de ikke kjører parallelt og skaper konflikter.
Nye rettelser dukker normalt opp på siden innen seks timer etter at de er publisert på nrk.no.
Begrensninger
Listen er ikke komplett. Vi fanger ikke opp:
- Stille rettelser — endringer i artikler uten noen rettelsesnotis i teksten
- Rettelser i lyd og video — podkast, TV-sendinger og andre ikke-tekstlige format
- Ukjente formuleringer — NRK bruker av og til andre fraser enn de vi søker etter
- Historiske rettelser — artikler publisert lenge før prosjektet startet kan mangle
Prosjektet er under løpende utvikling og dekningen vil forbedres over tid.
Kildekode og data
All kode og alle data er åpent tilgjengelig. Du kan laste ned datasettet som JSON direkte fra forsiden, eller utforske kildekoden på GitHub: