Etter MBLs syn vil datafangst (skraping), datasettskapelse og trening av kunstig intelligens (KI) innebære prosesser som krever aksept fra rettighetshaver fordi det innebærer en eksemplarfremstilling i åndsverklovens forstand.
Det er imidlertid slik at det er relativt uvanlig at det innhentes aksept. Det har utviklet seg en praksis der utgivere gir beskjed, i maskinlesbar form, om begrensninger i muligheten til å indeksere eller skrape innhold fra nettstedet. En vanlig måte å gjøre dette på er å bruke en tekstfil som legges på nettstedet – robots.txt. Seriøse aktører forholder seg til de begrensningen som er lagt i denne filen.
Gjennom bruk av robots.txt kan dere altså informere om at dere ikke ønsker at innholdet skal i datasett kan brukes til trening av språkmodeller, eller inngå i trening av kunstig intelligens.
Dessverre er logikken ved bruk av robots.txt slik at den må inneholde informasjon om hvilke aktører dere ønsker å stenge ute. En generell formulering vil kunne innebære utilsiktede konsekvenser for indeksering eller andre tjenester dere ønsker skal fungere på nettsidene.
De ulike tjenestene som henter innhold fra nettstedene identifiserer seg med en såkalt user-agent. TV 2 har kartlagt hvilke user-agents som skraper innhold til bruk i KI-trening, og i tillegg laget en oversikt over hvilke nettsteder som har reservert seg mot de ulike agentene. Oversikten oppdateres jevnlig og finnes her https://docs.google.com/spreadsheets/d/1adVsO3EVLsrnfzLX8y1EO8VGMc212iklDjsrtiKTEFg/edit?usp=sharing.
 
Vi viser her noen eksempler på hvordan robots.txt er satt opp. Disse eksemplene er fra 5.11.2024. Robots.txt bør være dynamisk og endres når nye agenter blir kjent.
https://www.tv2.no/robots.txt
 User-agent: rogerbot
 User-agent: GPTBot
 User-agent: ChatGPT-User
 User-agent: anthropic-ai
 User-agent: ClaudeBot
 User-agent: Claude-Web
 User-agent: perplexityBot
 User-agent: omgili
 User-agent: omgilibot
 User-agent: Bytespider
 User-agent: cohere-ai
 User-agent: CCBot
 User-agent: PetalBot
 User-agent: Diffbot
 User-agent: OAI-SearchBot
 User-agent: Applebot-Extended
 User-agent: Amazonbot
 Disallow: /
 
User-agent: *
 Disallow: /5374/
 Disallow: /TV2/
 Disallow: /TV2stream/
 Disallow: /backend/
 Disallow: /beta/
 Disallow: /vaer-beta/
 Disallow: /snartlive/
 Disallow: /livesport/book/
 Disallow: /cache/
 Disallow: /do/
 Disallow: /dyn-TV2
 Disallow: /multimedia/
 Disallow: /player/
 Disallow: /preview/
 Disallow: /rest/
 Disallow: /v/test/
 Disallow: /arkiv/ajax-api/
 Disallow: /arkiv/_relatedArticles
Sitemap: https://www.tv2.no/sitemap/news/sitemap.xml
 Sitemap: https://www.tv2.no/sitemap/sitemap.xml
 Sitemap: https://www.tv2.no/video2/api/v1/sitemap
 
https://www.adressa.no/robots.txt (pr 5.11.2024)
# robots.txt
 User-agent: *
 Disallow: /login
 Disallow: /redirect
 Disallow: /static/*
 User-agent: Googlebot-News
 Disallow: /annonsorinnhold/
 Disallow: /brandstudio/
User-agent: Bytespider
 Disallow: /
User-agent: CCBot
 Disallow: /
User-agent: Diffbot
 Disallow: /
User-agent: FacebookBot
 Disallow: /
User-agent: Google-Extended
 Disallow: /
User-agent: GPTBot
 Disallow: /
User-agent: ChatGPT-User
 Disallow: /
User-agent: omgili
 Disallow: /
User-agent: anthropic-ai
 Disallow: /
User-agent: Claude-Web
 Disallow: /
User-agent: ClaudeBot
 Disallow: /
User-agent: cohere-ai
 Disallow: /
User-agent: Amazonbot
 Disallow: /
Sitemap: https://www.adressa.no/sitemaps/adresseavisen-root-sitemap.xml
 Sitemap: https://www.adressa.no/sitemaps/adresseavisen-news-sitemap.xml
 
Robots.txt inneholder ofte mer informasjon enn det som gjelder KI-agenter/tjenester. Noen velger å gi informasjon om restriksjoner for KI som en egen del/egen blokk i robots.txt, der det angis at dette gjelder AI (her brukes AI og ikke KI). Typisk angis det med # Start AI crawler block. I noen tilfeller legges det da inn tekst som angir begrensningene, i tillegg til at agenter listes. Avisa Oslo, Aftenposten og VG har løst det slik.
https://www.ao.no/robots.txt (pr 5.11.2024)
User-agent: *
 Allow: /
# Start AI crawler block
User-agent: CCBot
 Disallow: /
User-agent: GPTBot
 Disallow: /
User-agent: anthropic-ai
 Disallow: /
User-agent: Google-Extended
 Disallow: /
# End AI crawler block
 
https://www.aftenposten.no/robots.txt (pr 5.11.2024)
User-agent: *
 Disallow: /config/
 Disallow: /template/
 Disallow: /incoming/
 Disallow: /WEB-INF/
 Disallow: /META-INF/
 Disallow: /feed/externalheader/
 Disallow: /feed/externalfooter/
 Disallow: /adtest/
 Disallow: /henvisninger/div/
 Disallow: /sok
 Disallow: /kampanje/
 Disallow: /widgets/
 Disallow: /personalized-frontpage-feed
 
# Aftenposten does not permit unlicensed use of our content for training large language models or other
 # artificial intelligence technology. All use, reproductions and extractions of our content for
 # such purposes require specific # approval by Aftenposten. We explicitly disallow text and data mining and
 # all other technical means desig# ned to or with the effect that they enable unlicensed use,
 # reproduction or extraction of o# ur content for training AI models.
User-agent: GPTBot
 Disallow: /
User-agent: anthropic-ai
 Disallow: /
User-agent: CCBot
 Disallow: /
 
https://www.vg.no/robots.txt (pr 5.11.2024)
 User-agent: *
 Disallow: /tegneserier/salesposter
 Disallow: /poll
 Disallow: /informasjon/redaksjonelle-avgjorelser/182
 Disallow: /informasjon/redaksjonelle-avgjorelser/212
 Disallow: /sok*?*
 Disallow: /?vcheck=1
 Disallow: /?_escaped_fragment_=/kategori/144/bolig-tv
 Disallow: /?_escaped_fragment_=/kategori
 
user-agent: Googlebot-News
 disallow: /annonsorinnhold/
 disallow: /kommersielt-innhold/
 disallow: /innstikk/
 disallow: /?embed=true
 disallow: /arkiv/
 disallow: /front/
 disallow: /ads/prewarm/
# Start AI crawler block
#
# VG does not permit unlicensed use of our content for training large language models.
 # All use, reproductions and extractions of our content for such purposes require specific
 # approval by VG. We explicitly disallow text and data mining and all other technical means
 # designed to or with the effect that they enable unlicensed use of our content for training
 # AI models.
User-agent: Bytespider
 Disallow: /
User-agent: CCBot
 Disallow: /
User-agent: Diffbot
 Disallow: /
User-agent: FacebookBot
 Disallow: /
User-agent: Google-Extended
 Disallow: /
User-agent: GPTBot
 Disallow: /
User-agent: omgili
 Disallow: /
User-agent: anthropic-ai
 Disallow: /
User-agent: Claude-Web
 Disallow: /
User-agent: ClaudeBot
 Disallow: /
User-agent: cohere-ai
 Disallow: /
User-agent: Amazonbot
 Disallow: /
# End AI crawler block
 
User-agent: OAI-SearchBot
 Allow: /
Sitemap: https://www.vg.no/sitemaps/files/articles-48hrs.xml
 Sitemap: https://www.vg.no/sitemap/files/articles-48hrs.xml
 Sitemap: https://www.vg.no/sitemap.xml