Medier: Flere KI-aktører ignorerer robots.txt

24. juni 2024, 13:32Redaksjonen

Mye tyder på at ikke alle KI-aktører som bruker såkalte crawlere til skraping av offentlig tilgjengelige data på nettsteder til å trene sine språkmodeller, er like nøye på å overholde signaler om at slik skraping er uønsket. Dette går fram av en Reuters-sak.

Standarden for dette på nettsteder er en tekstfil kaldt robots.txt, hvor nettstedet kan oppgi hvilke områder som ikke skal skrapes eller indekseres.

De fleste søkemotorer overholder disse instruksene, men ifølge Tollbit, et ferskt selskap som formidler lisensavtaler mellom KI-aktører og medieselskaper, er det flere KI-agenter som ikke tar hensyn til dette.

Reuters nevner spesifikt en pågående konflikt mellom KI-selskapet Perplexity og medieaktøren Forbes, hvor sistnevnte anklager Perplexity for å lage KI-genererte oppsummeringer av saker uten å sitere Forbes eller å be om tillatelse.