Google var først ute med såkalt føderert læring («federated learning» på engelsk) i 2016, blant annet for desentralisert trening av maskinlæringsmodeller til Android-telefoner. Maskinlæringsmodellen som foreslår neste ord du sannsynligvis vil skrive på mobiltelefonen din, er et eksempel på en modell som nå blir trent opp med føderert læring.
Med føderert læring kan en maskinlæringsmodell trenes opp på flere ulike datasett (for eksempel fra ulike personer) uten å slå dem sammen. Maskinlæringsmodellen reiser med andre ord rundt og besøker hvert datasett istedenfor at det lages ett stort datasettet. Sluttresultatet kan uansett bli den samme maskinlæringsmodellen. Føderert læring er derfor er spesielt nyttig hvis datasettene inneholder personopplysninger eller bedriftshemmeligheter.
I Datatilsynets gjennomgang av personvernfremmende teknologi trekkes føderert læring fram som en teknikk som kan bidra til å oppfylle kravene til informasjonssikkerhet, konfidensialitet og integritet.
KI-arkivering: Treffer på 96 prosent
Kjente utfordringer
Vanlige informasjonsikkerhetsutfordringer gjelder også for føderert læring, og krypteringsteknikker er en viktig del av løsningen.
Et tema, som også Datatilsynet nevner, er at noen maskinlæringsmodeller som er trent med føderert læring, kan være sårbare for såkalte inversjonsangrep, altså at aktører med skumle hensikter kan prøve å avlede personopplysninger basert den trente modellen.
Modellen som reiser rundt til hvert datasett, får med seg et bidrag til modellen (såkalte gradienter). Det har vist seg at dette er en mulig kilde til lekkasje av persondata. Det kan en bøte på ved hjelp av såkalt differensielt personvern (DP – differential privacy), som i praksis betyr at modellen blir trent på data som inneholder noe støy.
En aktør med urent mel i posen kan dessuten tenkes å prøve å dytte en maskinlæringsmodell i en bestemt retning ved å endre på dataene modellen trenes på. Med føderert læring blir både angrepet og svaret mer komplekst enn ved ikke-føderert læring.
Den trojanske personvernhesten
Samtidig som føderert læring er godt personvernnytt, utfordrer etter min mening teknikken noen av de grunnleggende personvernprinsippene, nemlig i) gjennomsiktighet, ii) riktighet og iii) rettferdighet. Disse prinsippene er delvis overlappende.
Gjennomsiktighet betyr her at den enkelte som utsettes for en maskinlæringsmodell skal skjønne hva maskinlæringsmodellen gjør med deg og dine persondata. Stadig mer komplekse maskinlæringsmodeller har gitt oss fagfeltet forklarbar kunstig intelligens, som handler om å bruke maskinlæringsmodeller til å forklare maskinlæringsmodeller. Dette blir ikke akkurat enklere med føderert læring. Og når den forklarbare kunstige intelligensen bare kan se deler av datasettet modellen er trent på, kan forklaringene bli mangelfulle.
Norsk teknologi: Fikser sårbar kode automatisk
Riktighet betyr vanligvis i personvernsammenheng at personopplysninger som behandles, skal være korrekte og oppdaterte. Jeg vil si at også maskinlæringsmodeller trent på persondata, skal være korrekte og oppdaterte. For føderert læring må i tillegg hver deltaker som bidrar med data, ha eksakt samme datakvalitet og samme prosedyrer for innsamling av data. I praksis kan det være nesten umulig å oppnå. For Android-telefonene og forslag til neste ord kan det gå veldig greit, mens det for ulike banker som vil bidra med hver sine hvitvaskingsdata til føderert læring, kan gå galt på grunn av subtile forskjeller i dataene. Denne utfordringen er like mye til stede ved ikke-føderert læring, men med ikke-føderert læring er det faktisk mulig å undersøke om problemet eksisterer.
Rettferdighet betyr at behandlingen av personopplysninger skal gjøres i respekt for de registrertes interesser og rimelige forventninger. Med maskinlæring er tiltak som gjør resultater fra automatiserte avgjørelser forutsigbare og forståelige, spesielt relevant, noe som også henger sammen med prinsippet om gjennomsiktighet. Med føderert læring kan det skje at en deltakers data dominerer maskinlæringsmodellen, for eksempel hvis det er ulik grad av representative data fra hver deltaker. Den vanlige måten å håndtere dette på er å analysere det samlede datasettet og se etter skjevheter, etc. Det er dessverre vanskelig å trenge gjennom dette når hver enkelt deltaker bare ser sitt eget datasett.
Kryssende personvernprinsipper
Det er ikke umulig å tilfredsstille sentrale personvernprinsipper med føderert læring. Jeg mener bare at det er en potensiell konflikt her mellom kryssende personvernprinsipper.
Å vurderer risiko for diskriminering i KI-systemer, som Likestillings- og diskrimineringsombudet har gitt ut en veileder om, kan dermed bli vanskeligere med føderert læring.
Mener mange ledere tenker feil når de skal utvikle KI