AI-system som baseras på maskinlärning används i allt fler sammanhang, från att assisterad körning av bilar till att hjälpa läkare att diagnostisera sjukdomar och att interagera med kunder via chattbottar. Samtidigt präglas sådana AI-system av särskilda sårbarheter för cybersäkerhet som angripare kan utnyttja för att genomföra cyberattacker, in synnerhet när systemen tränats med djuplärning. Attackerna kan leda till allvarliga konsekvenser för individer och organisationer. Denna artikel förklarar en vanlig typ av cyberattacker mot AI-system, så kallade förgiftningsattacker (poisoning attacks).
En förgiftningsattack genomförs under träningsfasen av ett AI-system genom att en angripare smyger in förvrängda data i träningsdata. Denna förvrängda data påverkar sedan hur AI-modellen (AI-systemets hjärna) tränas. Detta leder i sin tur till att AI-systemet producerar felaktiga resultat under användningsfasen. Förgiftningsattacker kan få stor genomslagskraft med allvarliga konsekvenser och kan påverka AI-systems tillgänglighet eller dataintegritet.
Ett förenklat exempel på en förgiftningsattack är att en angripare smyger in bilder med felaktiga etiketter under träningen av ett AI-system för självkörande bilar. Som följd lär sig AI-systemet att klassa vissa objekt i gatumiljön fel, så att systemet till exempel tolkar en stoppskylt som ett träd. När AI-systemet sedan används av bilister leder attacken till att AI-systemet inte fungerar som det ska, med bilolyckor som följd.
Exemplet visar att förgiftningsattacker kan innebära allvarliga hot mot AI-system och leda till betydande risker för deras användare. Förutsättningen för att en sådan attack kan genomföras är att angriparen på något sett får kontroll över träningsdata eller träningsprocessen. Vidare måste attacken faktiskt lyckas med att ändra förutsägelserna som görs av AI-systemets underliggande AI-modell under användningsfasen.
Två viktiga typer av förgiftningsattacker är tillgänglighetsattacker (availability attacks) och riktade attacker (targeted attacks). En tillgänglighetsattack innebär att hela AI-modellen korrumperas vilket leder till att AI-systemet producerar felaktig output i de flesta fall. En enkel tillgänglighetsattack är att byta ut etiketterna på träningsdata (label flipping), som till exempel att etikettera en stoppskylt som ett träd. En framgångsrik tillgänglighetsattack minskar AI-modellens noggrannhet avsevärt, vilket gör den oanvändbar i realistiska scenarier. Till skillnad från en tillgänglighetsattack begränsas en riktad attack till ett litet antal av element i träningsdata. Som följd fungerar AI-systemet bra i de flesta fall men inte i de få fall som påverkas av de korrumperade elementen i träningsdata. Detta gör det särskilt svårt att upptäcka denna typ av attack.
Förgiftningsattacker är inte en nyhet utan de första attackerna utvecklades för över 15 år sedan. Samtidigt visar studier att risken för sådana attacker är en bidragande faktor till varför organisationer väljer bort att använda AI-system i sin verksamhet. Risken för sådana attacker måste även ses mot ökningen av leveranskedjeattacker under de senaste åren. Nyare studier visar hur en angripare med begränsade finansiella resurser kan genomföra storskaliga förgiftningsattacker för att få kontroll över delar av offentlig tillgängliga dataset som används som träningsdata.