Kunskap: Vad innebär AI-förordningens krav på data och dataförvaltning för AI-system med hög risk?

Allt fler aktörer använder sig av AI-system som tränats med data i sin dagliga verksamhet, till exempel sjukhus som tar hjälp av AI-system vid screening av cancersjukdomar eller arbetsgivare som låter AI-system analysera och filtrera jobbansökningar. En viktig fråga i sammanhanget är att kvaliteten av den data som ett AI-system tränas med avgör systemets prestanda. AI-förordningen erkänner betydelsen av denna fråga. Förordningen ställer omfattande och detaljerande krav på lämpliga metoder för dataförvaltning och datahantering som syftar till att säkerställa en tillräcklig hög datakvalité.

Kraven på data och dataförvaltning (data and data governance) regleras i artikel 10 AI-förordningen. Enligt denna artikel ska AI-system med hög risk som använder teknik som inbegriper träning av AI-modeller med data utvecklas på grundval av tränings-, validerings- och testdataset som uppfyller särskilda kvalitetskriterier som anges artikelns andra till femte punkt.

Den första delen av kriterierna redovisas i artikel 10.2 AI-förordningen. Enligt denna bestämmelse ska tränings-, validerings- och testdataset omfattas av metoder för dataförvaltning och datahantering som är lämpliga för det avsedda ändamålet med AI-systemet med hög risk. Dessa metoder ska särskilt avse relevanta utformningsval, datainsamlingsprocesser, uppgifternas ursprung och (när det gäller personuppgifter) datainsamlingens ursprungliga ändamål. Vidare ska metoderna avse relevanta åtgärder för datapreparering (t.ex. annotation, märkning, rensning, uppdatering, förädling och aggregering), formulering av antaganden (särskilt när det gäller den information som berörda data förväntas beskriva och representera) samt en bedömning av tillgängligheten, mängden och lämpligheten avseende de dataset som behövs. Därutöver ska metoderna inbegripa en undersökning med avseende på eventuella biaser och lämpliga åtgärder hantera eventuella biaser som identifierats. Slutligen ska metoderna även gälla identifiering av relevanta dataluckor eller brister som hindrar efterlevnad av AI-förordningen, och hur dessa luckor och brister kan åtgärdas.

Kvalitetskriteriernas andra del regleras i artikel 10.3 AI-förordningen som kräver att tränings-, validerings- och testdataset ska vara relevanta, tillräckligt representativa, och så långt som möjligt fria från fel och fullständiga i förhållande till det avsedda ändamålet. Vidare ska dessa dataset ha lämpliga statistiska egenskaper, inbegripet, i förekommande fall, vad gäller de personer eller grupper av personer med avseende på vilka AI-systemet med hög risk är avsett att användas. Egenskaperna hos dessa dataset kan uppfyllas på nivån för enskilda dataset eller på nivån av en kombination av dessa.

Den tredje och fjärde delen av kvalitetskriterierna regleras i artikel 10.4 respektive 10.5 AI-förordningen. Enligt artikel 10.4 AI-förordningen ska dataseten, i den mån som krävs med hänsyn till det avsedda ändamålet, beakta de egenskaper eller element som är utmärkande för just den specifika geografiska, kontextuella, beteendemässiga eller funktionsmässiga situation där AI-systemet med hög risk är avsett att användas. Artikel 10.5 AI-förordningen reglerar i vilken utsträckning känsliga personuppgifter får användas för att bias i AI-system med hög risk upptäcks och korrigeras.

För utvecklingen av AI-system med hög risk som inte använder teknik som inbegriper träning av AI-modeller är kvalitetskriterierna som redovisas ovan endast tillämpliga på testdataset (artikel 10.6 AI-förordningen).

Kraven på data och dataförvaltning enligt artikel 10 AI-förordningens motiveras i skäl 67 AI-förordningen. Enligt skälet spelar data av hög kvalitet och tillgång till data av hög kvalitet en avgörande roll när det gäller att tillhandahålla struktur och att säkerställa AI-systems prestanda. Detta gäller i synnerhet vid användning av teknik som förutsätter träning av modeller. Vidare är detta särskilt relevant för att säkerställa att AI-system med hög risk fungerar säkert och på avsett sätt och inte blir en källa till diskriminering som är förbjuden enligt unionsrätten.

Vidare konstateras i skälet att högkvalitativa dataset för träning, validering och testning förutsätter genomförande av lämpliga metoder för dataförvaltning och datahantering. Dataset för träning, validering och testning, inbegripet märkningarna, bör vara relevanta, tillräckligt representativa och i största möjliga utsträckning fria från fel och fullständiga med tanke på systemets avsedda ändamål. För att underlätta efterlevnaden av unionens dataskyddslagstiftning, såsom dataskyddsförordningen (GDPR), bör dataförvaltnings- och datahanteringsmetoderna när det gäller personuppgifter inbegripa transparens om det ursprungliga syftet med uppgiftsinsamlingen.

Därutöver framgår av skälet att dataseten också bör ha lämpliga statistiska egenskaper, även när det gäller de personer eller grupper av personer i fråga om vilka AI-systemet med hög risk är avsett att användas. Här bör särskild uppmärksamhet läggas på att begränsa eventuella biaser i dataseten som sannolikt påverkar människors hälsa och säkerhet, inverkar negativt på grundläggande rättigheter eller leder till diskriminering som är förbjuden enligt unionsrätten.

Av skälet framgår även att kravet på att dataseten i största möjliga utsträckning ska vara fullständiga och fria från fel inte bör påverka användningen av integritetsbevarande teknik i samband med utveckling och testning av AI-system. I synnerhet bör dataset, i den mån som krävs för deras avsedda ändamål, beakta funktioner, särdrag eller element som är specifika för den särskilda geografiska, kontextuella, beteendemässiga eller funktionsmässiga situation där AI-systemet är avsett att användas.

Slutligen förtydligar skälet att kraven på dataförvaltning kan uppfyllas genom att tredje parter anlitas som erbjuder certifierade tjänster för uppfyllelse av kraven, inbegripet kontroll av dataförvaltning, datasetens integritet och metoder för träning, validering och testning av data, i den mån överensstämmelse med uppgiftskraven i AI-förordningen säkerställs.

Bristande efterlevnad av AI-förordningens krav på data och dataförvaltning enligt artikel 10 AI-förordningen kan medföra administrativa sanktionsavgifter på upp till 15 000 000 euro eller, om överträdelsen begås av ett företag, upp till 3 procent av dess totala globala årsomsättning under det föregående räkenskapsåret, beroende på vilket som är högst (artikel 99 AI-förordningen).

Mer information

Källa: AI-förordningen (Förordning (EU) 2024/1689)

Relaterade nyheter

Är du redo för AI-förordningen?

AI-förordningen påverkar alla verksamheter som utvecklar eller använder AI. Gör dig och dina kollegor redo för de nya kraven. Gå AI-kurs med oss.