Kunskap: Vad är skillnaden mellan träningsdata, valideringsdata och testdata enligt AI-förordningen?

Utveckling och användning av AI-system innebär regelbundet att AI-systemet tränas, valideras och testas med data. Denna artikel förklara skillnaden mellan träningsdata, valideringsdata och testdata enligt AI-förordningen.

AI-förordningen definierar begreppen träningsdata (training data), valideringsdata (validation data) och tesdata (testing data), se artikel 3 AI-förordningen. Med träningsdata avses enligt denna bestämmelse data som används för att träna ett AI-system genom anpassning av dess inlärningsbara parametrar. Med valideringsdata avses data som används för att tillhandahålla en utvärdering av det tränade AI-systemet och för att stämma av dess icke-inlärningsbara parametrar och dess inlärningsprocess för att bland annat förhindra under- eller överanpassning. Med testdata avses data som används för att tillhandahålla en oberoende utvärdering av AI-systemet för att bekräfta systemets förväntade prestanda innan det släpps ut på marknaden eller tas i bruk.

Det framgår av bestämmelsens ordalydelse att träningsdata, valideringsdata och testdata utgörs av olika, separata datamängder (eller dataset) som används i tre steg. Medan träningsdata används för att träna AI-systemets parametrar (första steget), används valideringsdata för att utvärdera träningen (andra steget). Valideringsdata används inte för att träna AI-systemets inlärningsbara parametrar utan bara för att stämma av AI-systemets icke-inlärningsbara parametrar. Testdata används i sin tur för att göra en oberoende utvärdering av AI-systemet efter att den har tränats och validerats (tredje steg).

Skillnaden mellan träningsdata, valideringsdata och testdata är av väsentlig betydelse i AI-förordningen. Exempelvis innehåller AIF särskilda regler om data och dataförvaltning (artikel 10 AI-förordningen). Dessa regler kräver bland annat att AI-system med hög risk ska utvecklas på grundval av tränings-, validerings- och testdataset som uppfyller särskilda kvalitetskriterier som anges i AI-förordningen. Ett exempel på ett sådant kriterium är att tränings-, validerings- och testdataset ska omfattas av metoder för dataförvaltning och datahantering som är lämpliga för det avsedda ändamålet med AI-systemet med hög risk.

Mer information

Källa: AI-förordningen (P9_TA(2024)0138)

Relaterade nyheter

Kostnadsfritt webbinarium om klassning av AI-system enligt AI-förordningen

Under webbinariet går vi igenom hur AI-system bedöms enligt AI-förordningens olika risknivåer och vad det innebär för din verksamhet.