Forskare från Carnegie Mellon University och Duke University har undersökt med vilken felmarginal så kallade AI-agenter utför arbetsuppgifter som forskarna anser vara ”kunskapsintensiva” och vanligt förekommande bland kontorsanställda. Resultaten visar att även de bästa AI-agenterna gör fel i nästan 70 procent av fallen vilket innebär att 7 av 10 arbetsuppgifter som utförs av dessa typer av AI-agenter är behäftade med fel.
AI-agenter marknadsförs regelbundet som mjukvara som självständigt kan genomföra kunskapsintensiva arbetsuppgifter som hitintills var förbehållna människor. Forskarna ville undersöka AI-agenternas faktiska förmåga att genomföra uppgifter som vanligtvis genomförs av kontorsanställda. Exempel på arbetsuppgifter som undersöktes var att skriva maskinkod, författa jobbannonser och boka in möten i kalendrar. Forskarna kallade dessa uppgifter för ”kunskapsintensiva”.
För att undersöka frågan tog forskarna fram en standardiserad uppsättning av fiktiva arbetsuppgifter. I nästa steg programmerade forskarna AI-agenter som baserades på ledande AI-modeller från bland annat OpenAI, Anthropic och Google. Därefter lät forskarna AI-agenterna försöka att lösa arbetsuppgifterna och mätte hur ofta de lyckades.
Resultaten visar att även den bästa AI-agenten, som baserades på AI-modellen Gemini-2.5-Pro, misslyckades med att lösa arbetsuppgifterna i 70 procent av fallen. AI-agenterna som baserades på Open AI:s AI-modeller lyckades endast i 9 procent (GPT-40) respektive 4 procent (GPT-40/o3-mini) fallen. Samtliga AI-agenter klarade arbetsuppgifter relaterade till mjukvaruutveckling bättre än andra typer av uppgifter, exempelvis på området ekonomi.
Enligt Sebastian Berg, jurist och teknikexpert på TechLaw, visar resultaten att AI-agenter bör användas med försiktighet. ”Det gör stor skillnad om man använder en AI-agent i en testmiljö för mjukvaruutveckling eller för att kommunicera med kunder,” säger han. ”Man kan ha full kontroll över testmiljön som också tillåter en att testa om en mjukvara som tagits fram av en AI-agent fungerar. Situationer där man kommunicerar med kunder präglas däremot av oförutserbarhet och det är inte möjligt att testa ett svar eller en lösning på samma sätt som man gör inom mjukvaruutveckling.”
En av de viktigaste frågorna är emellertid hur verksamheter hanterar riskerna som uppstår som följd av att AI-agenterna gör fel, anser Sebastian. Enligt honom är en viktig juridisk fråga vem som ansvarar för eventuella regelbrott som sådana fel kan innebära och vem som ansvarar för den uppkomna skadan. ”Är det leverantören av AI-agenten eller användaren, dvs. den som har köpt in eller upphandlat AI-agenten? I praktiken bör det i många fall vara användaren av AI-agenten om man inte vidtagit juridiska åtgärder under inköps- respektive upphandlingsprocessen,” säger han. ”Det är viktigt att tänka på denna typ av risk så tidigt som möjligt när man upphandlar eller köper en AI-agent.”