Nyhet

Ny studie avslöjar: AI-agenter klarar inte underhålla projekt över tid

Ny studie avslöjar: AI-agenter klarar inte underhålla projekt över tid
Svaret enligt en ny studie från Sun Yat-sen University och Alibaba Group är långt ifrån tillräckligt bra. Bild: Montage stockfoto / Studien från Yat-sen University och Alibaba Group

Artificiell intelligens har blivit allt bättre på att skriva kod. Men hur bra är egentligen dagens AI-system på att sköta ett mjukvaruprojekt långsiktigt. Månad efter månad, uppdatering efter uppdatering? Svaret enligt en ny studie från Sun Yat-sen University och Alibaba Group är: långt ifrån tillräckligt bra.

Forskarna bakom studien har tagit fram ett nytt testramverk som utvärderar AI-agenters förmåga att underhålla kod över lång tid. Till skillnad från befintliga tester som i princip frågar "kan AI:n lösa det här programmeringsproblemet?" simulerar denna studie hur ett riktigt mjukvaruprojekt faktiskt utvecklas: med löpande kravförändringar, nya funktioner och tilltagande komplexitet.

Stort test på 100 verkliga projekt

Testet omfattar 100 verkliga kodprojekt från GitHub, där varje projekt i snitt spänner över 233 dagars faktisk utvecklingshistorik och 71 på varandra följande versioner. AI-agenterna fick i uppgift att iterativt driva projekten framåt, precis som ett utvecklingsteam gör i det vardagliga arbetet.

Resultatet är nedslående för den som hoppats att AI snart ska kunna sköta mjukvaruutveckling helt på egen hand. Det mest påtagliga problemet är det som inom branschen kallas regressioner. Det innebär att en kodändring oavsiktligt förstör funktioner som tidigare fungerade.

Problemet uppstår när koden ska leva vidare och förvaltas över tid. Bild: Montage

AI:n introducerade nya buggar i 75 procent av fallen

De flesta av de 18 testade modellerna, från leverantörer som OpenAI, Anthropic, Google DeepMind och Alibaba introducerade regressioner i tre av fyra testfall. Bara Anthropics Claude Opus lyckades hålla en stabil nivå, och klarade regression-fritt i drygt hälften av fallen.

Det handlar alltså inte om att AI saknar förmåga att skriva kod – det klarar dagens modeller relativt väl. Problemet uppstår när koden ska leva vidare och förvaltas över tid.

En lösning som ser bra ut i stunden kan vara svår att bygga vidare på, och felaktiga designbeslut tidigt i processen tenderar att förvärras med varje ny förändring. Det är precis den dynamiken som befintliga tester av dagens AI-modeller missat att mäta, och som studien från Alibaba Group nu synliggör.

Studien introducerar också ett nytt mätvärde, EvoScore, som viktar senare iterationer tyngre – eftersom en kodbas som håller sig stabil och utbyggbar över tid är mer värdefull än en som presterar bra initialt men sedan "sjunker ihop".

Amazon bromsar användandet av AI – “allvarliga driftstörningar”
Fyra allvarliga driftstörningar på sju dagar. Amazon betalar nu eventuellt priset för att ha rusat in i AI-assisterad kodning utan tillräckliga skyddsåtgärder, och nedskärningen av 30 000 anställda försvårar den efterföljande hanteringen.

För företag som överväger att automatisera sin mjukvaruutveckling med AI är budskapet tydligt: verktygen har kommit långt, men att lämna över rodret helt är ännu inte ett alternativ. Vilket bland annat Amazon har fått uppleva och som vi skrivit om tidigare. Åtminstone inte om man vill att systemet ska fungera om ett år också, och inte bara idag.

Nyhetsbrev