AI-bolaget Anthropic ändrar en omstridd policy för sin nya modell Claude Fable 5, sedan företagets beslut att i hemlighet försämra modellens prestanda för vissa forskare väckt kraftig kritik. Skydden mot så kallad frontier AI-utveckling ska nu bli öppna och synliga för användarna, skriver wired.com.

Claude Fable 5 är en variant av Anthropics senaste språkmodell med extra säkerhetsfunktioner. Enligt bolaget ska modellen styra om vissa känsliga frågor om till exempel cybersäkerhet, biologi och kemi till en mindre kapabel modell, för att minska risken för att tekniken används för cyberangrepp eller framställning av biologiska vapen.

För forskare som använder Claude Fable 5 i avancerad AI-utveckling valde Anthropic först en annan linje. Företaget planerade att medvetet försämra modellens prestanda på ett sätt som användaren inte skulle märka, till exempel när modellen användes för att ta fram eller träna konkurrerande modeller. Att bygga konkurrerande system är redan uttryckligen förbjudet i Anthropics användarvillkor.

Efter hård kritik från AI-forskare och utvecklare backar nu bolaget. Safeguards för AI-utveckling ska framöver vara synliga, och användare ska få besked när en förfrågan stoppas eller styrs om till en mindre avancerad modell. Enligt wired.com har Claude, och särskilt modellens kodagent, blivit ett populärt verktyg bland utvecklare som arbetar med både öppen och sluten AI-forskning, vilket gör begränsningarna kännbara.

Flera kritiker menar att den tidigare policyn riskerade att koncentrera möjligheten till avancerad AI-forskning till ett fåtal ledande bolag. Forskarna som intervjuas av wired.com lyfter också att hemliga begränsningar hade kunnat försvåra arbetet för oberoende aktörer som utvärderar frontier-modeller för säkerhet, prestanda och tillförlitlighet.

Anthropic motiverar sina säkerhetsåtgärder med att Claude blivit allt mer effektivt för att accelerera AI-forskning. Företaget uttrycker oro för att AI-utvecklingen kan gå snabbare än vad samhälle och regelverk klarar av att hantera. I en bloggtext resonerar bolaget om att det kan vara bra att tillfälligt bromsa frontier-utveckling för att ge utrymme för styrning, säkerhetsforskning och institutioner att komma ikapp.

I ett uttalande, återgivet enligt wired.com, framhåller Anthropic att skydden bland annat syftar till att förhindra att utländska aktörer använder de mest avancerade modellerna på ett sätt som kan skada USA:s och allierades tekniska försprång, till exempel genom att optimera deras egen hårdvara.

Företaget konstaterar samtidigt att det nu, när säkerhetsspärrarna för AI-utveckling görs synliga, måste använda bredare filter. Det innebär att även ofarliga eller oproblematiska frågor kan fastna i skydden. Anthropic uppger att man arbetar för att snabbt förfina sina klassificeringssystem så att de bättre skiljer mellan riskfyllda och harmlösa användningsfall.