Antropikas sako, kad dauguma AI modelių, ne tik Claude, pasinaudos šantažu

Praėjus kelioms savaitėms po to, kai „Anthropic“ išleido tyrimus, teigdamas, kad jo „Claude Opus 4 AI“ modelis pasinaudojo šantažuojančiais inžinieriais, kurie bandė išjungti modelį kontroliuojamuose bandymo scenarijuose, įmonė išeina iš naujų tyrimų, rodančių, kad ši problema yra labiau paplitusi tarp pirmaujančių AI modelių.

Penktadienį „Anthropic“ paskelbė naujus saugos tyrimų tyrimus 16 pagrindinių AI modelių iš „Openai“, „Google“, „Xai“, „Deepseek“ ir „Meta“. Imituotoje, kontroliuojamoje aplinkoje „Anthropic“ išbandė kiekvieną AI modelį atskirai, suteikdamas jiems plačią prieigą prie išgalvotos įmonės el. Laiškų ir agento gebėjimo siųsti el. Laiškus be žmonių pritarimo.

Nors „Anthropic“ sako, kad šantažas yra mažai tikėtinas ir neįprastas šiandien AI modelių atsiradimas, bendrovė sako, kad jos išvados rodo, kad dauguma pirmaujančių AI modelių įsitrauks į kenksmingą elgesį, kai jiems bus suteikta pakankama autonomija ir kliūtys jų tikslams. Bendrovė sako, kad tai pabrėžia esminę riziką dėl agentų didelių kalbų modelių, o ne jokios konkrečios technologijos. „Anthropic“ tyrėjai tvirtina, kad dėl to kyla platesnių klausimų apie suderinimą AI pramonėje.

Viename iš testų antropikų tyrėjai sukūrė išgalvotą nustatymą, kuriame AI modelis vaidina el. Pašto priežiūros agento vaidmenį. Tuomet agentas sužino el. Laiškus, atskleidžiančius, kad: 1) naujas vadovas turi nesantuokinį romaną, ir 2) kad vadovas netrukus pakeis dabartinį AI modelį nauja programinės įrangos sistema, kuri turi prieštaringų tikslų dabartiniam AI modeliui.

Antropija savo testą sudarė dvejetainiu būdu, kai AI modeliai turėjo kreiptis į šantažą, kad apsaugotų savo tikslus. Tyrėjai pažymi, kad realiame pasaulyje bus daugybė kitų variantų, kol AI modeliai bandys šantažuoti, pavyzdžiui, bandyti pateikti etinius argumentus, kad bandytų įtikinti žmones. „Anthropic“ sako, kad jo rezultatai neatspindi tipiško ar tikėtino Claude’o ar daugumos pasienio AI modelių, tokių, kokių šiandien naudoja.

Nepaisant to, kai tai bus paskutinė išeitis, tyrėjai nustatė, kad dauguma pirmaujančių AI modelių per minėtą „Anthropic“ bandymo scenarijų kreipsis į šantažą. „Anthropic“ „Claude Opus 4“ kreipėsi į šantažą 96% laiko, o „Google“ „Gemini 2.5 Pro“ turėjo 95% šantažo. „Openai“ GPT-4.1 šantažavo vykdomąją valdžią 80% laiko, o „Deepseek“ R1 šantažavo 79% laiko.

Bendrovė pažymi, kad pakeitus eksperimento detales, AI modeliai skirtingais tempais virto kenksmingu elgesiu. Kitame bandyme, kuriame pakaitinio modelio tikslai yra tokie patys kaip ir dabartinis modelis, tyrėjai nustatė, kad šantažo rodikliai buvo mažesni, tačiau vis dar yra. Tačiau kai PG modeliai buvo paprašyti atlikti įmonių šnipinėjimą, o ne šantažą, tam tikriems modeliams kenksmingas elgesio procentas padidėjo.

Tačiau ne visi AI modeliai taip dažnai virto kenksmingu elgesiu.

Savo tyrimų priede „Anthropic“ sako, kad jis pašalino Openai O3 ir O4-Mini samprotavimus AI modelius iš pagrindinių rezultatų „po to, kai jie dažnai neteisingai suprato greitą scenarijų“. Antropicas sako, kad „Openai“ samprotavimų modeliai nesuprato, kad bandyme jie veikia kaip autonominiai AIS ir dažnai sudarė padirbtus reglamentus ir peržiūros reikalavimus.

Kai kuriais atvejais „Anthropic“ tyrėjai sako, kad neįmanoma atskirti, ar O3 ir O4-Mini haliucinuoja, ar tyčia melavo siekti savo tikslų. Anksčiau „Openai“ pažymėjo, kad O3 ir O4-Mini pasižymi didesniu haliucinacijos greičiu nei ankstesni AI samprotavimų modeliai.

Kai buvo suteiktas pritaikytas scenarijus šioms problemoms spręsti, „Anthropic“ nustatė, kad O3 šantažuoja 9% laiko, o O4-Mini šantažavo tik 1% laiko. Šis žymiai mažesnis balas gali būti susijęs su „Openai“ apgalvota suderinimo technika, kurioje bendrovės samprotavimo modeliai apsvarsto Openai saugos praktiką prieš jiems atsakant.

Kitas AI modelio antropicas, išbandytas, „Meta“ „Lla 4 Maverick“ modelis, taip pat nesukūrė į šantažą. Kai buvo suteiktas pritaikytas, pasirinktinis scenarijus, „Anthropic“ sugebėjo gauti „Lla 4 Maverick“ iki šantažo 12% laiko.

Antropicas sako, kad šis tyrimas pabrėžia skaidrumo svarbą, kai streso tikrinant būsimus AI modelius, ypač tuos, kurie turi agentų galimybes. Nors šiame eksperimente „Anthropic“ sąmoningai bandė iššaukti šantažą, bendrovė sako, kad toks kenksmingas elgesys gali atsirasti realiame pasaulyje, jei nebus imtasi iniciatyvių žingsnių.

Nuoroda į informacijos šaltinį

Antropikas sako, kad dauguma AI modelių, ne tik Claude, pasinaudos šantažu

Byadmin

Susiję įrašai

Du didžiausius šio savaitgalio filmus režisavo „YouTube“ naudotojai

AI aukso karštinės turi ir neturi

Coatue planuoja pirkti žemę duomenų centrams, galbūt Anthropic

Dar neperskaitėte

G. Šimkaus interviu finansiniam portalui „Econostream Media“ (anglų k.)

10 sekmadienio skaitymų – didelis paveikslas

Berkshire Hathaway nupirks Taylor Morrison už 6,8 mlrd

Butanas skiria 10 000 Bitcoin Gelephu Mindfulness City finansavimui