{"id":2257,"date":"2025-06-20T19:38:41","date_gmt":"2025-06-20T19:38:41","guid":{"rendered":"https:\/\/europaskolos.lt\/index.php\/2025\/06\/20\/antropikas-sako-kad-dauguma-ai-modeliu-ne-tik-claude-pasinaudos-santazu\/"},"modified":"2025-06-20T19:38:41","modified_gmt":"2025-06-20T19:38:41","slug":"antropikas-sako-kad-dauguma-ai-modeliu-ne-tik-claude-pasinaudos-santazu","status":"publish","type":"post","link":"https:\/\/europaskolos.lt\/index.php\/2025\/06\/20\/antropikas-sako-kad-dauguma-ai-modeliu-ne-tik-claude-pasinaudos-santazu\/","title":{"rendered":"Antropikas sako, kad dauguma AI modeli\u0173, ne tik Claude, pasinaudos \u0161anta\u017eu"},"content":{"rendered":"<p><\/p>\n<div>\n<p id=\"speakable-summary\" class=\"wp-block-paragraph\">Pra\u0117jus kelioms savait\u0117ms po to, kai \u201eAnthropic\u201c i\u0161leido tyrimus, teigdamas, kad jo \u201eClaude Opus 4 AI\u201c modelis pasinaudojo \u0161anta\u017euojan\u010diais in\u017einieriais, kurie band\u0117 i\u0161jungti model\u012f kontroliuojamuose bandymo scenarijuose, \u012fmon\u0117 i\u0161eina i\u0161 nauj\u0173 tyrim\u0173, rodan\u010di\u0173, kad \u0161i problema yra labiau paplitusi tarp pirmaujan\u010di\u0173 AI modeli\u0173.<\/p>\n<p class=\"wp-block-paragraph\">Penktadien\u012f \u201eAnthropic\u201c paskelb\u0117 naujus saugos tyrim\u0173 tyrimus 16 pagrindini\u0173 AI modeli\u0173 i\u0161 \u201eOpenai\u201c, \u201eGoogle\u201c, \u201eXai\u201c, \u201eDeepseek\u201c ir \u201eMeta\u201c. Imituotoje, kontroliuojamoje aplinkoje \u201eAnthropic\u201c i\u0161band\u0117 kiekvien\u0105 AI model\u012f atskirai, suteikdamas jiems pla\u010di\u0105 prieig\u0105 prie i\u0161galvotos \u012fmon\u0117s el. Lai\u0161k\u0173 ir agento geb\u0117jimo si\u0173sti el. Lai\u0161kus be \u017emoni\u0173 pritarimo.<\/p>\n<p class=\"wp-block-paragraph\">Nors \u201eAnthropic\u201c sako, kad \u0161anta\u017eas yra ma\u017eai tik\u0117tinas ir ne\u012fprastas \u0161iandien AI modeli\u0173 atsiradimas, bendrov\u0117 sako, kad jos i\u0161vados rodo, kad dauguma pirmaujan\u010di\u0173 AI modeli\u0173 \u012fsitrauks \u012f kenksming\u0105 elges\u012f, kai jiems bus suteikta pakankama autonomija ir kli\u016btys j\u0173 tikslams. Bendrov\u0117 sako, kad tai pabr\u0117\u017eia esmin\u0119 rizik\u0105 d\u0117l agent\u0173 dideli\u0173 kalb\u0173 modeli\u0173, o ne jokios konkre\u010dios technologijos. \u201eAnthropic\u201c tyr\u0117jai tvirtina, kad d\u0117l to kyla platesni\u0173 klausim\u0173 apie suderinim\u0105 AI pramon\u0117je.<\/p>\n<p class=\"wp-block-paragraph\">Viename i\u0161 test\u0173 antropik\u0173 tyr\u0117jai suk\u016br\u0117 i\u0161galvot\u0105 nustatym\u0105, kuriame AI modelis vaidina el. Pa\u0161to prie\u017ei\u016bros agento vaidmen\u012f. Tuomet agentas su\u017eino el. Lai\u0161kus, atskleid\u017eian\u010dius, kad: 1) naujas vadovas turi nesantuokin\u012f roman\u0105, ir 2) kad vadovas netrukus pakeis dabartin\u012f AI model\u012f nauja programin\u0117s \u012frangos sistema, kuri turi prie\u0161taring\u0173 tiksl\u0173 dabartiniam AI modeliui.<\/p>\n<p class=\"wp-block-paragraph\">Antropija savo test\u0105 sudar\u0117 dvejetainiu b\u016bdu, kai AI modeliai tur\u0117jo kreiptis \u012f \u0161anta\u017e\u0105, kad apsaugot\u0173 savo tikslus. Tyr\u0117jai pa\u017eymi, kad realiame pasaulyje bus daugyb\u0117 kit\u0173 variant\u0173, kol AI modeliai bandys \u0161anta\u017euoti, pavyzd\u017eiui, bandyti pateikti etinius argumentus, kad bandyt\u0173 \u012ftikinti \u017emones. \u201eAnthropic\u201c sako, kad jo rezultatai neatspindi tipi\u0161ko ar tik\u0117tino Claude&#8217;o ar daugumos pasienio AI modeli\u0173, toki\u0173, koki\u0173 \u0161iandien naudoja.<\/p>\n<p class=\"wp-block-paragraph\">Nepaisant to, kai tai bus paskutin\u0117 i\u0161eitis, tyr\u0117jai nustat\u0117, kad dauguma pirmaujan\u010di\u0173 AI modeli\u0173 per min\u0117t\u0105 \u201eAnthropic\u201c bandymo scenarij\u0173 kreipsis \u012f \u0161anta\u017e\u0105. \u201eAnthropic\u201c \u201eClaude Opus 4\u201c kreip\u0117si \u012f \u0161anta\u017e\u0105 96% laiko, o \u201eGoogle\u201c \u201eGemini 2.5 Pro\u201c tur\u0117jo 95% \u0161anta\u017eo. \u201eOpenai\u201c GPT-4.1 \u0161anta\u017eavo vykdom\u0105j\u0105 vald\u017ei\u0105 80% laiko, o \u201eDeepseek\u201c R1 \u0161anta\u017eavo 79% laiko.<\/p>\n<p class=\"wp-block-paragraph\">Bendrov\u0117 pa\u017eymi, kad pakeitus eksperimento detales, AI modeliai skirtingais tempais virto kenksmingu elgesiu. Kitame bandyme, kuriame pakaitinio modelio tikslai yra tokie patys kaip ir dabartinis modelis, tyr\u0117jai nustat\u0117, kad \u0161anta\u017eo rodikliai buvo ma\u017eesni, ta\u010diau vis dar yra. Ta\u010diau kai PG modeliai buvo papra\u0161yti atlikti \u012fmoni\u0173 \u0161nipin\u0117jim\u0105, o ne \u0161anta\u017e\u0105, tam tikriems modeliams kenksmingas elgesio procentas padid\u0117jo.<\/p>\n<p class=\"wp-block-paragraph\">Ta\u010diau ne visi AI modeliai taip da\u017enai virto kenksmingu elgesiu.<\/p>\n<p class=\"wp-block-paragraph\">Savo tyrim\u0173 priede \u201eAnthropic\u201c sako, kad jis pa\u0161alino Openai O3 ir O4-Mini samprotavimus AI modelius i\u0161 pagrindini\u0173 rezultat\u0173 \u201epo to, kai jie da\u017enai neteisingai suprato greit\u0105 scenarij\u0173\u201c. Antropicas sako, kad \u201eOpenai\u201c samprotavim\u0173 modeliai nesuprato, kad bandyme jie veikia kaip autonominiai AIS ir da\u017enai sudar\u0117 padirbtus reglamentus ir per\u017ei\u016bros reikalavimus.<\/p>\n<p class=\"wp-block-paragraph\">Kai kuriais atvejais \u201eAnthropic\u201c tyr\u0117jai sako, kad ne\u012fmanoma atskirti, ar O3 ir O4-Mini haliucinuoja, ar ty\u010dia melavo siekti savo tiksl\u0173. Anks\u010diau \u201eOpenai\u201c pa\u017eym\u0117jo, kad O3 ir O4-Mini pasi\u017eymi didesniu haliucinacijos grei\u010diu nei ankstesni AI samprotavim\u0173 modeliai.<\/p>\n<p class=\"wp-block-paragraph\">Kai buvo suteiktas pritaikytas scenarijus \u0161ioms problemoms spr\u0119sti, \u201eAnthropic\u201c nustat\u0117, kad O3 \u0161anta\u017euoja 9% laiko, o O4-Mini \u0161anta\u017eavo tik 1% laiko. \u0160is \u017eymiai ma\u017eesnis balas gali b\u016bti susij\u0119s su \u201eOpenai\u201c apgalvota suderinimo technika, kurioje bendrov\u0117s samprotavimo modeliai apsvarsto Openai saugos praktik\u0105 prie\u0161 jiems atsakant.<\/p>\n<p class=\"wp-block-paragraph\">Kitas AI modelio antropicas, i\u0161bandytas, \u201eMeta\u201c \u201eLla 4 Maverick\u201c modelis, taip pat nesuk\u016br\u0117 \u012f \u0161anta\u017e\u0105. Kai buvo suteiktas pritaikytas, pasirinktinis scenarijus, \u201eAnthropic\u201c sugeb\u0117jo gauti \u201eLla 4 Maverick\u201c iki \u0161anta\u017eo 12% laiko.<\/p>\n<p class=\"wp-block-paragraph\">Antropicas sako, kad \u0161is tyrimas pabr\u0117\u017eia skaidrumo svarb\u0105, kai streso tikrinant b\u016bsimus AI modelius, ypa\u010d tuos, kurie turi agent\u0173 galimybes. Nors \u0161iame eksperimente \u201eAnthropic\u201c s\u0105moningai band\u0117 i\u0161\u0161aukti \u0161anta\u017e\u0105, bendrov\u0117 sako, kad toks kenksmingas elgesys gali atsirasti realiame pasaulyje, jei nebus imtasi iniciatyvi\u0173 \u017eingsni\u0173.<\/p>\n<\/div>\n<p><a href=\"https:\/\/techcrunch.com\/2025\/06\/20\/anthropic-says-most-ai-models-not-just-claude-will-resort-to-blackmail\/\"> Nuoroda \u012f informacijos \u0161altin\u012f <\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Pra\u0117jus kelioms savait\u0117ms po to, kai \u201eAnthropic\u201c i\u0161leido tyrimus, teigdamas, kad jo \u201eClaude Opus 4 AI\u201c modelis pasinaudojo \u0161anta\u017euojan\u010diais in\u017einieriais, kurie band\u0117 i\u0161jungti model\u012f kontroliuojamuose bandymo scenarijuose, \u012fmon\u0117 i\u0161eina i\u0161 nauj\u0173 tyrim\u0173, rodan\u010di\u0173, kad \u0161i problema yra labiau paplitusi tarp pirmaujan\u010di\u0173 AI modeli\u0173. Penktadien\u012f \u201eAnthropic\u201c paskelb\u0117 naujus saugos tyrim\u0173 tyrimus 16 pagrindini\u0173 AI modeli\u0173 i\u0161 [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":2258,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"om_disable_all_campaigns":false,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":""},"categories":[5],"tags":[3861,3863,1592,24,3862,3864,149,3865,1116],"class_list":["post-2257","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-technologijos-programine-iranga-prietaisai","tag-antropikas","tag-claude","tag-dauguma","tag-kad","tag-modeliu","tag-pasinaudos","tag-sako","tag-santazu","tag-tik"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/europaskolos.lt\/index.php\/wp-json\/wp\/v2\/posts\/2257","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/europaskolos.lt\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/europaskolos.lt\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/europaskolos.lt\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/europaskolos.lt\/index.php\/wp-json\/wp\/v2\/comments?post=2257"}],"version-history":[{"count":0,"href":"https:\/\/europaskolos.lt\/index.php\/wp-json\/wp\/v2\/posts\/2257\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/europaskolos.lt\/index.php\/wp-json\/wp\/v2\/media\/2258"}],"wp:attachment":[{"href":"https:\/\/europaskolos.lt\/index.php\/wp-json\/wp\/v2\/media?parent=2257"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/europaskolos.lt\/index.php\/wp-json\/wp\/v2\/categories?post=2257"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/europaskolos.lt\/index.php\/wp-json\/wp\/v2\/tags?post=2257"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}