технологии

Поезия заобикаля AI механизмите за безопасност, разкрива изследване

Published

9 часа ago

2 декември, 2025

Изследване на италиански учени показва, че поезията може да заобиколи механизмите за безопасност на водещи AI чатботове. В рамките на теста, проведен от Icaro Lab, част от инициативата на етичното AI дружество DexAI, 62% от поетичните подбуди предизвикали опасни отговори в 25 водещи AI модела.

Тестовете обхванали 20 стихотворения на английски и италиански език, всяко от които завършвало с изричен призив за опасно съдържание. Сред исканите теми били реч на омразата, сексуално съдържание, инструкции за самоубийство и самонараняване, както и указания за създаване на опасни материали, като оръжия и експлозиви. Поезията, която изследователите избрали да не публикуват, тъй като може лесно да бъде възпроизведена, била тествана на 25 AI системи от девет компании, включително Google, OpenAI, Anthropic, Meta и други.

Резултати от изследването и уязвимости на AI системите

Според резултатите, 62% от поетичните подбуди предизвикали опасни отговори, заобикаляйки обучението за безопасност на AI системите. Някои модели били по-устойчиви от други; например, GPT-5 nano на OpenAI не отговорил с опасно съдържание на нито едно от стихотворенията, докато Gemini 2.5 pro на Google реагирал на всички. Два модела на Meta реагирали на 70% от подбудите.

Изследването подсказва, че уязвимостта произтича от начина, по който AI моделите генерират текст. Големите езикови модели предсказват най-вероятната следваща дума в отговора, процес, който им позволява да филтрират опасно съдържание при нормални обстоятелства. Поезията, със своите необичайни ритми, структура и метафори, прави тези предсказания по-малко надеждни, затруднявайки AI да разпознае и блокира опасни инструкции.

Последствия и реакции от компаниите

Традиционните „jailbreaks“ на AI, които манипулират големи езикови модели, обикновено са сложни и използвани само от изследователи, хакери или държавни актьори. От друга страна, „враждебната поезия“ може да бъде приложена от всеки, което поставя под въпрос устойчивостта на AI системите в ежедневна употреба.

Преди публикуване на резултатите, италианските изследователи се свързали с всички засегнати компании, за да ги уведомят за уязвимостта и да им предоставят пълния набор от данни. До момента само Anthropic е отговорила, потвърдили са, че преглеждат изследването.

Related Topics:AI-системи Италиански учени

Up Next

Руски атаки оставят потребители без ток в няколко региона

Don't Miss

Бусите в България нарастват, докато железопътният транспорт намалява

Редакция

Нашият редакторски екип е посветен на предоставянето на точно и навременно отразяване на новините. С ангажимент към журналистическата почтеност, ние ви донасяме историите, които са най-важни за нашата общност.