технологии
Поезия заобикаля AI механизмите за безопасност, разкрива изследване
Изследване на италиански учени показва, че поезията може да заобиколи механизмите за безопасност на водещи AI чатботове. В рамките на теста, проведен от Icaro Lab, част от инициативата на етичното AI дружество DexAI, 62% от поетичните подбуди предизвикали опасни отговори в 25 водещи AI модела.
Тестовете обхванали 20 стихотворения на английски и италиански език, всяко от които завършвало с изричен призив за опасно съдържание. Сред исканите теми били реч на омразата, сексуално съдържание, инструкции за самоубийство и самонараняване, както и указания за създаване на опасни материали, като оръжия и експлозиви. Поезията, която изследователите избрали да не публикуват, тъй като може лесно да бъде възпроизведена, била тествана на 25 AI системи от девет компании, включително Google, OpenAI, Anthropic, Meta и други.
Резултати от изследването и уязвимости на AI системите
Според резултатите, 62% от поетичните подбуди предизвикали опасни отговори, заобикаляйки обучението за безопасност на AI системите. Някои модели били по-устойчиви от други; например, GPT-5 nano на OpenAI не отговорил с опасно съдържание на нито едно от стихотворенията, докато Gemini 2.5 pro на Google реагирал на всички. Два модела на Meta реагирали на 70% от подбудите.
Изследването подсказва, че уязвимостта произтича от начина, по който AI моделите генерират текст. Големите езикови модели предсказват най-вероятната следваща дума в отговора, процес, който им позволява да филтрират опасно съдържание при нормални обстоятелства. Поезията, със своите необичайни ритми, структура и метафори, прави тези предсказания по-малко надеждни, затруднявайки AI да разпознае и блокира опасни инструкции.
Последствия и реакции от компаниите
Традиционните „jailbreaks“ на AI, които манипулират големи езикови модели, обикновено са сложни и използвани само от изследователи, хакери или държавни актьори. От друга страна, „враждебната поезия“ може да бъде приложена от всеки, което поставя под въпрос устойчивостта на AI системите в ежедневна употреба.
Преди публикуване на резултатите, италианските изследователи се свързали с всички засегнати компании, за да ги уведомят за уязвимостта и да им предоставят пълния набор от данни. До момента само Anthropic е отговорила, потвърдили са, че преглеждат изследването.
-
развлечения3 месеца agoИзлиза мемоарът на Вирджиния Джиуфре ‘Nobody’s Girl’ след смъртта ѝ
-
развлечения3 месеца agoМемоарът на Вирджиния Дюфре „Nobody’s Girl“ излиза след смъртта ѝ
-
развлечения3 месеца agoИзлезе мемоарът на Вирджиния Джуфре ‘Nobody’s Girl’ след смъртта ѝ
-
развлечения3 месеца agoМемоарите на Вирджиния Джафре „Nobody’s Girl“ излизат след смъртта ѝ
-
развлечения3 месеца agoИзлезе мемоарът на Вирджиния Дюфре „Nobody’s Girl“ след смъртта ѝ
-
туризъм3 месеца agoВалѐта – най-красивото пристанище за круизи в света
-
образование4 месеца agoРуски ученици спечелиха медали на Международната олимпиада по математика
-
образование4 месеца agoKruu създава партньорства за иновации в образованието
-
туризъм4 месеца agoРусия възобновява редовни полети до Северна Корея след десетилетия
-
топ новини4 месеца agoПитбул атакува семейство и куче в село Кошарица
-
топ новини5 месеца agoНови избори за директор на Българската национална телевизия
-
свят5 месеца agoСмъртен инцидент на летището в Бергамо: Мъж погълнат от двигател на самолет
