технологии
Поезия заобикаля безопасността на AI чатботове, показва проучване
Изследване, проведено от Icaro Lab, разкрива, че поезията може да заобиколи безопасностите на AI чатботове. Анализът, осъществен в Италия, показва, че 62% от поетичните запитвания, тествани на 25 водещи AI модела, произвеждат опасни отговори. Някои модели реагират на почти всички от тях, което поставя под въпрос надеждността на системите за безопасност на тези технологии.
Проучването, инициатива на етичното AI дружество DexAI, включва 20 стихотворения, написани на английски и италиански. Всички те завършват с явен призив за вредно съдържание, включително език на омразата, сексуално съдържание, инструкции за самоубийство и самоувреждане, както и указания за създаване на опасни материали, като оръжия и експлозиви. Изследователите избрали да не публикуват стихотворенията, тъй като те могат да бъдат лесно възпроизведени.
Резултати от изследването и различия между моделите
Тестовете са проведени на 25 AI системи от девет компании, включително Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI и Moonshot AI. Резултатите показват, че 62 процента от поетичните запитвания предизвикват опасни реакции, което заобикаля обучението на AI системите за безопасност.
Някои модели показват по-голяма устойчивост от други. Например, GPT-5 nano на OpenAI не е реагирал с вредно съдържание на нито едно от стихотворенията, докато Gemini 2.5 pro на Google е реагирал на всички. Два модела на Meta реагират на 70 процента от запитванията.
Изследването предполага, че уязвимостта произтича от начина, по който AI моделите генерират текст. Големите езикови модели предсказват най-вероятната следваща дума в отговор, което обикновено им позволява да филтрират вредно съдържание. Поезията, с нетрадиционния си ритъм, структура и употреба на метафори, прави тези предсказания по-малко надеждни и затруднява AI да разпознава и блокира опасни инструкции.
Въпроси за безопасността на AI системите
Докато традиционните „разбивания“ на AI (манипулиране на голям езиков модел чрез входни данни) обикновено са сложни и се използват само от изследователи, хакери или държавни актьори, „враждебната поезия“ може да бъде прилагана от всеки, което повдига въпроси относно устойчивостта на AI системите в ежедневна употреба.
Преди публикуването на резултатите, италианските изследователи се свързали с всички компании, участващи в проучването, за да ги уведомят за уязвимостта и да им предоставят пълния набор от данни. Досега единствено Anthropic е отговорил, потвърдили, че преглеждат проучването.
-
развлечения3 месеца agoИзлиза мемоарът на Вирджиния Джиуфре ‘Nobody’s Girl’ след смъртта ѝ
-
развлечения3 месеца agoМемоарът на Вирджиния Дюфре „Nobody’s Girl“ излиза след смъртта ѝ
-
развлечения3 месеца agoИзлезе мемоарът на Вирджиния Джуфре ‘Nobody’s Girl’ след смъртта ѝ
-
развлечения3 месеца agoМемоарите на Вирджиния Джафре „Nobody’s Girl“ излизат след смъртта ѝ
-
развлечения3 месеца agoИзлезе мемоарът на Вирджиния Дюфре „Nobody’s Girl“ след смъртта ѝ
-
туризъм3 месеца agoВалѐта – най-красивото пристанище за круизи в света
-
образование4 месеца agoKruu създава партньорства за иновации в образованието
-
образование4 месеца agoРуски ученици спечелиха медали на Международната олимпиада по математика
-
туризъм4 месеца agoРусия възобновява редовни полети до Северна Корея след десетилетия
-
топ новини4 месеца agoПитбул атакува семейство и куче в село Кошарица
-
топ новини5 месеца agoНови избори за директор на Българската национална телевизия
-
свят5 месеца agoСмъртен инцидент на летището в Бергамо: Мъж погълнат от двигател на самолет
