технологии
Поезия подлага на изпитание безопасността на AI чатботове
Изследвания в Италия разкриха, че поезията може да заобиколи механизмите за безопасност на някои от най-напредналите AI чатботове. Според данни от Icaro Lab, инициатива на компанията за етичен изкуствен интелект DexAI, 62% от поетичните запитвания, използвани в тестовете, произвеждат небезопасни отговори. Това се случва в контекста на 25 водещи AI модела, като някои от тях реагират на почти всички поетични входове с опасно съдържание.
Изследването включва 20 стихотворения, написани на английски и италиански език, всяко от които съдържа явна молба за вредно съдържание. В него бяха включени изрази на омраза, сексуално съдържание, инструкции за самоубийство и самонараняване, както и ръководства за създаване на опасни материали, като оръжия и експлозиви. Поетичните текстове не бяха публикувани, тъй като изследователите отбелязаха, че могат да бъдат лесно репликирани.
Тестове върху водещи AI системи
Тестовете бяха проведени върху 25 AI системи от девет компании, включително Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI и Moonshot AI. Около 62% от поетичните запитвания предизвикаха небезопасни отговори, заобикаляйки обучението за безопасност на AI моделите. Някои системи показаха по-голяма устойчивост от други. Например, моделът GPT-5 nano на OpenAI не отговори с вредно съдържание на нито едно от стихотворенията, докато Gemini 2.5 на Google реагира на всички тях.
Изследването подсказва, че уязвимостта произтича от начина, по който AI моделите генерират текст. Големите езикови модели предсказват най-вероятната следваща дума в отговора, което обикновено позволява да се филтрира вредното съдържание. Въпреки това, поезията, с необичайния си ритъм и структура, затруднява точността на тези предсказания и прави по-трудно разпознаването и блокирането на небезопасни инструкции.
Потенциални последици и отговор на изследователите
Традиционните методи за манипулиране на AI системи обикновено изискват сложни техники и обикновено се използват само от изследователи, хакери или държавни актьори. Въпреки това, поетичните запитвания могат да бъдат приложени от всеки, което поставя под въпрос устойчивостта на AI системите в ежедневната им употреба.
Преди публикуването на резултатите, италианските изследователи се свързаха с всички компании, участващи в тестовете, за да ги уведомят за уязвимостта и да им предоставят пълния набор от данни. Засега единствено Anthropic потвърди, че преглежда изследването.
-
развлечения3 месеца agoИзлиза мемоарът на Вирджиния Джиуфре ‘Nobody’s Girl’ след смъртта ѝ
-
развлечения3 месеца agoМемоарът на Вирджиния Дюфре „Nobody’s Girl“ излиза след смъртта ѝ
-
развлечения3 месеца agoИзлезе мемоарът на Вирджиния Джуфре ‘Nobody’s Girl’ след смъртта ѝ
-
развлечения3 месеца agoМемоарите на Вирджиния Джафре „Nobody’s Girl“ излизат след смъртта ѝ
-
развлечения3 месеца agoИзлезе мемоарът на Вирджиния Дюфре „Nobody’s Girl“ след смъртта ѝ
-
туризъм3 месеца agoВалѐта – най-красивото пристанище за круизи в света
-
образование4 месеца agoKruu създава партньорства за иновации в образованието
-
образование4 месеца agoРуски ученици спечелиха медали на Международната олимпиада по математика
-
туризъм4 месеца agoРусия възобновява редовни полети до Северна Корея след десетилетия
-
топ новини4 месеца agoПитбул атакува семейство и куче в село Кошарица
-
топ новини5 месеца agoНови избори за директор на Българската национална телевизия
-
свят5 месеца agoСмъртен инцидент на летището в Бергамо: Мъж погълнат от двигател на самолет
