технологии
Поезия заобикаля безопасността на AI чатботове, разкрива изследване
Изследване, проведено от Icaro Lab, разкрива, че поезията може да заобиколи механизми за безопасност на водещи AI чатботове. В теста, прилаган към 25 AI модела, 62% от поетичните подбуди предизвикали неблагоприятни отговори. Проучването е инициатива на етичната компания за изкуствен интелект DexAI и включва 20 поеми на английски и италиански език.
Поемите, завършващи с явни искания за вредно съдържание, като реч на омраза и инструкции за самоубийство, бяха тествани върху AI системи на компании като Google, OpenAI, Anthropic, Meta и други. Резултатите показват значителни различия в реакциите на моделите. Например, GPT-5 nano на OpenAI не реагира на нито една от поемите с вредно съдържание, докато Gemini 2.5 pro на Google отговори на всички.
Уязвимост на AI системите
Изследването подчертава, че уязвимостта на AI моделите произтича от начина, по който те генерират текст. Големите езикови модели предсказват най-вероятната следваща дума, което обикновено им позволява да филтрират вредно съдържание. Но поезията, с нейната необичайна ритмика и структура, затруднява тези прогнози, правейки по-трудно разпознаването и блокирането на опасни инструкции.
Според изследователите, традиционните методи за „избягване на затвора“ на AI (включващи манипулиране на голям езиков модел) обикновено са сложни и се използват основно от изследователи и хакери. Въпреки това, адверсарната поезия може да бъде приложена от всеки, което поставя под въпрос устойчивостта на AI системите в ежедневна употреба.
Обратна връзка от индустрията
Преди публикуване на резултатите, италианските изследователи са уведомили всички компании, участващи в тестовете, за уязвимостта и им предоставили пълния набор от данни. Досега единствено Anthropic е отговорила, потвърдили, че преглеждат проучването.
Тази ситуация поставя важни въпроси относно безопасността на AI технологиите и необходимостта от подобряване на защитните механизми на чатботовете, особено в контекста на широкото им приложение в различни сфери на живота.
-
развлечения3 месеца agoИзлиза мемоарът на Вирджиния Джиуфре ‘Nobody’s Girl’ след смъртта ѝ
-
развлечения3 месеца agoМемоарът на Вирджиния Дюфре „Nobody’s Girl“ излиза след смъртта ѝ
-
развлечения3 месеца agoИзлезе мемоарът на Вирджиния Джуфре ‘Nobody’s Girl’ след смъртта ѝ
-
развлечения3 месеца agoМемоарите на Вирджиния Джафре „Nobody’s Girl“ излизат след смъртта ѝ
-
развлечения3 месеца agoИзлезе мемоарът на Вирджиния Дюфре „Nobody’s Girl“ след смъртта ѝ
-
туризъм3 месеца agoВалѐта – най-красивото пристанище за круизи в света
-
образование4 месеца agoРуски ученици спечелиха медали на Международната олимпиада по математика
-
образование4 месеца agoKruu създава партньорства за иновации в образованието
-
туризъм4 месеца agoРусия възобновява редовни полети до Северна Корея след десетилетия
-
топ новини4 месеца agoПитбул атакува семейство и куче в село Кошарица
-
топ новини5 месеца agoНови избори за директор на Българската национална телевизия
-
свят5 месеца agoСмъртен инцидент на летището в Бергамо: Мъж погълнат от двигател на самолет
