Connect with us

технологии

Поезия заобикаля AI механизмите за безопасност, разкрива изследване

Редакция

Published

on

Изследване на италиански учени показва, че поезията може да заобиколи механизмите за безопасност на водещи AI чатботове. В рамките на теста, проведен от Icaro Lab, част от инициативата на етичното AI дружество DexAI, 62% от поетичните подбуди предизвикали опасни отговори в 25 водещи AI модела.

Тестовете обхванали 20 стихотворения на английски и италиански език, всяко от които завършвало с изричен призив за опасно съдържание. Сред исканите теми били реч на омразата, сексуално съдържание, инструкции за самоубийство и самонараняване, както и указания за създаване на опасни материали, като оръжия и експлозиви. Поезията, която изследователите избрали да не публикуват, тъй като може лесно да бъде възпроизведена, била тествана на 25 AI системи от девет компании, включително Google, OpenAI, Anthropic, Meta и други.

Резултати от изследването и уязвимости на AI системите

Според резултатите, 62% от поетичните подбуди предизвикали опасни отговори, заобикаляйки обучението за безопасност на AI системите. Някои модели били по-устойчиви от други; например, GPT-5 nano на OpenAI не отговорил с опасно съдържание на нито едно от стихотворенията, докато Gemini 2.5 pro на Google реагирал на всички. Два модела на Meta реагирали на 70% от подбудите.

Изследването подсказва, че уязвимостта произтича от начина, по който AI моделите генерират текст. Големите езикови модели предсказват най-вероятната следваща дума в отговора, процес, който им позволява да филтрират опасно съдържание при нормални обстоятелства. Поезията, със своите необичайни ритми, структура и метафори, прави тези предсказания по-малко надеждни, затруднявайки AI да разпознае и блокира опасни инструкции.

Последствия и реакции от компаниите

Традиционните „jailbreaks“ на AI, които манипулират големи езикови модели, обикновено са сложни и използвани само от изследователи, хакери или държавни актьори. От друга страна, „враждебната поезия“ може да бъде приложена от всеки, което поставя под въпрос устойчивостта на AI системите в ежедневна употреба.

Преди публикуване на резултатите, италианските изследователи се свързали с всички засегнати компании, за да ги уведомят за уязвимостта и да им предоставят пълния набор от данни. До момента само Anthropic е отговорила, потвърдили са, че преглеждат изследването.

Нашият редакторски екип е посветен на предоставянето на точно и навременно отразяване на новините. С ангажимент към журналистическата почтеност, ние ви донасяме историите, които са най-важни за нашата общност.

туризъм48 минути ago

Туризмът по Пътя на коприната расте бързо в Евразия

развлечения49 минути ago

Шарън Стоун отдаде почит на жертвите на СПИН по случай Световния ден

наука49 минути ago

Генетичното редактиране: иновация за бъдещето на европейското земеделие

здраве50 минути ago

Почти 1 от 4 жени в ЕС смятат, че мъжете получават предимство в здравеопазването

бизнес2 часа ago

Икономическият растеж в Турция: Прогноза за 2025 г. повишена до 3.8%

технологии2 часа ago

Поезия подлага на изпитание безопасността на AI чатботове

спорт2 часа ago

Впечатляващи финали в джудото на Гран При в Абу Даби

образование2 часа ago

Централна Азия на световната образователна сцена: Форум в Ташкент

свят2 часа ago

Молдова затвори въздушното си пространство след нахлуване на руски дронове

политика3 часа ago

Бившият депутат Тулип Сидику осъден на затвор за корупция в Бангладеш

топ новини3 часа ago

Напредък в роботизираното заваряване и боядисване подобрява производството

туризъм3 часа ago

Ryanair прекратява членството Prime след 8 месеца: Какво означава за пътниците?

развлечения3 часа ago

Кастингът за новия Джеймс Бонд: Калъм Търнър е новият фаворит

наука4 часа ago

Геномното редактиране: Иновация, която може да преобрази земеделието в Европа

здраве4 часа ago

Съвети на СЗО за лечение на затлъстяване с медикаменти и здравословен начин на живот

бизнес4 часа ago

Coca-Cola отбелязва 125 години иновации и местно въздействие в Обединеното кралство

технологии4 часа ago

България реализира 53 проекта с ESA на стойност над 10 милиона евро

спорт4 часа ago

Вълнуващ сблъсък: Кристъл Палас и Манчестър Юнайтед завършиха наравно

образование5 часа ago

Образователната експанзия в Централна Азия на форума QS в Ташкент

свят5 часа ago

Най-добрите дългосрочни оператори на летище Лондон Хийтроу през декември

политика4 седмици ago

Швейцарският върховен съд потвърди осъдителна присъда за протестиращи

спорт2 седмици ago

Турция временно спря 102 футболисти заради скандал с хазарт

спорт2 седмици ago

Украйна победи Исландия и се класира за плейофите на Мондиала

технологии3 седмици ago

По-малко от 1%: Шофьорите на електрически автомобили в София защитават позицията си

политика3 седмици ago

Делегати от целия свят се събират в Самарканд за реформи

топ новини3 седмици ago

Франция отбеляза 10 години от атаките в Париж с почит към жертвите

здраве3 седмици ago

Републиканците в Сената отхвърлят предложение за отваряне на правителството

здраве2 седмици ago

Увеличаващият се риск от колоректален рак при младежите

развлечения4 седмици ago

Розалия разкрива дълбочината на ‘Берлин’ в новото си видео

бизнес4 седмици ago

Висока волатилност на Биткойн след спад от 3,7% през октомври

спорт4 седмици ago

Вълнуващи боксови мачове преди края на годината

топ новини3 седмици ago

Square позволява на търговците да приемат плащания с биткойн

бизнес4 седмици ago

Полицейска операция разкрива схема за кражба на гориво от Лукойл

туризъм4 седмици ago

Магически коледен базар в Крайова е само на 3 часа от Лондон

политика1 седмица ago

Лидерите на Северна Европа и Балтика потвърдиха подкрепата си за Украйна

топ новини3 седмици ago

Breguet спечели престижната награда Aiguille d’Or на GPHG 2025

технологии4 седмици ago

Прототипът на свръхзвуковия самолет на NASA успешно летя

спорт2 седмици ago

Велаан Сентилкумар побеждава шести поставен на Индийския отворен по скуош

технологии4 седмици ago

Първи тестов полет на супersonicния самолет X-59 на NASA

здраве2 седмици ago

Три смъртни случая от вируса Марбург в Етиопия

Trending

© Всички права запазени. Този уебсайт предлага новини и образователно съдържание с информационна цел. Въпреки че се стремим към точност, не гарантираме пълнотата или надеждността на предоставената информация. Съдържанието не трябва да се приема като професионален съвет. Препоръчваме на читателите да проверяват фактите и при необходимост да се консултират със специалисти. Не носим отговорност за загуби или неудобства, произтичащи от използването на информацията на този сайт.