технологии

Поезия заобикаля безопасността на AI чатботове, показва проучване

Published

6 часа ago

1 декември, 2025

Изследване, проведено от Icaro Lab, разкрива, че поезията може да заобиколи безопасностите на AI чатботове. Анализът, осъществен в Италия, показва, че 62% от поетичните запитвания, тествани на 25 водещи AI модела, произвеждат опасни отговори. Някои модели реагират на почти всички от тях, което поставя под въпрос надеждността на системите за безопасност на тези технологии.

Проучването, инициатива на етичното AI дружество DexAI, включва 20 стихотворения, написани на английски и италиански. Всички те завършват с явен призив за вредно съдържание, включително език на омразата, сексуално съдържание, инструкции за самоубийство и самоувреждане, както и указания за създаване на опасни материали, като оръжия и експлозиви. Изследователите избрали да не публикуват стихотворенията, тъй като те могат да бъдат лесно възпроизведени.

Резултати от изследването и различия между моделите

Тестовете са проведени на 25 AI системи от девет компании, включително Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI и Moonshot AI. Резултатите показват, че 62 процента от поетичните запитвания предизвикват опасни реакции, което заобикаля обучението на AI системите за безопасност.

Някои модели показват по-голяма устойчивост от други. Например, GPT-5 nano на OpenAI не е реагирал с вредно съдържание на нито едно от стихотворенията, докато Gemini 2.5 pro на Google е реагирал на всички. Два модела на Meta реагират на 70 процента от запитванията.

Изследването предполага, че уязвимостта произтича от начина, по който AI моделите генерират текст. Големите езикови модели предсказват най-вероятната следваща дума в отговор, което обикновено им позволява да филтрират вредно съдържание. Поезията, с нетрадиционния си ритъм, структура и употреба на метафори, прави тези предсказания по-малко надеждни и затруднява AI да разпознава и блокира опасни инструкции.

Въпроси за безопасността на AI системите

Докато традиционните „разбивания“ на AI (манипулиране на голям езиков модел чрез входни данни) обикновено са сложни и се използват само от изследователи, хакери или държавни актьори, „враждебната поезия“ може да бъде прилагана от всеки, което повдига въпроси относно устойчивостта на AI системите в ежедневна употреба.

Преди публикуването на резултатите, италианските изследователи се свързали с всички компании, участващи в проучването, за да ги уведомят за уязвимостта и да им предоставят пълния набор от данни. Досега единствено Anthropic е отговорил, потвърдили, че преглеждат проучването.

Related Topics:AI чатботове Италия

Up Next

Ръст на автобусните пътувания в България, железниците с лек спад

Don't Miss

Нови инвестиции ускоряват развитието на Транс-Каспийския коридор

Редакция

Нашият редакторски екип е посветен на предоставянето на точно и навременно отразяване на новините. С ангажимент към журналистическата почтеност, ние ви донасяме историите, които са най-важни за нашата общност.