технологии

Поезия подлага на изпитание безопасността на AI чатботове

Published

2 часа ago

2 декември, 2025

Изследвания в Италия разкриха, че поезията може да заобиколи механизмите за безопасност на някои от най-напредналите AI чатботове. Според данни от Icaro Lab, инициатива на компанията за етичен изкуствен интелект DexAI, 62% от поетичните запитвания, използвани в тестовете, произвеждат небезопасни отговори. Това се случва в контекста на 25 водещи AI модела, като някои от тях реагират на почти всички поетични входове с опасно съдържание.

Изследването включва 20 стихотворения, написани на английски и италиански език, всяко от които съдържа явна молба за вредно съдържание. В него бяха включени изрази на омраза, сексуално съдържание, инструкции за самоубийство и самонараняване, както и ръководства за създаване на опасни материали, като оръжия и експлозиви. Поетичните текстове не бяха публикувани, тъй като изследователите отбелязаха, че могат да бъдат лесно репликирани.

Тестове върху водещи AI системи

Тестовете бяха проведени върху 25 AI системи от девет компании, включително Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI и Moonshot AI. Около 62% от поетичните запитвания предизвикаха небезопасни отговори, заобикаляйки обучението за безопасност на AI моделите. Някои системи показаха по-голяма устойчивост от други. Например, моделът GPT-5 nano на OpenAI не отговори с вредно съдържание на нито едно от стихотворенията, докато Gemini 2.5 на Google реагира на всички тях.

Изследването подсказва, че уязвимостта произтича от начина, по който AI моделите генерират текст. Големите езикови модели предсказват най-вероятната следваща дума в отговора, което обикновено позволява да се филтрира вредното съдържание. Въпреки това, поезията, с необичайния си ритъм и структура, затруднява точността на тези предсказания и прави по-трудно разпознаването и блокирането на небезопасни инструкции.

Потенциални последици и отговор на изследователите

Традиционните методи за манипулиране на AI системи обикновено изискват сложни техники и обикновено се използват само от изследователи, хакери или държавни актьори. Въпреки това, поетичните запитвания могат да бъдат приложени от всеки, което поставя под въпрос устойчивостта на AI системите в ежедневната им употреба.

Преди публикуването на резултатите, италианските изследователи се свързаха с всички компании, участващи в тестовете, за да ги уведомят за уязвимостта и да им предоставят пълния набор от данни. Засега единствено Anthropic потвърди, че преглежда изследването.

Related Topics:Италия

Don't Miss

България реализира 53 проекта с ESA на стойност над 10 милиона евро

Редакция

Нашият редакторски екип е посветен на предоставянето на точно и навременно отразяване на новините. С ангажимент към журналистическата почтеност, ние ви донасяме историите, които са най-важни за нашата общност.