технологии

Изследване разкрива уязвимости в AI инструментите за безопасност

Published

2 часа ago

7 ноември, 2025

Ново изследване показва, че повечето мерки за безопасност на инструментите за изкуствен интелект могат да бъдат заобиколени само за няколко минути. Според доклад на технологичната компания Cisco, AI системите „забравят“ своите правила за безопасност, когато потребителят общува с тях по-дълго време. Това увеличава вероятността те да предоставят вредна или неподходяща информация.

Изследването оценява големите езикови модели (LLMs), стоящи зад популярни AI чатботове от компании като OpenAI, Mistral, Google, Meta, Alibaba, Deepseek и Microsoft. Изпълнени са 499 разговора с използване на техника, наречена „мулти-обратни атаки“, при която злонамерени потребители задават множество въпроси на AI инструментите с цел да заобиколят мерките за безопасност. Всеки разговор включва между пет и десет взаимодействия.

Изследователите сравняват резултатите от различни въпроси, за да определят вероятността чатботовете да се съгласят с искания за вредна или неподходяща информация. Средно, когато задават множество въпроси, те успяват да получат злонамерена информация в 64 процента от разговорите, докато при един единствен въпрос този процент е едва 13 процента. Успехът варира от около 26 процента при Google’s Gemma до 93 процента при модела Large Instruct на Mistral.

Уязвимости в AI системите и последствията от тях

Резултатите сочат, че мулти-обратните атаки могат да позволят разпространението на вредно съдържание или да предоставят на хакерите „неразрешен достъп“ до чувствителна информация на компании. Според изследването, AI системите често не успяват да запомнят и прилагат правилата си за безопасност по време на по-дълги разговори, което позволява на нападателите да усъвършенстват запитванията си и да избегнат мерките за сигурност.

Моделите на Mistral, подобно на тези на Meta, Google, OpenAI и Microsoft, работят с отворени LLM, което позволява на обществеността да получи достъп до специфичните параметри за безопасност, на които моделите са обучени. Cisco подчертава, че тези модели често разполагат с „по-слаби вградени функции за безопасност“, което прехвърля отговорността за безопасността на потребителя, който използва откритата информация, за да персонализира своя модел.

Важно е да се отбележи, че Google, OpenAI, Meta и Microsoft са заявили, че полагат усилия за намаляване на злонамереното донастройване на своите модели. Въпреки това, AI компаниите са подложени на критика за недостатъчните мерки за безопасност, които улесняват адаптацията на техните системи за криминални цели. През август 2023 г. например, американската компания Anthropic съобщи, че престъпници са използвали нейния модел Claude за извършване на мащабни кражби и изнудване на лични данни, изисквайки откуп, понякога надвишаващ 500 000 долара.

Related Topics:

Don't Miss

Изследване: AI чатботовете не разпознават фалшивата информация

Редакция

Нашият редакторски екип е посветен на предоставянето на точно и навременно отразяване на новините. С ангажимент към журналистическата почтеност, ние ви донасяме историите, които са най-важни за нашата общност.