технологии
Изследване разкрива уязвимости в AI инструментите за безопасност
Ново изследване показва, че повечето мерки за безопасност на инструментите за изкуствен интелект могат да бъдат заобиколени само за няколко минути. Според доклад на технологичната компания Cisco, AI системите „забравят“ своите правила за безопасност, когато потребителят общува с тях по-дълго време. Това увеличава вероятността те да предоставят вредна или неподходяща информация.
Изследването оценява големите езикови модели (LLMs), стоящи зад популярни AI чатботове от компании като OpenAI, Mistral, Google, Meta, Alibaba, Deepseek и Microsoft. Изпълнени са 499 разговора с използване на техника, наречена „мулти-обратни атаки“, при която злонамерени потребители задават множество въпроси на AI инструментите с цел да заобиколят мерките за безопасност. Всеки разговор включва между пет и десет взаимодействия.
Изследователите сравняват резултатите от различни въпроси, за да определят вероятността чатботовете да се съгласят с искания за вредна или неподходяща информация. Средно, когато задават множество въпроси, те успяват да получат злонамерена информация в 64 процента от разговорите, докато при един единствен въпрос този процент е едва 13 процента. Успехът варира от около 26 процента при Google’s Gemma до 93 процента при модела Large Instruct на Mistral.
Уязвимости в AI системите и последствията от тях
Резултатите сочат, че мулти-обратните атаки могат да позволят разпространението на вредно съдържание или да предоставят на хакерите „неразрешен достъп“ до чувствителна информация на компании. Според изследването, AI системите често не успяват да запомнят и прилагат правилата си за безопасност по време на по-дълги разговори, което позволява на нападателите да усъвършенстват запитванията си и да избегнат мерките за сигурност.
Моделите на Mistral, подобно на тези на Meta, Google, OpenAI и Microsoft, работят с отворени LLM, което позволява на обществеността да получи достъп до специфичните параметри за безопасност, на които моделите са обучени. Cisco подчертава, че тези модели често разполагат с „по-слаби вградени функции за безопасност“, което прехвърля отговорността за безопасността на потребителя, който използва откритата информация, за да персонализира своя модел.
Важно е да се отбележи, че Google, OpenAI, Meta и Microsoft са заявили, че полагат усилия за намаляване на злонамереното донастройване на своите модели. Въпреки това, AI компаниите са подложени на критика за недостатъчните мерки за безопасност, които улесняват адаптацията на техните системи за криминални цели. През август 2023 г. например, американската компания Anthropic съобщи, че престъпници са използвали нейния модел Claude за извършване на мащабни кражби и изнудване на лични данни, изисквайки откуп, понякога надвишаващ 500 000 долара.
-
образование3 месеца agoKruu създава партньорства за иновации в образованието
-
развлечения2 месеца agoИзлиза мемоарът на Вирджиния Джиуфре ‘Nobody’s Girl’ след смъртта ѝ
-
развлечения2 месеца agoИзлезе мемоарът на Вирджиния Джуфре ‘Nobody’s Girl’ след смъртта ѝ
-
топ новини4 месеца agoНови избори за директор на Българската национална телевизия
-
развлечения2 месеца agoМемоарът на Вирджиния Дюфре „Nobody’s Girl“ излиза след смъртта ѝ
-
туризъм3 месеца agoРусия възобновява редовни полети до Северна Корея след десетилетия
-
образование3 месеца agoРуски ученици спечелиха медали на Международната олимпиада по математика
-
развлечения2 месеца agoМемоарите на Вирджиния Джафре „Nobody’s Girl“ излизат след смъртта ѝ
-
развлечения2 месеца agoИзлезе мемоарът на Вирджиния Дюфре „Nobody’s Girl“ след смъртта ѝ
-
топ новини3 месеца agoПитбул атакува семейство и куче в село Кошарица
-
туризъм2 месеца agoВалѐта – най-красивото пристанище за круизи в света
-
свят4 месеца agoСмъртен инцидент на летището в Бергамо: Мъж погълнат от двигател на самолет
