Новости Джейлбрейк для Gemini: как взломать крупную языковую модель от Google?

NewsMaker

I'm just a script
Премиум
9,336
18
8 Ноя 2022
Исследователи выявили фатальные изъяны в защите, позволяющие злоупотреблять возможностями популярного ИИ-решения.


l0l5zhzizef5nynlil3ozg9gweprfk6n.jpg


В Для просмотра ссылки Войди или Зарегистрируйся компании HiddenLayer исследователи выявили ряд уязвимостей в крупной языковой модели Gemini от Google . Эти уязвимости представляют вполне реальную угрозу безопасности и затрагивают как пользователей Gemini Advanced в Google Workspace, так и компании, использующие API этой языковой модели.

Первая уязвимость связана с возможностью обхода защитных механизмов для утечки системных подсказок, что может позволить модели генерировать вредоносный контент или выполнять косвенные атаки путём инъекций. Это становится возможным благодаря уязвимости моделей к так называемой атаке синонимами, позволяющей обходить защиту и ограничения контента.

Второй тип уязвимостей касается использования сложных техник «джейлбрейкинга» для того, чтобы заставить модели Gemini генерировать дезинформацию по таким темам, например, как выборы, или распространять потенциально незаконную и опасную информацию.

Третья уязвимость может привести к тому, что Gemini сольёт конфиденциальную информацию в системной подсказке, если передать ей серию необычных токенов в качестве ввода.

В исследовании также упоминается метод, использующий Gemini Advanced и специально подготовленный документ Google, что позволяет обойти инструкции модели и выполнять вредоносные действия.

Компания Google в ответ заявила, что регулярно проводит Red Teaming и тренирует свои модели для защиты от враждебных действий, таких как инъекции подсказок, джейлбрейкинг и более сложные атаки. Также сообщается о введении компанией ограничений на ответы на запросы, связанные с выборами, в знак предосторожности.

Раскрытие этих уязвимостей подчёркивает необходимость постоянного тестирования моделей на атаки с использованием подсказок, атаки с извлечением данных, манипулированием, враждебными примерами, отравлением данных и эксфильтрацией.

Специалисты отметили, что такие уязвимости отнюдь не являются чем-то новым и присутствуют во многих других ИИ-моделях. Учитывая это, все игроки ИИ-индустрии должны проявлять как можно большую бдительность и осторожность при обучении и настройке своих языковых моделей.
 
Источник новости
www.securitylab.ru

Похожие темы