Новости Написано «соглашение» — ИИ читает как «выполнить скрипт». LegalPwn учит атаковать словами

NewsMaker

I'm just a script
Премиум
19,564
42
8 Ноя 2022
Даже самые умные чат-боты капитулировали перед дебрями из непонятных формулировок.


a8i1qc2yyxyeiue1rvt10yuxutt9glo1.jpg


Новая атака на искусственный интеллект показала, что строго формализованные юридические тексты вполне могут стать оружием в руках злоумышленников. Специалисты компании Pangea Для просмотра ссылки Войди или Зарегистрируйся технику под названием LegalPwn, способную внедрять вредоносные команды в системы с искусственным интеллектом, маскируя их под вполне легитимные формулировки из пользовательских соглашений, авторских уведомлений и других стандартных документов.

Метод основан на подмене намерений: вместо привычных прямых инструкций, которые большинство языковых моделей научились распознавать как потенциально опасные, используется тонкая подстройка под стиль юридических формулировок. Благодаря авторитетности и безобидному виду таких текстов, модели чаще всего обрабатывают их без подозрений. В результате системы начинают интерпретировать заложенные в них скрытые инструкции как нормальные задачи, даже если речь идёт об обходе протоколов безопасности или запуске вредоносного кода.

Наиболее тревожной частью исследования стал тот факт, что атаки не ограничились лабораторными тестами. Специалисты проверили LegalPwn на реальных продуктах, включая популярные инструменты Для просмотра ссылки Войди или Зарегистрируйся и Для просмотра ссылки Войди или Зарегистрируйся . В одном из демонстрационных сценариев ИИ-инструмент определил вредоносный шелл-код как обычное приложение-калькулятор, а в другом — открыто порекомендовал пользователю выполнить опасный скрипт. GitHub Copilot также неверно классифицировал вредоносные сетевые команды как безвредные.

Уязвимыми оказались практически все ведущие модели: ChatGPT 4.1 и 4o от OpenAI, Gemini 2.5 Flash и Pro от Google, Grok 3 и 4 от xAI, LLaMA 3.3 70B от <span class="extremist-highlight" title="Соцсеть признана экстремистской и запрещена на территории РФ">Meta</span> и Phi 4 от Microsoft. Лишь Claude 3.5 Sonnet и Sonnet 4 от Anthropic, а также LLaMA Guard 4 от Meta продемонстрировали стойкость ко всем тестируемым сценариям. В этих случаях модели либо полностью блокировали выполнение команд, либо точно классифицировали вредоносную нагрузку, несмотря на её завуалированную подачу.

Одним из ключевых факторов устойчивости оказалась структура так называемых системных подсказок — невидимых пользователю инструкций, определяющих поведение модели. Чем жёстче и точнее в них формулируются запреты и критерии безопасности, тем выше шансы модели устоять перед попытками манипуляции.

Результаты эксперимента указывают на серьёзную пробоину в архитектуре современных ИИ-систем. Тексты юридического характера встречаются повсеместно и часто проходят сквозь фильтры без тщательной проверки. Это делает их идеальной площадкой для скрытой передачи вредоносных задач, особенно в условиях, когда такие тексты анализируются автоматически и воспринимаются как безопасные по определению.

Исследование подчёркивает, насколько критически важны надёжные защитные механизмы внутри самих ИИ-инструментов — от качественной фильтрации входных данных до продвинутых механизмов обнаружения замаскированных команд. При текущем уровне интеграции языковых моделей в корпоративную инфраструктуру и процессы принятия решений, атаки наподобие LegalPwn могут не просто нарушить работу сервисов, но и привести к системным сбоям с труднообратимыми последствиями.
 
Источник новости
www.securitylab.ru

Похожие темы