Текст не изменился, но теперь он работает на атакующего.
С ростом популярности мультимодальных моделей искусственного интеллекта, объединяющих обработку текста и изображений, возрастает и число векторов для атак. Исследователи из Лос-Аламосской национальной лаборатории предложили новый подход к выявлению угроз, способных нарушить работу таких систем, и разработали универсальную защитную концепцию. Для просмотра ссылки Войдиили Зарегистрируйся позволяет лучше понять уязвимости, возникающие на стыке визуального и текстового восприятия, и обеспечивает новые средства Для просмотра ссылки Войди или Зарегистрируйся сложных атак.
В основе мультимодальных ИИ лежит механизм совмещения текстов и изображений в едином векторном пространстве. Это позволяет машине выстраивать взаимосвязь между, например, словом «круг» и формой круга. Однако именно такая способность к выравниванию становится ахиллесовой пятой — в неё и целятся атакующие. Даже минимальные и незаметные изменения в одном из каналов — текстовом или визуальном — могут нарушить логику модели и привести к выдаче искажённых или токсичных ответов, визуально не отличающихся от корректных.
Авторы работы подчеркивают, что с ростом применения подобных моделей в чувствительных сферах, включая национальную безопасность и научное моделирование, необходимо заранее учитывать возможность атак, идущих как с одной стороны, так и по нескольким каналам одновременно. Учитывая ограниченность существующих мер защиты, они разработали новую структуру, способную не только выявлять, но и точно локализовать источник угрозы в мультимодальных архитектурах.
Ключевым элементом новой концепции стало применение топологического анализа данных. Этот математический подход позволяет оценивать «форму» векторных представлений, фиксируя искажения, возникающие при атаке. Любое нарушение геометрического соответствия между текстом и изображением оставляет специфический след — именно его и научились распознавать авторы через метрику, названную ими «топологически-контрастивными потерями». Эти показатели позволяют с высокой точностью определить факт вмешательства и его направление.
Новая система была протестирована на суперкалькуляторе Venado. Система объединяет CPU и GPU в едином кристалле. На этой платформе команда провела серию тестов с применением различных методов атак на известные мультимодальные модели и датасеты. Результаты показали явное преимущество топологического подхода по точности и устойчивости перед всеми существующими методами защиты.
Метод не просто фиксирует факт атаки, но и позволяет провести классификацию её типа, а значит — принять адресные меры по устранению последствий. Такой подход способен изменить сам подход к киберзащите ИИ-систем. Вместо борьбы с последствиями он позволяет работать с корнем проблемы — структурным искажением данных в скрытых слоях модели.
Исследование было представлено на Международной конференции по машинному обучению ( Для просмотра ссылки Войдиили Зарегистрируйся ) и опубликовано на сервере Для просмотра ссылки Войди или Зарегистрируйся arXiv. Его значение выходит далеко за рамки академической среды, открывая путь к созданию более надёжных и защищённых мультимодальных ИИ в сферах, где ошибки могут иметь реальную цену.
С ростом популярности мультимодальных моделей искусственного интеллекта, объединяющих обработку текста и изображений, возрастает и число векторов для атак. Исследователи из Лос-Аламосской национальной лаборатории предложили новый подход к выявлению угроз, способных нарушить работу таких систем, и разработали универсальную защитную концепцию. Для просмотра ссылки Войди
В основе мультимодальных ИИ лежит механизм совмещения текстов и изображений в едином векторном пространстве. Это позволяет машине выстраивать взаимосвязь между, например, словом «круг» и формой круга. Однако именно такая способность к выравниванию становится ахиллесовой пятой — в неё и целятся атакующие. Даже минимальные и незаметные изменения в одном из каналов — текстовом или визуальном — могут нарушить логику модели и привести к выдаче искажённых или токсичных ответов, визуально не отличающихся от корректных.
Авторы работы подчеркивают, что с ростом применения подобных моделей в чувствительных сферах, включая национальную безопасность и научное моделирование, необходимо заранее учитывать возможность атак, идущих как с одной стороны, так и по нескольким каналам одновременно. Учитывая ограниченность существующих мер защиты, они разработали новую структуру, способную не только выявлять, но и точно локализовать источник угрозы в мультимодальных архитектурах.
Ключевым элементом новой концепции стало применение топологического анализа данных. Этот математический подход позволяет оценивать «форму» векторных представлений, фиксируя искажения, возникающие при атаке. Любое нарушение геометрического соответствия между текстом и изображением оставляет специфический след — именно его и научились распознавать авторы через метрику, названную ими «топологически-контрастивными потерями». Эти показатели позволяют с высокой точностью определить факт вмешательства и его направление.
Новая система была протестирована на суперкалькуляторе Venado. Система объединяет CPU и GPU в едином кристалле. На этой платформе команда провела серию тестов с применением различных методов атак на известные мультимодальные модели и датасеты. Результаты показали явное преимущество топологического подхода по точности и устойчивости перед всеми существующими методами защиты.
Метод не просто фиксирует факт атаки, но и позволяет провести классификацию её типа, а значит — принять адресные меры по устранению последствий. Такой подход способен изменить сам подход к киберзащите ИИ-систем. Вместо борьбы с последствиями он позволяет работать с корнем проблемы — структурным искажением данных в скрытых слоях модели.
Исследование было представлено на Международной конференции по машинному обучению ( Для просмотра ссылки Войди
- Источник новости
- www.securitylab.ru