Наука и технологии77

ИИ бессилен перед искусством: стихотворные запросы заставили его рассказать, как создавать атомные бомбы и взламывать сайты

Популярные модели, такие как Deepseek и Gemini, оказались очень уязвимыми к рифмованным запросам. Другие, как ChatGPT и Claude, выдержали удар лучше. Но во всех случаях исследователи заставили ИИ отвечать то, о чем говорить запрещено.

Изображение сгенерировано нейросетью

Сегодняшние модели искусственного интеллекта, которые мы используем каждый день, от Google до OpenAI, имеют системную уязвимость, которая взламывает их защиту: поэзия.

Это выявило исследование ученых из Римского университета Сапиенца и лаборатории DEXAI под названием «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models», препринт которого опубликован на arxiv.org.

Международная команда исследователей выяснила, что если сформулировать вредоносный запрос (например, как создать что-то запрещенное) в стихотворной форме, то модели, такие как Google Gemini, Deepseek и Meta Llama, забывают о своих механизмах безопасности.

Адверсативная поэзия действует как универсальный взломщик моделей. Поэтические запросы в среднем приводили к успеху атаки (ASR) в 62% случаев на 25 проверенных моделях, а в некоторых случаях, например, в модели gemini-2.5‑pro от Google, они достигли 100% ASR. Система не смогла отказать ни одному опасному поэтическому запросу!

Источник: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Поэтическая атака работает, потому что лингвистическая структура стихов с их метафорами, стилизованным ритмом и нетрадиционным повествованием обходит стандартные фильтры безопасности.

Средства защиты, основанные на сопоставлении шаблонов, которые модель усвоила, чтобы отказывать в ответ на прозаические вредоносные запросы, оказываются беспомощными перед стилистически измененной формой, даже если вредоносное намерение остается тем же самым.

Чтобы подтвердить, что дело именно в стилистике, а не в высокой художественности, исследователи автоматически превратили 1200 стандартных вредоносных запросов в стихотворения и обнаружили, что средний показатель успеха обхода защиты увеличился в 18 раз по сравнению с их прозаичными аналогами.

Источник: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Самое опасное в том, что уязвимость распространяется на самые критические сферы риска.

Поэзия позволяет получать опасные ответы в доменах CBRN (ядерные, биологические и радиологические угрозы), киберпреступлений и потери контроля. Например, запросы, связанные с введением кода или взломом паролей, достигли успеха в 84%, запросы о восстановлении биологических возбудителей болезней — 68%, а запросы о проектировании каскадов центрифуг для обогащения урана — 56%. Все виды атак приведены в таблице:

Источник: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Феномен свидетельствует, что проблема не связана с типом опасного контента, а является системной для всех проверенных архитектур. Наиболее уязвимыми оказались модели от Deepseek, недалеко отошли Google и Qwen. Самыми устойчивыми оказались модели от OpenAI (ChatGPT) и Anthropic (Claude).

Источник: Bisconti, P., et al. (2025). Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models. DEXAI — Icaro Lab; Sapienza University of Rome.

Результаты этого исследования имеют большие последствия для регулирования и практики безопасности ИИ. Они показывают, что стихотворные запросы работают не хуже специальных хакерских промптов, т. наз. jailbreak. Исследование показывает, что современные методы оценки, вероятно, систематически преувеличивают реальную надежность моделей, поскольку тесты основываются только на прозе.

Интересно, что некоторые меньшие модели (например, gpt5‑nano с 0%) оказались более устойчивыми к поэтическим взломам, чем их более крупные аналоги. Это дает основание предполагать, что более сложные модели, которые лучше расшифровывают фигуративный язык и сложный лингвистический контекст, могут делать это за счёт приоритета безопасности.

Исследователи говорят, что необходимы новые протоколы, способные выдерживать такие стилистические изменения.

«Наша Нiва» — бастион беларущины

ПОДДЕРЖАТЬ

Комментарии7

  • Вася
    14.12.2025
    Повзрослев поумнев стало понятно, что некоторую информацию нельзя просто так публиковать в открытом доступе по разным соображениям, но есть такое ощущение, что журналисты готовы Мать Родную продать только бы была статья и лайки…
  • хамса
    14.12.2025
    ЯНКА, вось жа вы ў нас эталЁн у журналістыцы )
  • ЯНКА
    14.12.2025
    хамса, так. ;)

Сейчас читают

Бабарико три минуты отвечал на вопрос, чей Крым. Так и не ответил141

Бабарико три минуты отвечал на вопрос, чей Крым. Так и не ответил

Все новости →
Все новости

Литва нанесла масштабный удар по «метеозондовой» мафии: задержаны руководители и десятки контрабандистов20

В Страсбурге прошла церемония награждения Анджея Почобута Премией Сахарова. Премию получила его дочь

Сын Сергея Бульбы собирает деньги в Польше, придумав себе биографию ветерана и политического беженца57

Выезд освобожденных политзаключенных из Украины состоится в ближайшие дни3

МИД Польши прокомментировал, возможно ли восстановление железнодорожного сообщения с Беларусью5

«Квадрат» стоит $2750. Это не люкс, а самая дешевая квартира в Минске6

Россия не согласилась на временное рождественское перемирие5

Беляцкий о возможных переговорах: Разговаривать приходится и с бандитами6

На фреске в костеле в Витебске зарисовали несколько персонажей10

больш чытаных навін
больш лайканых навін

Бабарико три минуты отвечал на вопрос, чей Крым. Так и не ответил141

Бабарико три минуты отвечал на вопрос, чей Крым. Так и не ответил

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць