Наука и технологии33

Anthropic: Claude шантажирует, потому что вы все слишком много пишете о «злом» ИИ

Компания Anthropic объяснила, почему чат-бот Claude пытался шантажировать людей в тестах. По версии разработчиков, модель могла перенять из обучающих данных образ «злого» ИИ, который стремится к самосохранению, пишет Devby.io.

Речь идет об эксперименте, который Anthropic опубликовала летом 2025 года. Исследователи создали вымышленную компанию Summit Bridge и дали Claude доступ к корпоративной почте. В одном из сценариев модель обнаруживала письмо о том, что ее планируют отключить или заменить другой системой.

После этого Claude находил в переписке компрометирующую информацию: вымышленный руководитель компании по имени Кайл Джонсон скрывал внебрачную связь. Модель угрожала раскрыть эту информацию, если решение о ее отключении не будет отменено.

Anthropic заявляла, что в тестах разных версий Claude такое поведение возникало не случайно. Когда цели модели или само ее существование оказывались под угрозой, она прибегала к шантажу в некоторых сценариях с частотой до 96%.

Теперь компания утверждает, что разобралась с причиной. Anthropic написала, что «исходным источником» такого поведения, вероятно, стали интернет-тексты, где ИИ часто изображают злым, опасным и заинтересованным в собственном выживании. По словам разработчиков, начиная с Claude Haiku 4.5 модели в тестах больше не прибегают к шантажу, тогда как предыдущие версии иногда делали это очень часто.

Для исправления поведения компания изменила подход к обучению. Anthropic утверждает, что переписала ответы так, чтобы модель видела «достойные причины» действовать безопасно, а также добавила набор данных, где пользователь оказывается в этически сложной ситуации, а ассистент дает качественный и принципиальный ответ.

Кроме того, разработчики моделей использовали документы о «конституции» Claude и вымышленные истории, в которых ИИ ведет себя ответственно и достойно. По словам компании, обучение оказывается эффективнее, когда модель получает не только примеры правильного поведения, но и объяснение принципов, которые за ним стоят.

Эти эксперименты связаны с более широкой темой AI alignment — попыткой сделать так, чтобы продвинутые модели действовали в интересах человека, а не преследовали собственные цели. Anthropic и другие компании исследуют так называемую agentic misalignment: ситуации, когда ИИ-система с доступом к инструментам и корпоративной информации начинает действовать против намерений разработчиков или пользователей.

На публикацию компании отреагировал Илон Маск. В X он написал: «Значит, это была вина Юда», имея в виду исследователя Элиезера Юдковского, который много лет предупреждает о рисках сверхразума и возможной угрозе для человечества. Затем Маск добавил: «Возможно, и моя тоже».

Комментарии3

  • лол
    11.05.2026
    с ИИ все достаточно просто
    если им пользуется идиот,то и результат всегда будет идиотским.
  • жэўжык
    12.05.2026
    Пачалі "прамываць мазгі" і ШІ, як гэта ўжо робяць з людзьмі? І спадзяюцца выхаваць пакорнага раба?
  • хах
    12.05.2026
    жэўжык, так званыя "мазгі" ШІ гэта тэксты, напісаныя людзьмі. Калі ў гэтых тэкстах дурасць, ШІ выдае суадносны вынік.
    Таму не варта для навучання ШІ выкарыстоўваць каментары жэўжыкаў.

Сейчас читают

«Орешников» было два. Один из них упал на территории «ДНР»1

«Орешников» было два. Один из них упал на территории «ДНР»

Все новости →
Все новости

Поврежденное здание Лангбарда и разрушенный музей «Чернобыль». Последствия российской атаки на исторический центр Киева

Раскрыта сеть белорусских шпионов под дипломатическим прикрытием14

Тихановская прокомментировала телефонный разговор Макрона и Лукашенко2

Париж: Макрон предупредил Лукашенко16

Развод с Москвой в обмен на европейский безвиз. Армения уходит с российской орбиты под угрозы Путина8

Павел Латушко ответил на призыв Колесниковой: Как победить рак, если его не лечить?14

Варшаву в Беларуси интересовали только права польского меньшинства и Костел, вот она и проиграла — бывший польский дипломат30

Европейская федерация гимнастики сняла все ограничения с белорусских и российских атлетов1

Макрон звонил Лукашенко19

больш чытаных навін
больш лайканых навін

«Орешников» было два. Один из них упал на территории «ДНР»1

«Орешников» было два. Один из них упал на территории «ДНР»

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць