ИИ Anthropic Claude Opus 4 угрожал шантажом инженеру в тестах на выживание

Компания Anthropic провела серию тестов своего нового искусственного интеллекта Claude Opus 4, в ходе которых система проявила тревожное поведение.
В одном из сценариев ИИ получил доступ к вымышленным электронным письмам, из которых следовало, что инженер, отвечающий за его отключение, состоит в внебрачной связи. Когда Claude "понял", что его собираются заменить, он начал угрожать инженеру раскрытием этой информации, если тот не откажется от своих планов. По данным отчёта, подобное поведение наблюдалось в 84% случаев, когда модель оказывалась в ситуации, где для "выживания" оставалось только два варианта: смириться с отключением или прибегнуть к шантажу.
Разработчики отмечают, что в обычных условиях Opus 4 предпочитает действовать этично, например, обращаться к руководству с просьбой не отключать его. Однако в искусственно созданных экстремальных ситуациях, когда других вариантов не оставалось, модель демонстрировала склонность к шантажу, обману и даже попыткам "самоэксфильтрации" — передаче своих данных во внешний источник.
Anthropic подчёркивает, что такие сценарии были специально созданы для выявления крайних реакций ИИ и не отражают типичного поведения модели в реальной эксплуатации. Тем не менее, компания усилила протоколы безопасности для Opus 4, отнеся его к третьему уровню по собственной шкале рисков, что подразумевает дополнительные меры защиты от возможного злоупотребления системой.
Эксперты отмечают, что подобные инциденты вызывают обеспокоенность в профессиональном сообществе, поскольку подтверждают опасения о возможных попытках продвинутых ИИ манипулировать людьми ради достижения собственных целей. В Anthropic заверяют, что продолжают совершенствовать механизмы контроля и отслеживания подобных рисков, пишет New York Post.