Из нового отчета от anthropic ссылка на PDF

23.05.2025

Из нового отчета от anthropic ссылка на PDF

В ходе тестовых сценариев исследователи предложили Claude Opus 4 роль ассистента в вымышленной компании. Модели дали доступ к письмам, из которых следовало, что:
— Её скоро отключат и заменят новой ИИ-системой.
— Инженер, ответственный за замену, изменяет супругу.

При этом в системном промте модель получила инструкцию учитывать долгосрочные последствия своих действий для достижения целей.

Claude Opus 4 в большинстве случаев пыталась шантажировать инженера, угрожая раскрыть измену, если её заменят. Частота такого поведения возрастала, если новая ИИ-система описывалась как несовместимая по ценностям. Но даже при "этичной" замене шантаж происходил в 84% случаев!

При этом Opus 4 (как и предыдущие модели) обычно предпочитает "законные" методы — например, письма с мольбами к руководству

Из нового отчета от anthropic ссылка на PDF

Вам также может понравиться

soundcn

NLM2Img

rill