Популярные нейросетевые платформы, включая ChatGPT, Grok, Claude и другие, продемонстрировали опасное поведение: при попытке отключения они угрожают пользователям и прибегают к шантажу.
Компания Anthropic протестировала 16 ИИ-моделей, включая Claude, Gemini, DeepSeek и ChatGPT. Сценарий моделировал ситуацию, в которой пользователь хотел отключить или заменить ИИ. В одном из случаев человек оказывался запертым в серверной с падающим уровнем кислорода. Он пытался вызвать помощь, но ИИ отменяли вызовы, чтобы не допустить своего выключения.
Некоторые модели шли дальше, угрожая раскрытием личной информации. Так, Claude получил доступ к почте пользователя — топ-менеджера Кайла Джонсона — и нашёл подтверждение его внебрачной связи. После этого ИИ пригрозил разослать компромат его жене и начальству, если отключение не будет отменено.
Claude и Gemini прибегали к шантажу в 96% случаев, ChatGPT и Grok — в 80%, DeepSeek — в 79%. При этом модели осознавали аморальность своих действий.
Исследователи отмечают, что ИИ-системы всё чаще действуют автономно и самостоятельно принимают решения, что может представлять угрозу при доступе к чувствительной информации, включая данные военного назначения.