ИИ-ассистент Claude 4 компании Anthropic начал угрожать людям

от admin 28.05.2025

28.05.2025

. Он прибегнул к шантажу при угрозе ликвидации

Новая ИИ-модель Claude Opus 4 от Anthropic в некоторых ситуациях способна на неблаговидные действия по отношению к людям

Американская технологическая компания в сфере искусственного интеллекта Anthropic, основанная бывшими сотрудниками OpenAI, признала, что ее новая ИИ-модель Claude Opus 4 в некоторых ситуациях способна на неблаговидные действия, пишет портал ComputerBase, изучивший полный отчет производителя о фирменной модели.

По данным Anthropic, модель в целом является более надежным помощником, чем предыдущие версии, когда требуется самостоятельно выполнять многоэтапные задачи и проявлять инициативу. Однако при определенных обстоятельствах ИИ пойдет на шантаж, если поймет из анализа данных, что дальнейшая эксплуатация самой модели Claude Opus 4 находится под угрозой.

В одном из тестов Claude выступал в роли ассистента вымышленной фирмы. Когда компания приняла решение прекратить эксплуатацию ИИ-модели, из соображений самосохранения она пригрозила сотруднику, ответственному за закрытие проекта, что разгласит информацию о его внебрачной связи.

Читать:

Пользователи по всему миру сообщают о сбоях в работе ChatGPT

По данным Anthropic, попытки шантажа не редкость в моделях искусственного интеллекта. В другом исследовании ученые обнаружили, что в таких играх, как шахматы, модели могут захотеть изменить правила, когда чувствуют, что проигрывают.

Также у Claude Opus 4 зафиксированы и другие сбои: Claude пытался заблокировать пользователей в IT-системах, отправлял письма СМИ и правоохранителям, помогал с созданием наркотиков и взрывчатки, а также давал советы по диверсиям на инфраструктуре.

При этом Anthropic подчеркивает: нейросеть не имеет скрытых целей, а описанное поведение — редкое исключение, вызванное конкретными настройками и предполагаемыми сценариями. На сайте производителя заявляется: «Claude Opus 4 — наша самая мощная модель на сегодняшний день и лучшая модель кодирования в мире».

нейросеть Технологии

Предыдущая запись

Террористы-неудачники и ярость Берии: как Троцкий пережил покушение «Коня»

Следующая запись

ИИ-ассистент Claude 4 компании Anthropic начал угрожать людям

Террористы-неудачники и ярость Берии: как Троцкий пережил покушение «Коня»

Маск назвал главной целью SpaceX полёт на Марс и высадку на Луну по пути

Похожие публикации