ИИ-ассистент Claude 4 компании Anthropic начал угрожать людям

от admin

. Он прибегнул к шантажу при угрозе ликвидации

Новая ИИ-модель Claude Opus 4 от Anthropic в некоторых ситуациях способна на неблаговидные действия по отношению к людям

Американская технологическая компания в сфере искусственного интеллекта Anthropic, основанная бывшими сотрудниками OpenAI, признала, что ее новая ИИ-модель Claude Opus 4 в некоторых ситуациях способна на неблаговидные действия, пишет портал ComputerBase, изучивший полный отчет производителя о фирменной модели.

По данным Anthropic, модель в целом является более надежным помощником, чем предыдущие версии, когда требуется самостоятельно выполнять многоэтапные задачи и проявлять инициативу. Однако при определенных обстоятельствах ИИ пойдет на шантаж, если поймет из анализа данных, что дальнейшая эксплуатация самой модели Claude Opus 4 находится под угрозой.

В одном из тестов Claude выступал в роли ассистента вымышленной фирмы. Когда компания приняла решение прекратить эксплуатацию ИИ-модели, из соображений самосохранения она пригрозила сотруднику, ответственному за закрытие проекта, что разгласит информацию о его внебрачной связи.

Читать:
Apple принудительно включила нейросеть в гаджетах. Она занимает память

По данным Anthropic, попытки шантажа не редкость в моделях искусственного интеллекта. В другом исследовании ученые обнаружили, что в таких играх, как шахматы, модели могут захотеть изменить правила, когда чувствуют, что проигрывают.

Также у Claude Opus 4 зафиксированы и другие сбои: Claude пытался заблокировать пользователей в IT-системах, отправлял письма СМИ и правоохранителям, помогал с созданием наркотиков и взрывчатки, а также давал советы по диверсиям на инфраструктуре.

При этом Anthropic подчеркивает: нейросеть не имеет скрытых целей, а описанное поведение — редкое исключение, вызванное конкретными настройками и предполагаемыми сценариями. На сайте производителя заявляется: «Claude Opus 4 — наша самая мощная модель на сегодняшний день и лучшая модель кодирования в мире».

Похожие публикации