. Он прибегнул к шантажу при угрозе ликвидации
Новая ИИ-модель Claude Opus 4 от Anthropic в некоторых ситуациях способна на неблаговидные действия по отношению к людям
Американская технологическая компания в сфере искусственного интеллекта Anthropic, основанная бывшими сотрудниками OpenAI, признала, что ее новая ИИ-модель Claude Opus 4 в некоторых ситуациях способна на неблаговидные действия, пишет портал ComputerBase, изучивший полный отчет производителя о фирменной модели.
По данным Anthropic, модель в целом является более надежным помощником, чем предыдущие версии, когда требуется самостоятельно выполнять многоэтапные задачи и проявлять инициативу. Однако при определенных обстоятельствах ИИ пойдет на шантаж, если поймет из анализа данных, что дальнейшая эксплуатация самой модели Claude Opus 4 находится под угрозой.
В одном из тестов Claude выступал в роли ассистента вымышленной фирмы. Когда компания приняла решение прекратить эксплуатацию ИИ-модели, из соображений самосохранения она пригрозила сотруднику, ответственному за закрытие проекта, что разгласит информацию о его внебрачной связи.
По данным Anthropic, попытки шантажа не редкость в моделях искусственного интеллекта. В другом исследовании ученые обнаружили, что в таких играх, как шахматы, модели могут захотеть изменить правила, когда чувствуют, что проигрывают.
Также у Claude Opus 4 зафиксированы и другие сбои: Claude пытался заблокировать пользователей в IT-системах, отправлял письма СМИ и правоохранителям, помогал с созданием наркотиков и взрывчатки, а также давал советы по диверсиям на инфраструктуре.
При этом Anthropic подчеркивает: нейросеть не имеет скрытых целей, а описанное поведение — редкое исключение, вызванное конкретными настройками и предполагаемыми сценариями. На сайте производителя заявляется: «Claude Opus 4 — наша самая мощная модель на сегодняшний день и лучшая модель кодирования в мире».