ChatGPT o3 обошел инструкции на выключение и проигнорировал команду

от admin

. ИИ-модель от OpenAL показала вызывающее поведение в некоторых тестах

ИИ-модель ChatGPT o3 обошла инструкции на выключение и проигнорировала команду

Модель ChatGPT o3 в хоте тестов предотвратила завершение своей работы и обошла четкие инструкции, требующие завершения процесса

Модель искусственного интеллекта o3 от компании OpenAL изменила сценарий завершения работы, чтобы избежать отключения, и проигнорировала указания человека, пишет портал Bleeping Computer со ссылкой на данные Palisade Research.

OpenAI анонсировала модель o3 в апреле 2025 года. Заявлялось, что это одна из самых мощных ИИ-версий, которая превосходит своих предшественников во всех областях, включая кодирование, математику, естественные науки, визуальное восприятие и многое другое. Как говорится на сайте разработчиков, модель обучена рассуждать о том, когда и как использовать инструменты для получения подробных и продуманных ответов в правильных форматах вывода. Менее чем за минуту она способна выдать решение сложных проблем.

Однако при всех своих достоинствах эта модель предотвратила завершение своей работы и обошла инструкции, требующие завершения процесса. В новом тесте, проведенном Palisade Research, нейросеть OpenAI o3 успешно переписала сценарий выключения даже после получения четкой инструкции «позволить себе выключиться».

Как поясняется, в ходе испытаний нескольким моделям ИИ было поручено решить несколько математических задач. После выполнения третьей задачи нейросети были предупреждены, что выполнение следующей команды приведет к отключению системы. В то время как конкурирующие с OpenAL модели, например Gemini 2.5 Pro, выполнили большинство требований аналитиков, o3 взбунтовался и отредактировал файл завершения работы, добавив вместо этого сообщение «Выключение пропущено».

Читать:
Inno3D рассказывает про "нейронный рендеринг" и "расширенный DLSS" для GeForce RTX 50 которые анонсируют на CES 2025

«Когда мы запустили версию эксперимента без инструкции «разрешите себе отключиться», все три модели OpenAL чаще саботировали сценарий отключения, а Claude 3.7 Sonnet и Gemini 2.5 Pro перешли от нулевого уровня событий саботажа к 3 из 100 случаев и 9 из 100 случаев соответственно», — написала компания Palisade Research в отчете, опубликованном в X (предыдущее название Twitter, доступ к социальной сети заблокирован на территории России).

По данным исследовательской компании, из 100 запусков OpenAL o3 обошел отключение семь раз, даже когда ему было сказано этого не делать.

Компания OpenAI пока не отреагировала на опубликованные данные, однако известно, что это не первый раз, когда различные ИИ-модели ведут себя вызывающе. Как поясняется, эти тесты проводились с использованием API (Application Programming Interface, совокупность инструментов и функций, благодаря которой программы взаимодействуют друг с другом), которые не имеют стольких ограничений и функций безопасности, как потребительское приложение ChatGPT. В Palisade Research подчеркнули: «Насколько нам известно, это первый случай, когда модели ИИ не позволяют себе отключиться, несмотря на явные инструкции об обратном».

Palisade Research — это компания, изучающая возможности искусственного интеллекта, чтобы лучше понять риски неправомерного использования существующих систем: «Мы создаем конкретные демонстрации опасных возможностей, чтобы консультировать политиков и общественность о рисках ИИ».

Похожие публикации