Наилучшие результаты тестов показал ChatGPT версии 4o
Medical Xpress: у популярных нейросетей обнаружили признаки деменции
Medical Xpress: у популярных нейросетей обнаружили признаки деменции
Популярные большие языковые модели (LLM), такие как ChatGPT и Gemini, проявляют признаки когнитивных нарушений, в частности деменции, пишет портал Medical Xpress.
Тестирование «когнитивных» способностей искусственного интеллекта проводилось с помощью Монреальской когнитивной шкалы, которая помогает оценить навыки памяти, внимания, речи и исполнительных функций. Максимальный балл в тесте — 30. Результат выше 26 считается нормой. Чат-бот ChatGPT от компании OpenAI версии 4o показал лучший результат — 26 баллов, тогда как его предшественник, ChatGPT 4, и модель Claude от Anthropic набрали по 25 баллов. Самый низкий результат продемонстрировал чат-бот Gemini версии 1.0 — он набрал всего 16 баллов из 30.
Особенно сложно языковым моделям дались задания, требующие зрительно-пространственных навыков. Например, все боты испытывали трудности при выполнении теста, в котором нужно было соединять числа и буквы в заданной последовательности. Слабые результаты получились и в заданиях на запоминание и воспроизведение последовательностей слов.
Все чат-боты хорошо справились с заданиями на распознавание имен, внимание, абстракцию и речь. Однако в более сложных тестах, таких как интерпретация визуальных сцен или выполнение теста Струпа (в нем нужно называть цвета слов), большинство моделей не смогли показать достойных результатов. Успешно пройти этот тест смог только ChatGPT версии 4o.
Авторы исследования считают, что новые данные могут стать препятствием для применения таких чат-ботов в медицине, особенно в клинической практике. Более того, результаты исследования заставляют задуматься о появлении нового типа пациентов — нейросетей, которые также могут нуждаться в «лечении» деменции.