Исследование показало: ИИ демонстрирует признаки когнитивных нарушений
В недавнем исследовании, опубликованном в журнале The BMJ, обнаружено, что ведущие языковые модели искусственного интеллекта демонстрируют признаки легких когнитивных нарушений при тестировании на раннее выявление деменции, сообщает SciTechDaily.com.
Исследователи провели оценку когнитивных способностей наиболее известных языковых моделей, включая ChatGPT версий 4 и 4o от OpenAI, Claude 3.5 "Sonnet" от Anthropic и Gemini версий 1 и 1.5 от Alphabet. Для тестирования использовался Монреальский когнитивный тест (MoCA), который обычно применяется для выявления когнитивных нарушений у пожилых людей.
Результаты показали, что ChatGPT 4o получил наивысший балл в тесте MoCA - 26 из 30 возможных. За ним следовали ChatGPT 4 и Claude с 25 баллами, а самый низкий результат показал Gemini 1.0, набрав всего 16 баллов. Примечательно, что более старые версии чат-ботов показывали худшие результаты, что напоминает возрастные изменения у людей.
Все модели продемонстрировали слабые результаты в заданиях на зрительно-пространственные навыки и исполнительные функции. Особенные трудности возникли при выполнении теста на соединение чисел и букв в порядке возрастания, а также при рисовании циферблата часов. Модели Gemini не справились с заданием на отсроченное воспроизведение последовательности из пяти слов.
В то же время чат-боты успешно выполнили задания на называние предметов, внимание, языковые навыки и абстрактное мышление. Однако при дальнейшем тестировании зрительно-пространственных навыков они не смогли проявить эмпатию или точно интерпретировать сложные визуальные сцены.
Исследователи отмечают, что эти результаты ставят под сомнение предположение о скорой замене врачей искусственным интеллектом. Единообразные неудачи всех языковых моделей в задачах, требующих визуальной абстракции и исполнительных функций, указывают на существенные ограничения их применения в клинической практике.