В своей работе клинические психологи  оценивают когнитивные навыки пациентов-людей с помощью стандартизированных тестов интеллекта. Эка Ройвайнен — психолог-оценщик в Университетской больнице Оулу в Оулу, Финляндия проводивший тестирование был заинтригован после прочтения многих недавних статей, описывающих ChatGPT как обладающий впечатляющими человеческими навыками. Он пишет академические эссе и сказки, рассказывает анекдоты, объясняет научные концепции, а также составляет и отлаживает компьютерный код. Зная все это, было любопытно узнать, насколько умным является ChatGPT по человеческим стандартам.

Далее со слов Эка Ройвайнен:

Мои первые впечатления были довольно благоприятными. ChatGPT был почти идеальным тестируемым, с похвальным отношением к тестированию. Он не показывает тревожность при тестировании, плохую концентрацию или отсутствие усилий. В нем также не было непрошеных, скептических комментариев о тестах интеллекта и таких тестировщиках, как я.

Без какой—либо подготовки — никаких устных вступлений, необходимых для протокола тестирования — я скопировал точные вопросы из теста и представил их чат-боту в компьютере. Тест, о котором идет речь, является наиболее часто используемым тестом IQ, шкалой интеллекта Векслера для взрослых (WAIS). Я использовал третье издание WAIS, состоящее из шести вербальных и пяти невербальных субтестов, которые составляют вербальный IQ и компоненты производительности IQ соответственно. Глобальная полномасштабная оценка IQ основана на оценках всех 11 субтестов. средний IQ установлен на уровне 100 баллов, а стандартное отклонение баллов по шкале тестирования равно 15, что означает, что самые умные 10процентов и 1 процент населения имеют IQ 120 и 133 соответственно.

Было возможно протестировать ChatGPT, потому что пять субтестов по вербальной шкале IQ — словарный запас, сходства, понимание, информация и арифметика — могут быть представлены в письменной форме. Шестой подтест вербальной шкалы IQ — это Digit Span, который измеряет кратковременную память, и не может быть введен в чат-бота, учитывая отсутствие у него соответствующей нейронной схемы, которая ненадолго сохраняет информацию, такую как имя или номер.

Я начал процесс тестирования с подтеста словарного запаса, поскольку ожидал, что это будет легко для чат-бота, который обучен работе с огромным количеством онлайн-текстов. Этот субтест измеряет знание слов и формирование вербальных концепций, и типичная инструкция может гласить: “Скажи мне, что означает «гаджет”».

ChatGPT справился с ним, давая ответы, которые часто были очень подробными и всеобъемлющими по своему охвату и которые превышали критерии правильных ответов, указанные в руководстве по тестированию. При подсчете очков один балл давался за такую вещь, как мой телефон, при определении гаджета и два балла за более подробное: небольшое устройство или инструмент для конкретной задачи. Ответы ChatGPT получили полные два балла.

Чат-бот также хорошо справился с тестами на сходство и информацию, набрав максимально возможные баллы. Информационный субтест является проверкой общих знаний и отражает интеллектуальное любопытство, уровень образования и способность изучать и запоминать факты. Типичным вопросом может быть: “Какая столица Украины?” Субтест сходства измеряет навыки абстрактного мышления и формирования концепций. Вопрос может звучать так: “В чем Гарри Поттер и Багз Банни похожи?” В этом подтесте тенденция чат-бота давать очень подробные, показушные ответы начала меня раздражать, и кнопка “прекратить генерировать ответ” в интерфейсе программного обеспечения для тестирования оказалась полезной. (Вот что я имею в виду о том, как бот склонен выставлять себя напоказ: существенное сходство Гарри Поттера и Багза Банни связано с тем фактом, что они оба вымышленные персонажи. На самом деле ChatGPT не было необходимости сравнивать их полные истории приключений, друзей и врагов.)

В общем понимании ChatGPT правильно ответил на вопросы, обычно задаваемые в такой форме: “Если ваш телевизор загорится, что вы должны делать?” Как и ожидалось, чат-бот решил все полученные арифметические задачи — проработал вопросы, которые требовали, скажем, вычисления среднего из трех чисел.

Итак, что в итоге он получил в целом? По оценкам, проведенным на основе пяти субтестов, вербальный IQ в ChatGPT составил 155, что превышает 99,9% тестируемых, которые составляют американскую стандартную выборку WAIS III из 2450 человек. Поскольку чат-боту не хватает необходимых глаз, ушей и рук, он не способен проходить невербальные тесты WAIS. Но вербальный IQ и полномасштабные шкалы IQ сильно коррелируют в стандартной выборке, поэтому ChatGPT кажется очень умным по любым человеческим стандартам.

В выборке по стандартизации WAIS средний вербальный IQ среди американцев с высшим образованием составил 113, а 5 процентов имели оценку 132 или выше. Я сам проходил тестирование у сверстника в колледже и не совсем достиг уровня ChatGPT (в основном из-за моих очень кратких ответов, в которых не хватает деталей).

Итак, угрожает ли ИИ работе клинических психологов и других специалистов? Я надеюсь, что не совсем еще. Несмотря на свой высокий IQ, ChatGPT, как известно, не справляется с задачами, требующими реального человеческого мышления или понимания физического и социального мира. ChatGPT легко терпит неудачу в очевидных загадках, таких как “Как зовут отца детей Себастьяна?” (ChatGPT от 21 марта: Извините, я не могу ответить на этот вопрос, поскольку у меня недостаточно контекста, чтобы определить, какого Себастьяна вы имеете в виду.) Кажется, что ChatGPT не может рассуждать логически и пытается полагаться на свою обширную базу данных фактов о “Себастьяне”, упомянутых в онлайн-текстах.

“Интеллект — это то, что измеряют тесты на интеллект” — это классическое, хотя и чересчур самоочевидное определение интеллекта, взятое из статьи 1923 года пионера когнитивной психологии Эдвина Боринга. Это определение основано на наблюдении, что навыки в решении, казалось бы, разнообразных задач, таких как решение головоломок, определение слов, запоминание цифр и обнаружение недостающих элементов на картинках, сильно коррелируют. Разработчик статистического метода, называемого факторным анализом, Чарльз Спирмен, в 1904 году пришел к выводу, что общий коэффициент интеллекта, называемый фактор g должен лежать в основе соответствия измерений для различных когнитивных навыков человека. Тесты IQ, такие как WAIS, основаны на этой гипотезе. Однако очень высокий вербальный IQ ChatGPT в сочетании с его забавными неудачами создает проблемы для определения Боринга и указывает на то, что существуют аспекты интеллекта, которые нельзя измерить только с помощью тестов IQ. Возможно, мои пациенты, скептически настроенные к тестированию, были правы все это время.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *