Деловой, научно-технический журнал

GPT-4 не проходит тест Тьюринга, но очень близок к этому

Соответствует ли ChatGPT тесту Тьюринга по генерации результатов, неотличимых от человеческой реакции? Два исследователя из Калифорнийского университета в Сан-Диего говорят, что это событие близко.

Кэмерон Джонс, специализирующийся на языке, семантике и машинном обучении, и Бенджамин Берген, профессор когнитивных наук, опирались на работу британского учёного Алана Тьюринга, который 70 лет назад разработал тест, позволяющий определить, способна ли машина достичь уровня человеческого интеллекта.

Их отчет под названием «Проходит ли GPT-4 тест Тьюринга?» доступен на сервере препринтов arXiv.

Они собрали 650 участников и создали 1400 диалогов, в которых между участниками проводились короткие беседы с другими людьми или моделью GPT. Участникам предлагалось определить, с кем они разговаривают.

Исследователи обнаружили, что модели GPT-4 обманули участников в 41% случаев, тогда как более ранним моделям GPT-3.5 удалось обмануть их только в 5–14% случаев. Интересно, что людям удалось убедить участников, что они не машины, только в процессе 63% испытаний.

Исследователи пришли к выводу: «Мы не находим доказательств того, что GPT-4 проходит тест Тьюринга». Однако они отметили, что тест Тьюринга по-прежнему сохраняет ценность как мера эффективности машинного диалога.

«Тест имеет постоянную актуальность как основа для измерения свободного социального взаимодействия и обмана, а также для понимания человеческих стратегий адаптации к этим устройствам», — отметили учёные.

Они предупредили, что чат-боты могут общаться достаточно убедительно, чтобы во многих случаях обманывать пользователей. «Уровень успеха в 41% предполагает, что обман с помощью моделей ИИ уже вполне вероятен, особенно в контекстах, где собеседники-люди менее внимательны к возможности того, что они разговаривают не с человеком», — говорится в отчёте. «Модели искусственного интеллекта, которые могут надежно выдавать себя за людей, могли бы иметь широкомасштабные социальные и экономические последствия».

Наши партнёры

 

 

 

 

User login