Для этого сравнили реальные телефонные разговоры живых людей со сгенерированными ИИ.
Искусственный интеллект добился немалого прогресса. Многие используют большие языковые модели, такие как ChatGPT, Copilot и Perplexity, для решения самых разных задач или просто ради развлечения.
А насколько хорошо эти модели умеют притворяться людьми? Не слишком, как выяснило недавнее исследование, результаты которого вышли в Cognitive Science.
«Большие языковые модели говорят иначе, чем люди», — объясняет психолог Лукас Бьетти из Норвежского университета естественных и технических наук.
Протестировали несколько моделей
Исследователи протестировали большие языковые модели ChatGPT-4, Claude Sonnet 3.5, Vicuna и Wayfarer.
Сначала они сравнили расшифровки телефонных разговоров между людьми с диалогами, сгенерированными LLM. Затем проверили, смогут ли другие люди отличить человеческие беседы от созданных моделями.
В большинстве случаев люди не поддаются обману, особенно на больших объемах текста. По крайней мере, пока не поддались. Так в чем же ошибаются языковые модели?
Слишком много подражания
В человеческом общении всегда присутствует элемент подражания. Мы невольно подстраиваем под собеседника свои слова и ход беседы, однако это подражание, как правило, довольно тонкое.
«Большие языковые модели чересчур рьяно подражают, и это преувеличенное уподобление человеческое ухо способно уловить», — говорит Бьетти.
Это явление называется «преувеличенной адаптацией». Но и это еще не все.
Неправильное использование слов-паразитов
В фильмах с плохими сценариями диалоги часто звучат искусственно. Обычно сценаристы забывают, что разговор состоит не только из слов, несущих основной смысл. В реальной, повседневной беседе большинство из нас использует так называемые дискурсивные маркеры — такие слова, как «ну», «значит», «типа» и «короче».
У этих слов есть социальная функция: они могут сигнализировать собеседнику о заинтересованности, принадлежности к группе, отношении или намерении. Кроме того, с их помощью можно структурировать разговор.
LLM пока что отчаянно неумелы в применении этих слов.
«Большие языковые модели используют эти короткие слова иначе и зачастую неправильно», — уточняет исследователь.
Это и выдает в них нечеловека. Но есть и другие признаки.
Особенности начала и завершения беседы
Начиная разговор с кем-то, вы вряд ли сразу перейдете к сути. Скорее всего, вы скажете «привет», или «как дела?», или «ба, кого я вижу!». Люди склонны слегка поболтать, прежде чем перейти к тому, ради чего, собственно, и затевался разговор. И переход от вступления к содержательной части происходит более или менее автоматически, без явных указаний.
«Это вступление и переход к новой фазе разговора также сложно даются большим языковым моделям», — отмечает Бьетти.
То же касается и завершения беседы. Мы редко обрываем разговор сразу после того, как донесли до собеседника информацию. Обычно мы заканчиваем его фразами вроде «ладно», «окей», «спишемся» или «увидимся». И с этим у LLM тоже не все гладко.
Станут ли лучше в будущем? Наверное
В совокупности все эти особенности создают для больших языковых моделей столько трудностей, что вывод напрашивается однозначный.
«Современные большие языковые модели пока не способны подражать людям настолько хорошо, чтобы постоянно нас обманывать», — заявляет Бьетти.
Развитие в этой области идет столь стремительно, что весьма вероятно, что вскоре LLM эти навыки обретут в полной мере — по крайней мере, если мы того захотим.
«Усовершенствования больших языковых моделей, скорее всего, позволят сгладить разницу между человеческими и искусственными беседами, но ключевые различия, вероятно, останутся», — заключает Бьетти.
Что ж, пока что большие языковые модели все еще недостаточно похожи на людей, чтобы обманывать нас. По крайней мере, не каждый раз.