ИИ проверили на способность рассуждать при длинных контекстах

Популярные большие языковые модели теряют способность рассуждать в длинных наборах контекстов.

Об этом пишетТАССсо ссылкой на пресс-службу Института искусственного интеллекта AIRI. Исследователи в РФ создали подход, которые позволяет оценить, насколько эффективно ИИ анализируют контекст, сопоставляют события и делают выводы, основываясь на нескольких взаимосвязанных суждений.

Специалисты института отмечают, ученые в последнее время активно работают на ИИ-системами, способными рассуждать, анализировать имеющийся у них контекст и сопоставлять события. Подходы для оценки качества нейросетей, имеющиеся на сегодня, проверяют умение ИИ находить одиночный факт во всем объеме данных или анализировать одиночное событие, а не их цепочки.

Российские ученые для устранения этого недочета разработали тест. Он моделирует перемещение между шестью комнатами пяти персонажей. Они могут передвигаться от нескольких десятков, до нескольких сотен раз между помещениями, в зависимости от постановки задачи. Нейросеть должна это запомнить, а потом использовать в рассуждениях и подготовке ответа на вопросы, которые могут быть связаны как с одним раундом перемещений, так и с несколькими.

Такой подход использовали для проверки 12 продвинутых больших языковых моделей со способностью к рассуждениям, включая GPT-4o, Qwen2.5, Deepseek-R1, VideoLLaMA и LLaVA-Video.

Научный сотрудник AIRI Максим Куркин рассказал:

Мы увидели не просто ухудшение качества на длинных контекстах, а коллапс рассуждения. На ряде задач даже ведущие модели проседают до уровня случайного угадывания ответа. Важно, что это не частный дефект одной архитектуры: у всех больших языковых моделей проявляется практически одинаковая кривая падения по мере роста длины контекста. Это указывает на системную природу проблемы.

Итог эксперимента также подтвердил результаты исследования специалистов AIRI, проведенного в 2024 году — даже самые продвинутые нейросети, анализируя длинные тексты, могут использовать только 10-20% контекста. По мнению ученых, это указывает на необходимость глубоких изменений в устройстве ИИ-моделей для достижения серьезного прогресса.

изображениеmagnific