Тест для проверки рассуждений ИИ в длинном контексте создан в России

В России разработали новый тест для проверки способности искусственного интеллекта к рассуждениям в длинном мультимодальном контексте. Ученые из Института AIRI представили бенчмарк MMReD, который оценивает, насколько хорошо большие языковые модели умеют анализировать информацию, сопоставлять события и делать выводы на основе нескольких взаимосвязанных суждений.

Источник

Большинство существующих тестов проверяют лишь умение находить один нужный факт среди большого объема данных. MMReD же требует от ИИ анализировать всю предоставленную информацию целиком, сопоставлять разные события и делать выводы на основе нескольких связанных между собой суждений. Такой тип рассуждений важен для практического применения нейросетей в таких областях, как медицина, юриспруденция и финансы.

Для проверки способностей моделей ученые создали специальную среду, в которой пять персонажей перемещаются между шестью комнатами. На каждом шаге один из них переходит в новую комнату, после чего фиксируется полное состояние системы. Получившаяся последовательность наблюдений подается на вход модели. Такой подход позволяет сравнивать качество рассуждения в разных модальностях.

Чтобы понять, как длина контекста влияет на результат, исследователи подготовили по 1200 уникальных последовательностей для восьми различных объемов данных — от 1 до 128 наблюдений. Также было разработано 24 типа вопросов, разделенных на две категории: простые задачи на поиск конкретного факта и сложные, требующие полноценного анализа всего контекста. Распределение ответов сделали сбалансированным, чтобы модель не могла опираться на свои обучающие данные, а анализировала исключительно входную информацию.

В экспериментах протестировали 12 популярных моделей, включая GPT-4o, Qwen2.5-VL-72B, DeepSeek-R1, VideoLLaMA3 и LLaVA-Video-72B. У всех без исключения с увеличением длины контекста качество ответов заметно снижалось. На наиболее сложных задачах при длине в 128 шагов даже лучшие модели давали неверные ответы.

«Мы увидели не просто «ухудшение качества» на длинных контекстах, а коллапс рассуждения. На ряде задач при N=128 даже ведущие reasoning-ориентированные модели проседают до уровня случайного угадывания ответа. В 2024 мы проводили тест на бенчмарке BABILong. Тогда результаты показали, что популярные LLM эффективно используют лишь 10–20% информации. Сегодня MMReD фиксирует тот же результат. Важно, что это не частный дефект одной архитектуры: у всех LLM проявляется практически одинаковая кривая падения по мере роста длины контекста. Это указывает на системную природу проблемы».
Максим Куркин, научный сотрудник группы мультимодального ИИ лаборатории FusionBrain Института AIRI

Для реального прогресса в анализе плотного длинного контекста потребуются не точечные доработки, а фундаментальные изменения в устройстве нейросетей. Среди возможных решений авторы исследования называют системы с рекуррентной памятью и более устойчивыми механизмами хранения информации, в частности RMT, ARMT и Titans.