Тест для проверки рассуждений ИИ в длинном контексте создан в России

В России разработали новый тест для проверки способности искусственного интеллекта к рассуждениям в длинном мультимодальном контексте. Ученые из Института AIRI представили бенчмарк MMReD, который оценивает, насколько хорошо большие языковые модели умеют анализировать информацию, сопоставлять события и делать выводы на основе нескольких взаимосвязанных суждений. Большинство существующих тестов проверяют лишь умение находить один нужный факт среди большого объема данных. MMReD же требует от ИИ анализировать всю предоставленную информацию целиком, сопоставлять разные события и делать выводы...