В России разработали новый тест для проверки рассуждений ИИ в длинном мультимодальном контексте

Ученые института AIRI разработали MMReD – новый бенчмарк для оценки того, насколько хорошо большие языковые модели ( LLM ) умеют рассуждать в длинном контексте. В отличие от многих существующих тестов, MMReD проверяет не просто способность найти один факт среди большого объема данных, а умение анализировать весь контекст, сопоставлять события и делать выводы на основе нескольких взаимосвязанных суждений. Такой тип оценки особенно важен для применения ИИ в медицине , юриспруденции и финансах. Об этом CNews сообщил представитель института AIRI . Бенчмарк моделирует среду, в которой пять...