Визуально-языковые модели для обучения роботов ориентации в пространстве и общению с людьми

Визуально-языковые модели (VLM) — это современные технологии, которые умеют работать с изображениями и текстами, чтобы предсказывать что-то или принимать решения. Их можно использовать, чтобы улучшить роботов, помогая им лучше понимать окружающую среду и взаимодействовать с людьми. Исследователи из Итальянского технологического института и Абердинского университета создали новую структуру и набор данных, которые помогут обучать роботов лучше ориентироваться в пространстве и общаться с людьми. Их работа опубликована на сайте arXiv. Это исследование стало возможным благодаря проекту FAIR и...