Российские разработчики создали фреймворк для дешевого и быстрого обучения ИИ

Российская команда разработчиков из R& D-центра «Т-Технологии», AIRI, ВШЭ, университета «Иннополис» и Центра практического ИИ «Сбера» представила инструмент, который может радикально изменить подход к обучению языковых моделей. Новый фреймворк ATGen позволяет в 2–4 раза сократить количество данных, которые нужно размечать вручную, сохранив качество конечного ИИ-продукта. Это значит, что обучением сможет заниматься гораздо больше команд, и стоить это будет в разы дешевле. Подробности — в распоряжении редакции «Инка».

Unsplash

Для обучения искусственного интеллекта нужны огромные объемы данных, которые должны быть не просто собраны, а тщательно размечены — особенно если речь идет, например, о медицинских текстах, юридических документах или научных статьях. На разметку обычно тратят месяцы и привлекают дорогих живых экспертов. ATGen помогает избежать лишних затрат — модель сама подсказывает, какие примеры ей важнее всего.

Фреймворк работает на принципе активного обучения, а человек вместо траты время на разметку обрабатывает только действительно полезные фрагменты. Это не только ускоряет процесс, но и снижает расходы в три раза — и без потери качества, утверждают разработчики. Результаты подтверждены на международных бенчмарках и представлены на престижной конференции Ассоциации вычислительной лингвистики (ACL 2025) в Вене.

Кроме самого алгоритма, ATGen — это полноценная платформа с понятным веб-интерфейсом, системой оценки качества, интеграцией с популярными ИИ  (включая OpenAI и Anthropic), а также поддержкой современных методов обучения. То есть, чтобы создать свой ИИ-продукт, не нужно собирать команду из десятков человек — справится и небольшая группа разработчиков, что удобно для небольших компаний или в случае скромных бюджетов на такие задачи.

Читайте также

С помощью ATGen можно делать специализированные языковые модели — например, помощников для юристов, врачей или кадровиков. Разработка особенно полезна для бизнеса: она помогает быстро собирать датасет для обучения нейросетей, создавать собственные ИИ-продукты и адаптировать их под конкретные задачи, сокращая время вывода на рынок и расходы.

Инструмент уже протестировали на популярных задачах вроде ответов на вопросы (TriviaQA), анализа текста (RACE) и суммаризации (AESLC). На всех бенчмарках фреймворк показал превосходство над обычным подходом: стратегически выбранные данные оказались эффективнее случайного набора. Чтобы достичь того же качества, требуется лишь треть от исходного объема.

Разработка доступна бесплатно на GitHub под открытой лицензией MIT. По сути, это первая в своем роде платформа, объединяющая современные подходы к обучению ИИ и делающая их доступными не только корпорациям, но и стартапам. ATGen — важный шаг в сторону «демократизации» искусственного интеллекта: он становится не только умнее, но и ближе.

Данные о правообладателе фото и видеоматериалов взяты с сайта «Инк.», подробнее в Условиях использования
Анализ
×
OpenAI
Сфера деятельности:Связь и ИТ
312
ПАО СБЕРБАНК
Сфера деятельности:Финансы
747
ВЫСШАЯ ШКОЛА ЭКОНОМИКИ
Сфера деятельности:Образование и наука
309
Microsoft
Сфера деятельности:Связь и ИТ
127
Новый
Места