В России создали первое ПО для генерации музыки и песен с помощью ИИ

@@@

В России создали первое ПО для генерации музыки и песен с помощью ИИ

2026-05-06T03:15:48+03:00

https://tass.ru/nauka/27318513

В России создали первое ПО для генерации музыки и песен с помощью ИИ

Реклама на ТАСС

Ключевая особенность решения - полная независимость от зарубежных платформ и возможность работы в закрытом контуре, сообщил руководитель проекта Егор Антонянц

НОВОСИБИРСК, 6 мая. /ТАСС/. Первое в России программное обеспечение для генерации аудиоконтента на основе нейросетевых моделей разработали специалисты Новосибирского государственного технического университета. Об этом ТАСС сообщил руководитель проекта Егор Антонянц.

Разработка предназначена для задач, где важна автономная генерация музыкальных композиций, вокальных партий и звуковых эффектов по текстовым описаниям без привязки к облачным сервисам. По словам разработчиков, система обеспечивает полный цикл создания аудиопродукции - от текстового запроса до экспорта в широко используемые форматы WAV, MP3 и FLAC - и при этом работает на потребительском оборудовании с объемом видеопамяти менее 6 ГБ.

"Ключевая особенность нашего решения - это полная независимость от зарубежных платформ и возможность работы в закрытом контуре. Мы дообучили базовую модель специализированными LoRA-адаптерами под три типа контента: инструментальную музыку, песни с вокалом и звуковые эффекты, что позволяет избежать эффекта смешения характеристик и добиться более точного соответствия запросу", - отметил Антонянц.

В отличие от базовых решений, ориентированных на англоязычных пользователей, новый инструмент адаптирован для работы с русскоязычными запросами и показывает конкурентоспособные результаты. Так, значение средней субъективной оценки MOS составило 4,1 из 5 баллов, что сопоставимо с показателями ведущих коммерческих платформ.

"Технически обработка строится в несколько этапов: языковая модель формирует семантический "каркас" композиции с использованием "цепочки рассуждений", диффузионный трансформер выполняет акустический синтез в латентном пространстве, а модуль экспорта обеспечивает конвертацию в целевые форматы. Встроенный графический интерфейс позволяет управлять проектами, сохранять и загружать пресеты параметров генерации, предпрослушивать результаты и экспортировать треки без привлечения сторонних редакторов", - рассказал разработчик проекта Артур Хусаинов.

Создатели ПО подчеркнули, что в дальнейшем планируется расширение системы: добавление поддержки пространственного аудио для задач виртуальной реальности, реализация интеграции с MIDI-контроллерами для живого взаимодействия и адаптация программного обеспечения для промышленных сценариев - от создания звуковых ландшафтов для видеоигр до автоматизированного озвучивания фильмов, прямых трансляций, подкастов и рекламных роликов.

Свидетельство о регистрации СМИ №03247 выдано 02 апреля 1999 г. Государственным комитетом Российской Федерации по печати.

Отдельные публикации могут содержать информацию, не предназначенную для пользователей до 16 лет.

На информационном ресурсе применяютсярекомендательные технологии.

Шрифт Guildenstern NBP создан Nate Halley, распространяется по лицензии CC BY-SA 3.0. Оригинал: FontSpace Guildenstern NBP.

RSS-лента

RUS

Разделы

Экономика Происшествия Политика Общество Спорт В мире В стране Нацпроекты Недвижимость Армия и ОПК Культура Наука Космос Госсовет Новости партнеров Пресс-релизы Биографии и справки