Фото: DPA/TASS
Специалисты Новосибирского государственного технического университета (НГТУ) разработали программное обеспечение для генерации аудиоконтента на основе нейросетевых моделей. Система полностью независима от зарубежных платформ и может работать в автономном режиме, отметили в вузе.
Разработка предназначена для задач, где важна автономная генерация музыкальных композиций, вокальных партий и звуковых эффектов по текстовым описаниям без привязки к облачным сервисам. Система обеспечивает полный цикл создания аудиопродукции: от текстового запроса до формирования файлов в формате WAV, MP3 и FLAC. При этом ПО можно установить на потребительское оборудование с небольшим объемом видеопамяти (менее 6 ГБ), рассказали в НГТУ.
По словам специалистов, ключевое преимущество новой системы – полная независимость от зарубежных платформ и возможность работы в закрытом контуре. В основе ПО – базовая нейросетевая модель, которую усовершенствовали специальными адаптерами по трем направлениям: инструментальной музыке, песням с вокалом и звуковым эффектам. Еще одно важное отличие – новинка адаптирована для работы с русскоязычными запросами и по основным показателям сопоставима с ведущими коммерческими платформами.
В НГТУ добавили, что в дальнейшем планируется расширить возможности новой ПО. В частности, речь идет о создании пространственного аудио для задач виртуальной реальности и адаптации системы для промышленных сценариев, среди которых – разработка видеоигр, автоматизированное озвучивание фильмов, прямые трансляции и рекламные ролики.
Читайте также: Нейросети научились оценивать уровень креативности человека