Он звучит, но не существует: вот кто на самом деле говорит с пассажирами московского трамвая

беспилотный трамвай

Заммэра Ликсутов: в Москве запущен первый беспилотный трамвай с голосом, созданным нейросетью

Беспилотные технологии становятся частью повседневной жизни москвичей. Теперь инновации добрались и до общественного транспорта — в первом в России беспилотном трамвае зазвучал знакомый голос, но созданный не человеком, а нейросетью. Это решение объединяет удобство для пассажиров и передовые разработки в области синтеза речи.

Нейроголос, озвучивающий остановки и объявления, принадлежит виртуальной копии диктора Алексея Россошанского. Его тембр знаком пассажирам московского метро и наземного транспорта, поэтому новая система воспринимается естественно.

"Беспилотный трамвай стал первым видом наземного транспорта Москвы, где мы применили технологию синтеза речи", — рассказал заместитель мэра Москвы по вопросам транспорта и промышленности Максим Ликсутов.

Как работает нейроголос

Все сообщения в беспилотном трамвае создаются при помощи искусственного интеллекта. Система синтеза речи формирует аудиофайлы по заранее подготовленному тексту. Для этого достаточно загрузить сценарий в специальную программу, где можно настроить скорость воспроизведения, громкость и паузы.

Технология позволяет мгновенно обновлять аудиодорожки — например, если меняется маршрут, вводится новая остановка или добавляется объявление о временных изменениях движения.

Среди сообщений: приветствия, напоминания о правилах оплаты проезда, просьбы быть вежливыми и, конечно, объявления остановок. Всё звучит в привычном для москвичей тембре — ровном, спокойном, с интонацией профессионального диктора.

Почему именно нейроголос

Разработка синтезированного голоса — не просто дань моде на искусственный интеллект. В первую очередь это инструмент для стандартизации аудиоинформации. Ранее записи приходилось перезаписывать с диктором при каждом изменении маршрута, теперь же достаточно внести правки в текст.

Кроме того, нейроголос обеспечивает одинаковое качество звучания независимо от внешних условий. Он не устаёт, не ошибается и не требует повторных дублей. Это делает его идеальным решением для транспорта, где точность и оперативность особенно важны.

Сравнение: живой диктор и нейроголос

Параметр	Живой диктор	Нейроголос
Скорость обновления записей	Несколько дней	Несколько минут
Стоимость создания контента	Высокая	Минимальная
Единообразие звучания	Может отличаться	Полная стабильность
Возможность редактирования	Ограниченная	Мгновенная
Эмоциональность речи	Естественная	Контролируемая, настраиваемая

Как создаётся голос

Для работы нейросети был использован цифровой образ голоса Россошанского, созданный с помощью технологии дипфейк-аудио. Сначала собираются эталонные записи речи диктора, затем программа обучается на этих данных, воспроизводя интонации, тембр и ритм оригинала.

Результат — синтетический, но реалистичный голос, отличить который от настоящего почти невозможно. Такой подход уже активно используется в сервисах навигации, банковских колл-центрах и даже в системах "умного дома".

Советы шаг за шагом: как готовят объявления

Составляется текстовое объявление — например, с названием остановки или правил поведения.
Текст загружается в программу синтеза речи.
Настраиваются параметры: темп, паузы, громкость, выразительность.
После генерации аудио проходит тестирование на звучание в салоне трамвая.
Финальная версия добавляется в систему оповещения.

Такой процесс занимает не больше часа, что позволяет обновлять аудиоконтент буквально в режиме реального времени.

Ошибка → Последствие → Альтернатива

• Ошибка: использовать разные голоса для разных маршрутов.
• Последствие: пассажиры путаются, теряется единый стиль оповещений.
• Альтернатива: внедрить единую нейроплатформу синтеза речи для всего общественного транспорта Москвы.

А что если…

А что если в будущем пассажир сможет выбрать, каким голосом звучат объявления? Это не фантазия: разработчики уже тестируют систему персональных оповещений через мобильное приложение. Например, человек с ограничением слуха сможет настроить усиление громкости или визуальное дублирование текста на экране смартфона.

Плюсы и минусы нейроголоса

Плюсы	Минусы
Быстрая адаптация под изменения	Отсутствие человеческих эмоций
Высокая чёткость и разборчивость	Необходимость технической поддержки
Снижение затрат на запись и монтаж	Возможные ошибки при генерации
Единый стиль для всех транспортных средств	Ограниченная выразительность

FAQ

Как создаётся нейроголос?
Искусственный интеллект анализирует записи диктора и строит модель, которая способна воспроизводить те же звуки, интонации и тембр.

Сколько стоит внедрение такой системы?
Стоимость зависит от масштабов — но в целом синтез речи обходится в разы дешевле традиционных дикторских услуг.

Можно ли отличить голос нейросети от настоящего?
Практически нет. Современные алгоритмы позволяют добиться звучания, неотличимого от человеческого.

Что лучше: живой диктор или ИИ?
Для эмоциональных роликов — человек, для стандартных транспортных объявлений — искусственный интеллект, обеспечивающий точность и стабильность.

Мифы и правда

Миф: нейроголос звучит "роботизированно".
Правда: современные алгоритмы делают звучание максимально естественным — интонации подстраиваются под контекст и темп речи.

Миф: синтез речи заменит дикторов.
Правда: технология не отменяет работу профессионалов — их голоса используются как база для обучения моделей.

Миф: обновления аудио происходят автоматически.
Правда: текст всё равно проверяют специалисты, чтобы исключить ошибки в названиях или формулировках.

Интересные факты

• 6 апреля 1899 года — запуск первого электрического трамвая. Маршрут связал Бутырскую заставу (современный Савеловский вокзал) с Петровским парком.
• Во время Великой Отечественной войны трамваи не останавливались ни на день — даже во время обороны Москвы. Вагоны перевозили не только пассажиров и грузы, но и помогали в эвакуации городских учреждений.
• Москва стала первым городом в России, где нейроголос применяется в наземном транспорте.

Исторический контекст

Первые попытки автоматизировать голосовые объявления в транспорте начались ещё в середине XX века. Тогда использовались магнитофонные ленты, где дикторы записывали маршруты вручную. В 1990-х появились цифровые системы, но обновления по-прежнему занимали много времени.

Настоящим прорывом стал переход к искусственному интеллекту. Москва одной из первых начала внедрять синтез речи в метрополитене, а теперь технология дошла и до трамваев. Это шаг к полностью "умному" транспорту, где управление, информирование и безопасность обеспечиваются цифровыми системами без участия человека.