Google Gemini
© commons.wikimedia.org by Steffen Prößdorf is licensed under CC BY-SA 4.0
Google внедрила в голосового ассистента Gemini Live новую систему, которая позволяет ИИ понимать не только смысл сказанных слов, но и настроение собеседника. Теперь приложение анализирует тембр, ритм и интонацию голоса, чтобы подстраивать стиль общения под эмоциональное состояние пользователя.
Новый уровень взаимодействия с искусственным интеллектом
Обновлённая версия Gemini Live построена на технологии Gemini 2.5 Flash Live API и получила название "нативный звук". Эта система меняет сам подход к диалогу между человеком и машиной. Если раньше ассистент просто обрабатывал команды, то теперь он способен учитывать эмоциональные оттенки речи. Например, спокойный голос побудит ИИ отвечать в более размеренном тоне, а взволнованная интонация — быстрее и увереннее.
По словам разработчиков, новая функция призвана сделать общение с ассистентом "человечнее" — чтобы взаимодействие походило не на разговор с программой, а на диалог с живым собеседником.
Распространение и совместимость
На первом этапе технология появляется на устройствах под управлением Android, включая смартфоны и планшеты разных производителей. Владельцы флагманской серии Pixel 10 уже начали получать обновление, а вскоре оно станет доступно и другим пользователям.
О сроках релиза для iOS пока не объявлено, однако Google намекает, что поддержка платформы может появиться в ближайшие недели.
Развёртывание функции проходит поэтапно, чтобы обеспечить стабильную работу и корректное распознавание интонаций на разных языках и акцентах.
Новые возможности настройки
Помимо анализа речи, Google добавила дополнительные опции для настройки голосового вывода Gemini. Теперь пользователь может:
изменять скорость речи ассистента — от медленного, почти спокойного тона до быстрого ритма.
выбирать разные акценты для английского языка, что делает общение более привычным для носителей из разных регионов.
настраивать все параметры в отдельном разделе меню приложения, где также доступны обновления и тестовые функции.
Эти улучшения дают больше свободы тем, кто активно использует голосовой ввод для управления устройствами или работы с ИИ-инструментами.
Ошибка → Последствие → Альтернатива
Ошибка: использовать ассистента в шумной среде или при плохом микрофоне.
Последствие: система может неправильно определить интонацию или контекст фразы.
Альтернатива: использовать наушники с шумоподавлением или внешний микрофон.Ошибка: не обновлять приложение вовремя.
Последствие: часть новых функций, включая "нативный звук", будет недоступна.
Альтернатива: включить автоматическое обновление в Google Play.Ошибка: чрезмерно повышать голос при обращении к ассистенту.
Последствие: ИИ может воспринять речь как сигнал тревоги и изменить стиль ответа.
Альтернатива: говорить спокойно — алгоритм лучше понимает эмоциональные нюансы.
А что если…
Если использовать Gemini Live для длительных разговоров, ИИ начнет адаптировать манеру общения под конкретного человека. Например, он может "запоминать" ритм речи, скорость и даже типичные паузы собеседника, чтобы делать ответы естественнее. Это особенно полезно для людей, использующих ассистента в работе, обучении или терапии.
FAQ
Как включить анализ тона голоса в Gemini Live?
Функция активируется автоматически после обновления приложения. Проверить можно в разделе "Настройки → Голосовые функции".
Можно ли отключить распознавание эмоций?
Да, в том же меню есть переключатель "Анализ тона", который позволяет полностью отключить эмоциональную адаптацию.
Будет ли функция работать на русском языке?
Пока основной фокус — на английском, но Google уже тестирует поддержку нескольких языков, включая русский, испанский и немецкий.
Мифы и правда
Миф: новая функция записывает и хранит эмоции пользователя.
Правда: система анализирует голос в реальном времени и не сохраняет аудиофайлы после завершения сессии.
Миф: "нативный звук" доступен только на смартфонах Pixel.
Правда: технология распространяется и на другие устройства Android, просто релиз происходит поэтапно.
Миф: ассистент теперь понимает сарказм и иронию.
Правда: он может уловить изменения интонации, но не всегда корректно интерпретирует сложные эмоциональные оттенки.
Интересные факты
• Разработка функции велась более двух лет и включала анализ 10 миллионов часов реальной речи.
• Прототип технологии впервые тестировался внутри Google Meet для улучшения качества видеозвонков.
• В будущем "нативный звук" может использоваться в системах поддержки клиентов и умных колонках.