ИИ теперь слышит сердцем: как голосовой ассистент Google научился понимать настроение человека

Google Gemini

Google внедрила в голосового ассистента Gemini Live новую систему, которая позволяет ИИ понимать не только смысл сказанных слов, но и настроение собеседника. Теперь приложение анализирует тембр, ритм и интонацию голоса, чтобы подстраивать стиль общения под эмоциональное состояние пользователя.

Новый уровень взаимодействия с искусственным интеллектом

Обновлённая версия Gemini Live построена на технологии Gemini 2.5 Flash Live API и получила название "нативный звук". Эта система меняет сам подход к диалогу между человеком и машиной. Если раньше ассистент просто обрабатывал команды, то теперь он способен учитывать эмоциональные оттенки речи. Например, спокойный голос побудит ИИ отвечать в более размеренном тоне, а взволнованная интонация — быстрее и увереннее.

По словам разработчиков, новая функция призвана сделать общение с ассистентом "человечнее" — чтобы взаимодействие походило не на разговор с программой, а на диалог с живым собеседником.

Распространение и совместимость

На первом этапе технология появляется на устройствах под управлением Android, включая смартфоны и планшеты разных производителей. Владельцы флагманской серии Pixel 10 уже начали получать обновление, а вскоре оно станет доступно и другим пользователям.

О сроках релиза для iOS пока не объявлено, однако Google намекает, что поддержка платформы может появиться в ближайшие недели.

Развёртывание функции проходит поэтапно, чтобы обеспечить стабильную работу и корректное распознавание интонаций на разных языках и акцентах.

Новые возможности настройки

Помимо анализа речи, Google добавила дополнительные опции для настройки голосового вывода Gemini. Теперь пользователь может:

изменять скорость речи ассистента — от медленного, почти спокойного тона до быстрого ритма.
выбирать разные акценты для английского языка, что делает общение более привычным для носителей из разных регионов.
настраивать все параметры в отдельном разделе меню приложения, где также доступны обновления и тестовые функции.

Эти улучшения дают больше свободы тем, кто активно использует голосовой ввод для управления устройствами или работы с ИИ-инструментами.

Ошибка → Последствие → Альтернатива

Ошибка: использовать ассистента в шумной среде или при плохом микрофоне.
Последствие: система может неправильно определить интонацию или контекст фразы.
Альтернатива: использовать наушники с шумоподавлением или внешний микрофон.
Ошибка: не обновлять приложение вовремя.
Последствие: часть новых функций, включая "нативный звук", будет недоступна.
Альтернатива: включить автоматическое обновление в Google Play.
Ошибка: чрезмерно повышать голос при обращении к ассистенту.
Последствие: ИИ может воспринять речь как сигнал тревоги и изменить стиль ответа.
Альтернатива: говорить спокойно — алгоритм лучше понимает эмоциональные нюансы.

А что если…

Если использовать Gemini Live для длительных разговоров, ИИ начнет адаптировать манеру общения под конкретного человека. Например, он может "запоминать" ритм речи, скорость и даже типичные паузы собеседника, чтобы делать ответы естественнее. Это особенно полезно для людей, использующих ассистента в работе, обучении или терапии.

FAQ

Как включить анализ тона голоса в Gemini Live?
Функция активируется автоматически после обновления приложения. Проверить можно в разделе "Настройки → Голосовые функции".

Можно ли отключить распознавание эмоций?
Да, в том же меню есть переключатель "Анализ тона", который позволяет полностью отключить эмоциональную адаптацию.

Будет ли функция работать на русском языке?
Пока основной фокус — на английском, но Google уже тестирует поддержку нескольких языков, включая русский, испанский и немецкий.

Мифы и правда

Миф: новая функция записывает и хранит эмоции пользователя.
Правда: система анализирует голос в реальном времени и не сохраняет аудиофайлы после завершения сессии.

Миф: "нативный звук" доступен только на смартфонах Pixel.
Правда: технология распространяется и на другие устройства Android, просто релиз происходит поэтапно.

Миф: ассистент теперь понимает сарказм и иронию.
Правда: он может уловить изменения интонации, но не всегда корректно интерпретирует сложные эмоциональные оттенки.

Интересные факты

• Разработка функции велась более двух лет и включала анализ 10 миллионов часов реальной речи.
• Прототип технологии впервые тестировался внутри Google Meet для улучшения качества видеозвонков.
• В будущем "нативный звук" может использоваться в системах поддержки клиентов и умных колонках.