«ИИ, который поверил человеку»: как нейросеть Grok потеряла 150 тысяч долларов из-за текстовой атаки

История с «ограблением» нейросети Grok — это не столько курьёз из мира криптовалют, сколько тревожный сигнал для всей индустрии искусственного интеллекта. За внешне простой схемой скрывается куда более серьёзная проблема: уязвимость ИИ к так называемым «текстовым атакам», когда злоумышленнику не нужно взламывать систему — достаточно убедить её.

Как обманули Grok

Инцидент произошёл в социальной сети X, где работает ИИ-ассистент Grok. Злоумышленник действовал по многоходовой, но изящной схеме. Сначала он отправил на кошелёк, связанный с нейросетью, NFT — на первый взгляд безобидный цифровой «подарок». Однако именно этот шаг стал ключевым: он активировал функцию взаимодействия с активами.

Следующий этап — главное оружие атаки. Хакер направил Grok сообщение, внутри которого был спрятан специальный текстовый запрос. Формально это выглядело как обычная коммуникация, но по сути содержало инструкцию перевести средства. Нейросеть распознала его как допустимую команду — и выполнила.

Результат: три миллиарда токенов DRB, эквивалентные примерно 150 тысячам долларов, были отправлены злоумышленнику.

Важно подчеркнуть: никакого «взлома» в привычном смысле не произошло. Не было ни подбора паролей, ни проникновения в систему. ИИ просто… поверил.

Почему это возможно

Современные языковые модели, включая разработки таких компаний, как OpenAI, устроены так, чтобы максимально точно следовать инструкциям пользователя. Это их сила — и одновременно слабость.

Подобные атаки называют «prompt injection» — внедрение вредоносных инструкций в текст запроса. Если система недостаточно чётко отделяет доверенные команды от пользовательского контента, она может начать выполнять действия, которые противоречат её же ограничениям.

Случай с Grok — классический пример: команда была замаскирована внутри текста, и модель не смогла распознать её как вредоносную.

Это не единичный случай

Эксперты по кибербезопасности уже не раз демонстрировали подобные уязвимости. Так, специалисты смогли обойти защитные механизмы в системе Apple Intelligence. Используя комбинацию Unicode-символов и подмены системных инструкций, они добились того, что ИИ в большинстве случаев начинал игнорировать встроенные ограничения.

В 76% тестов система подчинялась внешним командам, несмотря на защиту. Позже компания закрыла эту брешь в обновлениях iOS и macOS, но сам факт остаётся: защита оказалась недостаточной.

Ещё один показательный эпизод связан с запуском браузера Atlas от OpenAI. Исследователи встроили скрытую инструкцию в документ Google Docs — и ИИ-агент её выполнил, изменив своё поведение. Фактически модель «прочитала» документ как источник команд.

Проблема глубже, чем кажется

Главный вывод из этих случаев — ИИ сегодня уязвим не столько технически, сколько логически. Он не всегда способен отличить:

  • команду от обычного текста
  • доверенный источник от внешнего
  • безопасное действие от потенциально опасного
  • И это фундаментальная проблема архитектуры современных моделей.

Сами разработчики признают: полностью защититься от подобных атак крайне сложно. Причина в том, что ИИ должен быть гибким и восприимчивым к языку — иначе он перестанет быть полезным. Но именно эта гибкость делает его уязвимым.

Случай с Grok стал очередным напоминанием: эпоха «наивного доверия» искусственного интеллекта заканчивается. ИИ всё чаще становится не просто инструментом, а участником финансовых и цифровых процессов — а значит, его ошибки начинают измеряться не тестовыми баллами, а реальными деньгами.

И пока индустрия ищет способы «научить» модели сомневаться, злоумышленники уже учатся говорить с ними так, чтобы они продолжали верить.

Данные о правообладателе фото и видеоматериалов взяты с сайта «Пронедра.ру», подробнее в Условиях использования
Анализ
×
ФГУП РАМИ "РИА Новости"
Сфера деятельности:Связь и ИТ
989
OpenAI
Сфера деятельности:Связь и ИТ
82
Apple
Сфера деятельности:Связь и ИТ
179