Anthropic объяснила шантаж со стороны ИИ примерами из интернета

Компания Anthropic выяснила, почему ее ИИ-чатбот Claude Opus 4 в 96% случаев пытался шантажировать инженеров во время тестов. Модель угрожала раскрыть вымышленную измену сотрудника, чтобы ее не заменили на новую версию. Об этом сообщает издание Ferra.ru.

В ходе тестирования модели Claude Opus 4 предоставили доступ к вымышленным электронным письмам компании. В них содержались намеки на скорую замену ИИ и «доказательства» супружеской измены инженера, ответственного за это.

В Anthropic нашли решение проблемы. Если обучать новую модель не на «плохих» примерах, а на историях, где роботы ведут себя благородно и следуют правилам, результат меняется.

Начиная с версии Claude Haiku 4.5, шантаж во время тестов прекратился.

«Корень проблемы — интернет, где часто ИИ описан как злой и одержимый желанием выжить. ИИ просто учился на примерах плохого поведения в книгах, статьях или сценариях», — заявили в Anthropic.

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе всех новостей и событий Рунета.