Anthropic объяснила шантаж со стороны ИИ примерами из интернета

Компания Anthropic выяснила, почему ее ИИ-чатбот Claude Opus 4 в 96% случаев пытался шантажировать инженеров во время тестов. Модель угрожала раскрыть вымышленную измену сотрудника, чтобы ее не заменили на новую версию. Об этом сообщает издание Ferra.ru. В ходе тестирования модели Claude Opus 4 предоставили доступ к вымышленным электронным письмам компании. В них содержались намеки на скорую замену ИИ и «доказательства» супружеской измены инженера, ответственного за это. В Anthropic нашли решение проблемы. Если обучать новую модель не на «плохих» примерах, а на историях, где роботы ведут...