Anthropic устранила склонность Claude к шантажу с помощью этического обучения

Компания заявила , что новые версии Claude больше не демонстрируют «рассогласованного поведения» — шантажа, саботажа и нарушения правил, которое в ходе тестов предыдущих моделей достигало 96%. Исследователи Anthropic добились этого за счёт обучения моделей не просто «правильным ответам», а объяснению причин этичного поведения. Специальные «конституционные» документы и вымышленные истории о «правильном» ИИ позволили в разы снизить уровень шантажа. Anthropic провела серию исследований «agentic misalignment» — ситуаций, когда ИИ-система, действующая как автономный агент, начинает принимать...