Новая метрика GESD оценивает справедливость ИИ по стабильности объяснений

Группа исследователей представила метрику GESD (Group-level Explanation Stability Disparity) — новый подход к оценке справедливости моделей машинного обучения. В отличие от традиционных метрик вроде статистического паритета, которые учитывают только итоговые решения, GESD фокусируется на объяснениях, которые модель выдаёт для разных подгрупп.

Авторы отмечают, что даже при формально равных результатах модель может принимать решения на основе разных признаков для разных категорий пользователей. Например, при одобрении кредита для одной группы решающим может быть доход, а для другой — возраст, что указывает на скрытую предвзятость. GESD выявляет такие расхождения, измеряя стабильность и устойчивость объяснений между группами.

Метрика является агностической к модели и объяснителю, то есть применима к любым алгоритмам — от линейной регрессии до глубоких нейросетей. GESD позволяет разработчикам не только обнаруживать несправедливость, но и понимать её корни.

Для практического применения исследователи создали фреймворк FEU (Fairness-Explainability-Utility), который объединяет три цели: точность, результатную справедливость и объяснительную справедливость. FEU использует многокритериальную оптимизацию, чтобы найти баланс между этими часто конфликтующими задачами.

Эксперименты на нескольких стандартных наборах данных показали, что GESD эффективно выявляет групповые расхождения, а FEU превосходит современные методы и по точности, и по справедливости. Код и наборы данных выложены в открытый доступ на GitHub.

Разработка особенно актуальна для сфер с высокими рисками: кредитование, страхование, уголовное правосудие. Внедрение GESD может сделать ИИ-системы более прозрачными и помочь соблюдать нормативные требования в области недопущения дискриминации.