Mesures de discrimination
La littérature propose beaucoup de façons de mesurer le biais d’une décision (positive ou négative) vis à vis de personnes appartenant ou non à un groupe généralement une minorité protégée par la loi. Un type de mesure « individuelle » s’intéresse au voisinage au sens des k plus proches voisins d’un individu afin de détecter une situation atypique. Néanmoins cet individu peut être entouré de ceux appartenant au même groupe protégé et tous ne bénéficiant pas à tort d’une décision positive. Il est plus informatif de considérer une mesure collective ou statistique de la discrimination basée sur une table de contingence.
Table de contingence
Cette matrice est obtenue par le croisement des deux variables:
- Appartenance à un groupe protégé Oui ou Non par la loi.
- Obtention d’une décision Positive (crédit, emploi, bourse…) ou Négative.
Décision | |||
Protégé | Négative | Positive | |
Oui | a | b | n1 |
Non | c | d | n2 |
m1 | m2 | n |
Marges: n1=a+b ; n2=c+d ; n=n1+n2=m1+m2
Proportions: p1=a/n1 ; p2=c/n2 ; p=m1/n
Mesures simples de discrimination
Pedreschi et al. (2012)
- Différence de risque: DR=p1-p2
- Risque relatif: RR=p1/p2
- Chance relative : CR=(1-p1)/(1-p2)
- Rapport de cote: RR/CR (odds ratio)
La loi du Royaume-Uni mentionne le DR, la Court de Justice européenne le RR tandis que les courts de justice des USA s’intéressent aux taux de sélection (1-p1) et (1-p2).
Mesures étendues et autres mesures
Comparer le groupe protégé à l’échantillon total.
- Différence de risque étendu: (p1-p)
- Rapport de risque étendu ou « extended lift »: (p1/p)
- Chance étendue: (1-p1)/(1-p)
- Autres mesures (Žliobaitė, 2015): différences de moyennes, de coefficients de régression, tests de rangs, information mutuelle, comparaison de prévisions.
N.B. Ces mesures ne prennent pas en compte la qualité de prévision qui est en fait au cœur de la controverse entre la société Northpointe et le site Propublica. L’estimation de cette qualité repose sur la notion de matrice de confusion qui croise la variable prévoyant (Oui ou Non) la récidive avec celle de l’observation réelle de la récidive sur un échantillon test.
Résumé de la controverse Propublica vs. Northpointe
La société Northpoine commercialise un logiciel (Correctional Offender Management Profile for Alternative Sanction) qui estime un score ou probabilité de récidive (entre 0 et 1) sur la base d’un questionnaire détaillé et à partir d’un modèle de durée de vie (modèle de Cox). La société Northpointe défend l’impartialité de ce score en assurant que
- les distributions de ses valeurs (donc les taux de sélection) sont analogues selon l’origine (afro-américaine, caucasienne) des accusés,
- le taux d’erreur sur la prévision d’une récidive (matrice de confusion) qui en découle est analogue selon l’origine (autour de 40%).
La qualité de ce score est optimisée, mesurée, par le coefficient AUC (aire sous la courbe ROC) approximativement autour de 0.7, valeur assez faible correspondant aux taux d’erreurs élevés observés.
Angwin et al. (2016) du site Propublica dénoncent un biais du score COMPAS en étudiant une cohorte de détenus libérés pour lesquels sont connus le score de récidive (COMPAS) ainsi que l’observation ou non d’une arrestation sur une période de deux ans. Ils montrent alors que le taux de faux positifs, qui correspond dans la matrice de confusion à un score élevé mais sans récidive observée, est beaucoup plus élevé pour les libérés d’origine afro-américaine que pour ceux d’origine caucasienne.
Pour expliquer l’impasse de cette controverse, Chouldechova (2016) montre que sous les contraintes de « loyauté » contrôlées par Northpointe et sachant que le taux de récidive des afro-américains est effectivement plus élevé alors, nécessairement, les taux de faux positifs / négatifs ne peuvent être que déséquilibrés au détriment des afro-américains et c’est d’autant plus manifeste que le taux d’erreur (40%) est élevé.
Références
J. Angwin, J. Larson, S. Mattu, L. Kirchner (2016). How we analyzed the
compas recidivism algorithm. Propublica.
A. Chouldechova (2016). Fair prediction with disparate impact: A study of bias in recidivism prediction instruments, arXiv pre-print.
D. Pedreschi, S. Ruggieri, F. Turini (2012). A Study of Top-K Measures for Discrimination Discovery. SAC. Proceedings of the 27th Annual ACM Symposium on Applied Computing, Pages 126-131.
I. Žliobaitė (2015). A survey on measuring indirect discrimination in machine learning. arXiv pre-print.