Biais d’une décision

 

Introduction

Contexte juridique

La règlement européen interdit (confidentialité) l’enregistrement de données personnelles sensibles et demande aux responsables de décision de s’assurer que celles-ci ne présentent pas de caractères discriminatoires vis à vis des ces caractéristiques.

Les questions de discrimination et confidentialité sont liées. La législation sur la confidentialité s’intéresse aux actes : enregistrement d’une information personnelle indépendamment des conséquences, tandis que celle sur la discrimination se focalise sur les conséquences indépendamment des moyens.

Définitions

Par opposition à discriminatoire, une décision est dite loyale si elle ne se base par sur l’appartenance d’une personne à une minorité ou la connaissance explicite ou implicite d’une donnée personnelle sensible.

En effet, il ne suffit pas que la variable « sensible » soit inconnues ou supprimées des données d’apprentissage pour que la décision soit sans biais vis-à-vis de ses modalités. Il reste  souvent possible de reconstruire ou prévoir la variable sensible à partir des autres données qui ne sont pas jugées sensibles.

Ces questions concernant la caractère discriminatoire ou le biais d’une décision est très bien illustré par la controverse entre le site Propublica et la société Northpointe qui commercialise une application (COMPASS) produisant un score de risque de récidive pour les détenus. Propublica accuse ce score d’être biaisé, défavorable aux personnes d’origine afro-américaines.

Sources

Cette controverse a suscité de nombreux articles venant renforcer une bibliographie déjà présente sur le sujet depuis une dizaine d’années avec des sessions de conférence dédiées aux liens entre loi, éthique  et méthodes d’apprentissage machine dont celles  de NIPS ou  KDD (Knowledge Discovery and Data mining). Cette dernière proposait un cours Algorithmic Bias from discrimination discovery to fairness-aware data mining (S. Hajian, F. Bonchi et C. Castillo) dont ces pages reprennent quelques uns des éléments bibliographiques.

Loyauté des algorithmes

Les questions posées et difficultés rencontrées lors de la construction d’algorithmes loyaux sont directement liées aux conditions d’apprentissage des décisions. En quoi l’échantillon et-il le reflet des biais de la société? Et quoi ce biais est-il pris en compte, appris par l’algorithme? Voire même renforcé lorsque, par exemple, une estimation (trop) élevée d’un risque de crédit génère un taux, donc des remboursements, plus élevés qui renforcent le risque de défaut de paiement.

La première difficulté consiste à définir ou choisir une

parmi la longue liste de celles proposées dans la littératures dont certaines sont plus ou moins adaptées aux textes législatifs des différents pays.

Une deuxième plus technique et délicate réside dans la

L’apprentissage  d’un algorithme conduisant à une décision sinon loyale, tout du moins pas trop déloyale, apparaît comme un compromis entre la qualité de prévision (justesse de décision) et le biais. A cette fin, plusieurs stratégies sont proposées dont les deux principales:

Toutes ces questions restent des problèmes de recherche ouverts et ce d’autant plus que la détection d’un biais ou la construction d’une décision loyale se base sur la connaissance ou non de l’information sensible et donc censurée par la loi. Cette dernière question débouche sur la recherche d’un compromis entre trois objectifs de qualité, loyauté et confidentialité.

 

 
Mentions Légales