Débiaiser l’échantillon d’apprentissage

 

De nombreux travaux proposent un pré-traitement des données afin d’aboutir à la construction d’une décision sans biais. Le problème est plus ou moins complexe selon que la variable sensible d’appartenance au groupe « protégé » est prise en compte  ou non, soumise à la confidentialité.

Appartenance connue

Feldman et al. (2015) proposent de transformer chaque variable de sorte que leurs distributions marginales, conditionnellement à l’appartenance au groupe, coïncident en préservant les rangs. Ce critère est basée sur la distance de Wasserstein (earthmover distance).

Kamiran et Calders (2011) comparent différentes stratégies poursuivant le même objectif: supprimer les k variables les plus liées à la variables groupe, changer les labels des observations proches de la frontières, repondérer les observations, supprimer ou sur échantillonner certaines observations.

Appartenance implicite

Hajian et al. (2013), Zliobaite et al. (2011), cherchent des procédures adaptées à des situations où la connaissance du groupe n’est pas explicite.

Confidentialité et non discrimination

Enfin, dans les travaux les plus récents,  Ruggiery (2014), Hajian et al. (2014) combinent des contraintes de confidentialité différentielle avec la construction de décision non discriminatoires.

Références

M. Feldman, S. Friedler, J. Moeller, C. Scheidegger, S. Venkatasubramanian (2015). Certifying and removing disparate impact, arXiv-preprint.

S. Hajian, J. Domingo-Ferrer (2013).  A Methodology for Direct and Indirect Discrimination Prevention in Data Mining,  IEEE Transactions on Knowledge and Data Engineering, 25(7), 1445 – 1459.

S. Hajian, J Domingo-Ferrer, O Farràs (2014). Generalization-based Privacy Preservation and Discrimination Prevention in Data Publishing and Mining, Data Mining and Knowledge Discovery 28 (5-6), 1158-1188.

F. Kamiran, T. Calders (2011). Data Pre-Processing Techniques for Classification without Discrimination,  Knowledge and Information Systems 33(1).

S. Ruggieri (2014). Using t-closeness anonymity to control for non-discrimination, Transaction on Data Privacy, 7, 99-129.

I. Zliobaite, F. Kamiran, T. Calders (2011). Handling Conditional Discrimination, Proceedings of IEEE International Conference on Data Mining, 992-1001.

 

 
Mentions Légales