Vue ML / Statistique
Objectif
Un statisticien ou un spécialiste d’apprentissage machine, c’est-à-dire maintenant un data scientist est concerné à plus d’un titre à propos des aspects juridiques et éthiques du traitement automatique des données.
Il se doit évidemment de respecter les règles de propriété et de confidentialité des données prévues par la loi, notamment celles ouvertes au public qui sont en principe anonymisées. Ce dernier cas pose le problème du contrôle du risque de ré-identification (confidentialité différentielle) mais qui n’est pas abordé.
Ce site s’intéresse plus particulièrement aux situations dans lesquels le statisticien, ou data scientist, est directement acteur dans la construction ou l’aide à la construction d’un traitement automatisé aboutissant à une décision algorithmique.
Définition
Schématiquement, une décision est dite algorithmique lorsque celle-ci est obtenue de façon automatique par un traitement ou programme informatique:
- exécutant un ensemble de règles de décisions pré-établies comme par exemple l’algorithme APB (Admission Post Bac) qui introduit même une part de hasard en cas d’égalité des choix ou critères;
- appliquant un modèle de prévision statistique ou un algorithme d’apprentissage machine estimé ou ajusté sur un ensemble de données dites d’apprentissage; voir par exemple l’estimation d’un score pour attribuer un crédit ou prévoir la récidive d’un détenu.
Même si l’algorithme APB est souvent mis en exergue pour son absence de transparence, le deuxième cas est le plus susceptible de faire émerger des questions juridiques délicates. Ces algorithmes d’analyse automatique exécutent généralement des méthodes issues de l’interface entre, d’une part l’Apprentissage Machine (ML), branche de l’Intelligence Artificielle (AI), et d’autre part la Statistique.
Schématiquement, trois questions sont évoquées au sujet de ces algorithmes:
- Explicabilité et transparence des décisions algorithmiques,
- Biais et loyauté des décisions,
- Justesse des décisions et qualité de prévision.