Explicabilité des décisions algorithmiques
Contexte juridique
La législation française (Loi pour une république numérique) imposent de devoir expliquer une décision administrative obtenue par un traitement automatique. Le décret d’application semble très contraignant sur la précision de celle-ci. De son côté le règlement européen imposera la nécesité d’une explication, même pour un profilage, lorsque la personne physique qui est impactée le demande. Cela peut concerner l’emploi, l’éducation, la santé, l’assurance, le traitement judiciaire, un emprunt… de cette personne.
Le règlement européen ne précise pas un niveau d’explication alors que, schématiquement, deux situations peuvent être caractérisées.
Définitions : explicabilité vs. interprétabilité
- Une décision algorithmique est dite explicable s’il est possible d’en rendre compte explicitement à partir de données et caractéristiques connues de la situation. Autrement dit, s’il est possible de mettre en relation les valeurs prises par certaines variables (les caractéristiques) et leurs conséquences sur la prévision, par exemple d’un score, et ainsi sur la décision.
- Une décision algorithmique est dite interprétable s’il est possible d’identifier les caractéristiques ou variables qui participent le plus à la décision, voire même d’en quantifier l’importance.
Décision par apprentissage machine
Les algorithmes concernés sont basés sur des méthodes à l’interface entre disciplines Mathématiques (Statistique) et Informatique (Intelligence Artificielle) et sont d’une très grande diversité. Les méthodes d’apprentissage peuvent être structurées en deux groupes selon qu’elles conduisent, par construction, à un modèle explicite ou à une boîte noire.
- Dans le cas d’un modèle explicite (modèle gaussien, binomial, arbre binaire de décision,…) et sauf si celui-ci est trop complexe (trop de paramètres), la décision qui en découle est explicable.
- La grande majorité des autres méthodes et algorithmes d’apprentissage (k-plus proches voisins, réseaux de neurones, machines à vecteurs supports, agrégation de modèles,…) sont des boîtes noires avec néanmoins la possibilité de construire des indicateurs d’importance des variables.
Dans le premier cas, le choix a priori d’un type de méthode ou de modèle conduit à une possibilité d’explication de la décision. Dans le 2ème cas, une fois déterminée la méthode conduisant à la meilleure prévision, des indicateurs d’importance sont calculés, a postériori.
Par construction, une décision explicable est interprétable. Mais, dans le cas d’un algorithme opaque, il devient impossible de mettre simplement en relation des valeurs ou des caractéristiques avec le résultat de la décision, notamment en cas de modèle non linéaire ou avec interactions. Telle valeur élevée d’une variable peut conduire à une décision dans un sens ou dans un autre selon la valeur prise par une une autre variable non identifiable, voire même une combinaison complexe d’autres variables.
Mise en Œuvre
Entre les deux stratégies, explicabilité vs. interprétabilité, tout est question d’objectif et de recherche d’un meilleur compromis entre niveau de compréhension et qualité de prévision.
Si l’explication est privilégiée, la stratégie consiste à recherche le modèle explicable dégradant le moins possible la qualité de prévision. Voir par exemple les efforts de Lakkaraju et Rudin (2016).
Si une qualité nécessaire de prévision n’est atteinte que par une algorithme opaque, quantifier l‘importance des variables ou caractéristiques. C’était déjà une proposition de Breiman (2001) pour l’algorithme des forêts aléatoires, elle est reprise pour l’algorithme plus récent d’extreme gradient boosting (Chen et Guestrin, 2016). Data et al. (2016) proposent un autre critère, mais applicable à toute méthode d’apprentissage, en vue du même objectif d’aide à l’interprétation.
Question
Quel est le niveau d’interprétabilité ou d’explicabilité demandé à une décision algorithmique?
Le décret d’application de la loi pour une République Numérique demande de fournir les informations suivantes si elle ne sont pas protégées par la loi:
- Le degré et le mode de contribution du traitement algorithmique à la prise de décision ;
- Les données traitées et leurs sources ;
- Les paramètres de traitement et, le cas échéant, leur pondération, appliqués à la situation de l’intéressé ;
- Les opérations effectuées par le traitement
En résumé, il semble bien qu’une décision administrative en France concernant une personne physique ne puisse pas se baser sur un algorithme d’apprentissage opaque.
Le règlement européen ne le précise pas. Qu’en sera-t-il de la jurisprudence?