Explicabilité des décisions algorithmiques

 

Contexte juridique

La législation française (Loi pour une république numérique)  imposent de devoir expliquer une décision administrative obtenue par un traitement automatique. Le décret d’application semble très contraignant sur la précision de celle-ci. De son côté le règlement européen imposera la nécesité d’une explication, même pour un profilage, lorsque la personne physique qui est impactée le demande. Cela peut concerner l’emploi, l’éducation, la santé, l’assurance, le traitement judiciaire, un emprunt… de cette personne.

Le règlement européen ne précise pas un niveau d’explication alors que, schématiquement, deux situations peuvent être caractérisées.

Définitions : explicabilité vs. interprétabilité

  1. Une décision algorithmique est dite explicable s’il est possible d’en rendre compte explicitement à partir de données et caractéristiques connues de la situation. Autrement dit, s’il est possible de mettre en relation les valeurs prises par certaines variables (les caractéristiques) et leurs conséquences  sur la prévision, par exemple d’un score, et ainsi sur la décision.
  2. Une décision algorithmique est dite interprétable s’il est possible d’identifier les caractéristiques ou variables qui participent le plus à la décision, voire même d’en quantifier l’importance.

Décision par apprentissage machine

Les algorithmes concernés sont basés sur des méthodes à l’interface entre disciplines Mathématiques (Statistique) et Informatique (Intelligence Artificielle) et sont d’une très grande diversité. Les méthodes d’apprentissage peuvent être structurées en deux groupes selon qu’elles conduisent, par construction, à un modèle explicite ou à une boîte noire.

Dans le premier cas, le choix a priori d’un type de méthode ou de modèle conduit à une possibilité d’explication de la décision. Dans le 2ème cas, une fois déterminée la méthode conduisant à la meilleure prévision, des indicateurs d’importance sont calculés, a postériori.

Par construction, une décision explicable est interprétable. Mais, dans le cas d’un algorithme opaque, il devient impossible de mettre simplement en relation des valeurs ou des caractéristiques avec le résultat de la décision, notamment en cas de modèle non linéaire ou avec interactions. Telle valeur élevée d’une variable peut conduire à une décision  dans un sens ou dans un autre selon la valeur prise par une une autre variable non identifiable, voire même une combinaison complexe d’autres variables.

 Mise en Œuvre

Entre les deux stratégies, explicabilité vs. interprétabilité, tout est question d’objectif et de recherche d’un meilleur compromis  entre niveau de compréhension et  qualité de prévision.

Si l’explication est privilégiée, la stratégie consiste à recherche le modèle explicable dégradant le moins possible la qualité de prévision. Voir par exemple les efforts de Lakkaraju et Rudin (2016).

Si une qualité nécessaire de prévision n’est atteinte que par une algorithme opaque, quantifier l‘importance des variables ou caractéristiques. C’était déjà une proposition de Breiman (2001) pour l’algorithme des forêts aléatoires, elle est reprise pour l’algorithme plus récent d’extreme gradient boosting (Chen et Guestrin, 2016). Data et al.  (2016) proposent un autre critère, mais applicable à toute méthode d’apprentissage, en vue du même objectif d’aide à l’interprétation.

Question

Quel est le niveau d’interprétabilité ou d’explicabilité demandé à une décision algorithmique?

Le décret d’application de la loi pour une République Numérique demande de fournir les informations suivantes si elle ne sont pas protégées par la loi:

  1. Le degré et le mode de contribution du traitement algorithmique à la prise de décision ;
  2. Les données traitées et leurs sources ;
  3. Les paramètres de traitement et, le cas échéant, leur pondération, appliqués à la situation de l’intéressé ;
  4. Les opérations effectuées par le traitement

En résumé, il semble bien qu’une décision administrative en France concernant une personne physique ne puisse pas se baser sur un algorithme d’apprentissage  opaque.

Le règlement européen ne le précise pas. Qu’en sera-t-il de la jurisprudence?

Références

Breiman L. (2001). Random forest, Machine Learning., 4 pp 5-32.
Chen T., Guestrin C. (2016). XGBoost: A Scalable Tree Boosting System. In 22nd SIGKDD Conference on Knowledge Discovery and Data Mining.
Datta A., Sen S.,  Zick Y. (2016). Algorithmic Transparency via Quantitative Input Influence: Theory and Experiments with Learning Systems, IEEE Symposium on Security and Privacy.
Lakkaraju H. et Rudin C. (2016). Learning Cost-Effective and Interpretable Treatment Regimes for Judicial Bail Decisions, NIPS, Barcelone.
 
Mentions Légales