Méthodes d’Apprentissage Machine
Principe
Toutes ces méthodes font appel à une première étape d’estimation ou d’apprentissage d’un modèle basée sur un ensemble de données, par exemple d’individus, pour lesquels sont connus un ensemble de caractéristiques ou variables explicatives ainsi que les valeurs de la variable cible (la décision) à expliquer ou prévoir. Bien entendu la qualité, plus que la quantité, des ces données d’apprentissage conditionne directement la qualité de l’estimation des paramètres du modèle et donc de la prévision / décision à venir pour d’autres observations, individus pour lesquels elle est inconnue.
Elles sont schématiquement décomposées en deux groupes selon l’objectif d’explicabilité.
Modèles explicites
- Modèles linéaires gaussien, binomial. Issues de la statistique classique, ces méthodes sont à l’origine à but explicatif: tester l’influence ou non d’un facteur, d’une variable, sur une autre à modéliser, expliquer. Indépendamment des tests et des hypothèses nécessaires, ces mèmes modèles sont utilisés pour prévoir, guider la décision. La prévision est le résultat d’une équation (linéaire, polynomiale, logistique…) dont les paramètres sont estimées sur les données et qui permet de relier plus ou moins simplement, directement, les caractéristiques avec la décision.
- Arbres binaires de décision. Construire de façon récursive une arborescence de règles de décision binaires par l’optimisation d’un critère qui recherche la meilleure prévision dans chaque nœud puis chaque feuille de l’arbre. Pour prévoir la valeur pour une nouvelle observation, un nouvel individu, il suffit de suivre la séquence des décisions le concernant à partir des caractéristiques connues. A moins que l’arbre ne soit trop complexe: trop profond, trop de feuilles, l’interprétation est directe et même plus intuitive que la lecture d’une équation.
Modèles boîte noire
- Algorithmes des k plus proches voisins. La prévision de la valeur prises par une nouvelle observation est déterminée par les valeurs prises par ses voisins au sens d’une distance dépendant des cactéristiques. La relation entre caractéristiques initiales et décision est perdue. Il est simplement possible de dire que telle décision est due au fait que l’individu concerné « ressemble » à un ensemble d’autres.
- Réseaux de neurones. Dans la version la plus élémentaire, le perceptron à une seul couche cachée conduit à estimer une fonction transformation non linéaire d’une combinaison linéaire de transformations non linéaires. Il est possible de repérer quelles sont les variables ou caractéristiques importantes mais impossible de relier simplement les entrées du réseau (les caractéristiques) avec la sortie, la décision. En interconnectant des couches par dizaines, le maintenant très célèbre apprentissage profond ne fait que qu’opacifier l’interprétation.
- Agrégation de modèles. Sous les appellations de bagging, boosting, gradient boosting, random forest, ces algorithmes font voter (décision qualitative) ou calcule la moyenne (prévision quantitative) de centaines d’arbres binaires du type définis ci-dessus. L’interprétation intuitive d’un arbre seul est perdue même s’il reste possible d’identifier les variables importantes participant le plus à la décision.
- Machine à vecteurs supports; Solution d’un problème d’optimisation quadratique sous contrainte, cet algorithme fournit une décision mais ne permet que d’identifier les individus critiques, ceux qui permettent de définit la frontière entre les classes de décision.