Le nombre de variables prédictives (features) pour un set de données est appelé sa dimension. La réduction de dimensionnalité fait référence aux techniques qui réduisent le nombre de variables dans un ensemble de données, ou encore projettent des données issues d'un espace de grande dimension dans un espace de plus petite dimension.
L'ensemble de données peut être un dataset contenant un grand nombre de colonnes et un tableau de points constituant une grande sphère dans un espace tridimensionnel. La réduction de dimensionnalité consiste donc à réduire le nombre de colonnes et à convertir la sphère en un cercle dans un espace bidimensionnel respectivement.
Nous vivons dans une ère où la donnée joue un rôle crucial dans la prise de décision. Plus on a de données stockées dans les bases, plus on a d’avantages par rapport au marché. Quel est donc l'intérêt de supprimer des variables prédictives avant d’alimenter les données dans l’algorithme d'apprentissage automatique ?
La réduction de dimensionnalité est une étape importante pour éviter la malédiction ou encore le fléau de la dimensionnalité (curse of dimensionality).
Malédiction / fléau de la dimensionnalité :
La malédiction de la dimensionnalité fait référence à tous les problèmes surgissant lors de la manipulation de données dans un espace de grande dimension, ce qui n’est pas le cas dans des espaces de dimensions inférieures.
A mesure que le nombre de variables prédictives augmente, le nombre d'échantillons augmente proportionnellement afin de collecter le maximum de pattern caché dans l’échantillon et d’avoir une prédiction précise. Cette relation de proportionnalité risque de rendre le modèle complexe, entraînant un surapprentissage (overfitting) qui dégrade la performance du modèle.
Le schéma ci-dessous résume l’idée :
Pourquoi réduire les dimensions dans des problèmes d'apprentissage automatique ?
La réduction de dimensionnalité est l’ensemble de techniques réduisant le nombre de variables prédictives dans les données d'apprentissage. Ceci peut être effectué après le nettoyage et la normalisation et avant l'entraînement afin de détecter les colonnes capturant l'essence de la donnée.
Comme mentionné précédemment, l’avantage principal de la réduction de dimensionnalité est d'éviter le surapprentissage. En effet, cette technique réduit le nombre de données trompeuses, les fonctionnalités redondantes et le bruit, ce qui améliore la performance du modèle. Un autre avantage est la simplification des hypothèses soulevées par le modèle, facilitant ainsi les traitements et améliorant le temps de calcul.
D'un point de vue stockage, la réduction de dimensionnalité permet de gagner en espace vu qu’une grosse partie de la donnée est filtrée avant l’entraînement. Si vous souhaitez être accompagné dans ce processus, contactez notre expertise Beyond Data !
Quelques techniques de réduction de dimension
Feature selection :
C'est l’approche la plus connue parmi celles de réduction de dimensionnalité, où on utilise des méthodes statistiques ou de notation pour sélectionner les colonnes pertinentes à conserver. Ce filtrage peut aussi être effectué manuellement, en utilisant le contexte. Par exemple, considérons un modèle qui prédit le poids des personnes. Une colonne décrivant la couleur des vêtements n’aide pas à prédire le poids, tandis qu’une colonne décrivant les hauteurs peut être pertinente pour la prédiction.
On distingue deux classes principales de techniques utilisées en feature selection: les méthodes d’encapsulation (wrapper methods) et les méthodes de filtrage (filter methods).
Les méthodes d’encapsulation enveloppent un modèle d’apprentissage automatique en ajustant et évaluant le modèle avec différents sous-ensemble de variables prédictives. Le sous-ensemble ayant la meilleure performance est ensuite sélectionné. Parmi les méthodes utilisées, on peut citer RFE (Recursive Feature Elimination).
Les méthodes de filtrage utilisent des méthodes de notation, telles que la corrélation entre la variable prédictive et la variable cible, pour sélectionner le sous-ensemble de variables prédictives ayant la plus forte corrélation. Il existe plusieurs méthodes de filtrage, comme par exemple l’ANOVA dans le cas des variables continues, Chi-Square pour les variables catégorielles, et la corrélation de Pearson.
Factorisation matricielle :
Ce sont des techniques d’algèbre linéaire utilisées pour réduire la dimension. Plus précisément, les méthodes de factorisation matricielles réduisent une matrice de données en ses parties constituantes, comme la composition en valeurs propres ou la décomposition en valeurs singulières. Afin de tirer les meilleurs résultats, il est conseillé de normaliser les données avant l’application de ces méthodes de calcul.
Les méthodes principales de réduction de dimensionnalité en algèbre linéaire sont:
PCA (Principal Component Analysis): qui consiste à transformer des variables corrélées en nouvelles variables décorrélées en projetant les données dans le sens de la variance croissante. Les variables avec la variance maximale sont les composants principaux.
LDA (Linear Discriminant Analysis): il s’agit d’expliquer et de prédire l’appartenance d’une observation à une classe prédéfinie à partir des caractéristiques des variables prédictives. Cette méthode projette les données de manière à maximiser la séparabilité des classes et donc à minimiser la variance. Ce qui fait que les exemples de la même classe sont rassemblés par la projection tandis que les exemples de différentes classes sont éloignés.
La figure ci-dessous souligne la différence entre les deux méthodes : PCA peut être décrit comme un algorithme « non supervisé », car il ignore les étiquettes de classe et cherche les directions (les composantes principales λ1, λ2) qui maximisent la variance dans un ensemble de données. Contrairement à PCA, LDA est « supervisé » et calcule les directions (« discriminants linéaires ») qui représenteront les axes maximisant la séparation entre les classes (la classe bleue et le classe verte projeté sur l’axe horizontal).
Conclusion :
Dans cet article, on a présenté la réduction de dimensionnalité en Machine Learning comme une étape importante du nettoyage de données. Cette technique consiste à diminuer le nombre de variables prédictives à l'entrée du modèle afin d’éviter le fléau de la dimensionnalité et le surapprentissage. Différentes méthodes ont été proposées dont notamment feature selection, feature engineering, et les méthodes d’algèbre linéaire (PCA,LDA).
J'espère que cet article vous aidera à bien comprendre les notions de base de la réduction de dimensionnalité et vous permettra d’en tirer les meilleures pratiques.