Segmenter et Modéliser malgré des données manquantes avec NIPALS


Rédigé par Samuel DODE le 5 Février 2007

L’une des grandes difficultés d’un analyste est de pouvoir traiter statistiquement les fichiers présentant des données manquantes en grande quantité, ou des données mal conditionnées (plus de variables que d’observations).



L’algorithme itératif NIPALS (Nonlinear Estimation by Iterative Partial Least Squares) est un des outils les plus puissants en analyse de données manquantes. Cet algorithme permet de calculer les facteurs (variables latentes) de l’ACP et de la PLS avec des temps de calcul extrêmement courts même pour de grosses volumétries de données. Utilisant la formule de reconstitution des données manquantes, cet algorithme est à la base des techniques de PLS initiées par Herman Wold en 1966. L’ACP diffère de la PLS en ce sens qu’elle ne concerne qu’un seul ensemble de variables alors que la PLS permet de construire des modèles de prédiction entre deux blocs X (variables explicatives) et Y (variables expliquées).
Cet algorithme est bien adapté quand les variables présentent des fortes colinéarités ou quand leur nombre est très élevé pouvant même dépasser celui des individus. Cet avantage peut cependant devenir un handicap si l'utilisateur, trop confiant dans les performances de la méthode, ne se soucie guère de diminuer le nombre des variables explicatives dans les modèles qu'il cherche à construire. Il est primordial de ne garder que les variables les plus "significatives" dans ces modèles faute de quoi ceux-ci peuvent être sur-ajustés et/ou d'interprétation confuse.

STATISTICA intègre cet algorithme dans le module Modèles Linéaires/Non Linéaires Avancés ainsi que dans le module pour MSP Multidimensionnelle pour l’utilisation des techniques d’ACP et de PLS temporelle ou par batch.



Dans la même rubrique :