Actualités : analyse de données, Business Intelligence, Data Science, Big Data


Segmenter et Modéliser malgré des données manquantes avec NIPALS


Rédigé par Samuel DODE le 5 Février 2007

L’une des grandes difficultés d’un analyste est de pouvoir traiter statistiquement les fichiers présentant des données manquantes en grande quantité, ou des données mal conditionnées (plus de variables que d’observations).



Segmenter et Modéliser malgré des données manquantes avec NIPALS
L’algorithme itératif NIPALS (Nonlinear Estimation by Iterative Partial Least Squares) est un des outils les plus puissants en analyse de données manquantes. Cet algorithme permet de calculer les facteurs (variables latentes) de l’ACP et de la PLS avec des temps de calcul extrêmement courts même pour de grosses volumétries de données. Utilisant la formule de reconstitution des données manquantes, cet algorithme est à la base des techniques de PLS initiées par Herman Wold en 1966. L’ACP diffère de la PLS en ce sens qu’elle ne concerne qu’un seul ensemble de variables alors que la PLS permet de construire des modèles de prédiction entre deux blocs X (variables explicatives) et Y (variables expliquées).
Cet algorithme est bien adapté quand les variables présentent des fortes colinéarités ou quand leur nombre est très élevé pouvant même dépasser celui des individus. Cet avantage peut cependant devenir un handicap si l'utilisateur, trop confiant dans les performances de la méthode, ne se soucie guère de diminuer le nombre des variables explicatives dans les modèles qu'il cherche à construire. Il est primordial de ne garder que les variables les plus "significatives" dans ces modèles faute de quoi ceux-ci peuvent être sur-ajustés et/ou d'interprétation confuse.

STATISTICA intègre cet algorithme dans le module Modèles Linéaires/Non Linéaires Avancés ainsi que dans le module pour MSP Multidimensionnelle pour l’utilisation des techniques d’ACP et de PLS temporelle ou par batch.




Commentaires

1.Posté par Philippe Nieuwbourg le 12/02/2007 18:55
Suite à plusieurs demandes, voici les coordonnées de Samuel DODE pour ceux qui souhaiteraient entrer en contact avec lui :
Samuel DODÉ
sdode@statsoft.com
01 45 185 132

2.Posté par Valderama le 25/03/2007 01:43
Il me semble surtout que l'analyse PLS est une régression.
A rapprocher de l'algorithme MIRWPLS (Multi-logit Iteratively ReWeighted Least Squares) qui est inclus dans le package gpls de R, et qui permet de faire des classifications sur la base des moindres carrés partiels. La régresion PCA permet aussi de prendre compte de deux blocs de variable tout comme l'analyse des correspondances ;)

Par contre, quelle est la différence avec l'algorithme EM qui permet aussi de faire de l'imputation de valeurs manquantes ?

Cordialement,
Laurent

3.Posté par boye le 15/05/2007 11:47
Bonjour, je traite des gros volumes de données en temps réel ,pensez vous qu'il est possible d'intégrer et d 'automatiser un algorithme de nipals pour la gestion des données manquantes.
Merci



Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store