Questions sur un Projet Data Mining

Arnaud

Mardi 27 Mars 2007

Version imprimable
[Ignorer]

Bonjour tlm, je suis un petit nouveau dans le milieu et j’ai besoin d’un coup de main pour me faire avancer. Voici le projet que j’aimerai mieux analyser :

Une banque me demande de cibler les meilleurs clients à appeler pour leur proposer un prêt. (Ceci est fictif, mais représentatif d’un de mes futurs projets, ou il y aura une 30ène de variables) :

Voici des variables :

N° Client
Nom Client
Code postal
N° Telephone
Statut du Client (employé/retraité/sans emploi)
Revenu par mois ($)
Date
Montant du prêt ($)
Nom Banquier
Taux d’intérêt sur le prêt
Type de taux (variable/fixe)
Acceptation du prêt par le banquier (OUI/NAN)
etc.etc.

Imaginons que la variable cible soit « l’Acceptation du prêt par la banque », pour appeler majoritairement les personnes à qui elle va réellement faire un prêt au final.

=> Quelles sont les algorithmes de data mining que je pourrai utiliser ? (A part l’arbre de décision).
=> Est-il possible de faire une classification (CAH ou kmeans) sur les individus ? En effet je ne comprends pas comment l’algorithme peut calculer les distances, sachant que les variables sont de types différents ?
Et puis je ne comprends pas le but final de regrouper les individus. Prenons l’exemple : ma CAH et mon dendrogramme m’indiquent qu’il y a 3 clusters principaux. Comment savoir quelles sont les similitudes des individus d’un même cluster ? Et puis en quoi cette classification peut m’aider à deviner quels clients, ou quel cluster, appeler ?
A moins que le but de la classification est d’appliquer ensuite mon arbre de décision sur chacun des clusters trouvé ?

=> De même une analyse en composante principale (ACP), est-ce que ça serait faisable et utile ?

=> Un réseau de neurones s’appliquerait-t-il sur cette base ?Si oui comment ? De même qu’un réseau bayésien ?

Je remercie mille fois la personne qui prendra le temps de me répondre, car la je bloque !

Arnaud

Bob le renard

Mercredi 28 Mars 2007

Version imprimable
[Ignorer]

Arnaud,

ton pb est de faire un scoring : trois methodes principales
L'arbre de décision
La regression logistique (methode la plus utilisée)
Le reseau de neurone (très peu utilisé à ma connaissance)

Au final pour chaque client tu devrais obtenir une probabilité d'être dans la cible

Arnaud

Vendredi 30 Mars 2007

Version imprimable
[Ignorer]

Merci pour ces reponses, mais concretement avec quel logiciel et comment appliquer la regression logistique dans ce probleme ?
Et quelqu un a t il des reponses a mes questions sur la classification ?