|
Forums, dernières contributions
Questions sur un Projet Data Mining
Bonjour tlm, je suis un petit nouveau dans le milieu et j’ai besoin d’un coup de main pour me faire avancer. Voici le projet que j’aimerai mieux analyser :
Une banque me demande de cibler les meilleurs clients à appeler pour leur proposer un prêt. (Ceci est fictif, mais représentatif d’un de mes futurs projets, ou il y aura une 30ène de variables) :
Voici des variables :
N° Client
Nom Client
Code postal
N° Telephone
Statut du Client (employé/retraité/sans emploi)
Revenu par mois ($)
Date
Montant du prêt ($)
Nom Banquier
Taux d’intérêt sur le prêt
Type de taux (variable/fixe)
Acceptation du prêt par le banquier (OUI/NAN)
etc.etc.
Imaginons que la variable cible soit « l’Acceptation du prêt par la banque », pour appeler majoritairement les personnes à qui elle va réellement faire un prêt au final.
=> Quelles sont les algorithmes de data mining que je pourrai utiliser ? (A part l’arbre de décision).
=> Est-il possible de faire une classification (CAH ou kmeans) sur les individus ? En effet je ne comprends pas comment l’algorithme peut calculer les distances, sachant que les variables sont de types différents ?
Et puis je ne comprends pas le but final de regrouper les individus. Prenons l’exemple : ma CAH et mon dendrogramme m’indiquent qu’il y a 3 clusters principaux. Comment savoir quelles sont les similitudes des individus d’un même cluster ? Et puis en quoi cette classification peut m’aider à deviner quels clients, ou quel cluster, appeler ?
A moins que le but de la classification est d’appliquer ensuite mon arbre de décision sur chacun des clusters trouvé ?
=> De même une analyse en composante principale (ACP), est-ce que ça serait faisable et utile ?
=> Un réseau de neurones s’appliquerait-t-il sur cette base ?Si oui comment ? De même qu’un réseau bayésien ?
Je remercie mille fois la personne qui prendra le temps de me répondre, car la je bloque !
Arnaud
Arnaud,
ton pb est de faire un scoring : trois methodes principales
L'arbre de décision
La regression logistique (methode la plus utilisée)
Le reseau de neurone (très peu utilisé à ma connaissance)
Au final pour chaque client tu devrais obtenir une probabilité d'être dans la cible
Merci pour ces reponses, mais concretement avec quel logiciel et comment appliquer la regression logistique dans ce probleme ?
Et quelqu un a t il des reponses a mes questions sur la classification ?
|