Bonjour tlm, je suis un petit nouveau dans le milieu et j’ai besoin d’un coup de main pour me faire avancer. Voici le projet que j’aimerai mieux analyser :
Une banque me demande de cibler les meilleurs clients à appeler pour leur proposer un prêt. (Ceci est fictif, mais représentatif d’un de mes futurs projets, ou il y aura une 30ène de variables) :
Voici des variables :
N° Client
Nom Client
Code postal
N° Telephone
Statut du Client (employé/retraité/sans emploi)
Revenu par mois ($)
Date
Montant du prêt ($)
Nom Banquier
Taux d’intérêt sur le prêt
Type de taux (variable/fixe)
Acceptation du prêt par le banquier (OUI/NAN)
etc.etc.
Imaginons que la variable cible soit « l’Acceptation du prêt par la banque », pour appeler majoritairement les personnes à qui elle va réellement faire un prêt au final.
=> Quelles sont les algorithmes de data mining que je pourrai utiliser ? (A part l’arbre de décision).
=> Est-il possible de faire une classification (CAH ou kmeans) sur les individus ? En effet je ne comprends pas comment l’algorithme peut calculer les distances, sachant que les variables sont de types différents ?
Et puis je ne comprends pas le but final de regrouper les individus. Prenons l’exemple : ma CAH et mon dendrogramme m’indiquent qu’il y a 3 clusters principaux. Comment savoir quelles sont les similitudes des individus d’un même cluster ? Et puis en quoi cette classification peut m’aider à deviner quels clients, ou quel cluster, appeler ?
A moins que le but de la classification est d’appliquer ensuite mon arbre de décision sur chacun des clusters trouvé ?
=> De même une analyse en composante principale (ACP), est-ce que ça serait faisable et utile ?
=> Un réseau de neurones s’appliquerait-t-il sur cette base ?Si oui comment ? De même qu’un réseau bayésien ?
Je remercie mille fois la personne qui prendra le temps de me répondre, car la je bloque !
Arnaud