RNTI

MODULAD
D�tection de groupes atypiques pour une variable cible quantitative
In EGC 2008, vol. RNTI-E-11, pp.397-408
Résumé
Une t�che importante en analyse des donn�es est la compr�hension de comportements inattendus ou atypiques de groupes d'individus. Quelles sont les cat�gories d'individus qui gagnent de particuli�rement forts salaires ou au contraire, quelles sont celles qui ont de tr�s faibles salaires ? Nous pr�sentons le probl�me d'extraction de tels groupes atypiques vis-�-vis d'une variable cible quantitative, comme par exemple la variable "salaire", et plus particuli�rement pour les faibles et fortes valeurs d'un intervalle d�termin� par l'utilisateur. Il s'agit donc de rechercher des conjonctions de variables dont la distribution diff�re significativement de celle de l'ensemble d'apprentissage pour les faibles et fortes valeurs de l'intervalle de cette variable cible. Une adaptation d'une mesure statistique existante, l'intensit� d'inclination, nous permet de d�couvrir de tels groupes atypiques. Cette mesure nous lib�re de l'�tape de transformation des variables quantitatives, � savoir l'�tape de discr�tisation suivie d'un codage disjonctif complet. Nous proposons donc un algorithme d'extraction de tels groupes avec des r�gles d'�lagage pour r�duire la complexit� du probl�me. Cet algorithme a �t� d�velopp� et int�gr� au logiciel d'extraction de connaissances WEKA. Nous terminons par un exemple d'extraction sur la base de donn�es IPUMS du bureau de recensement am�ricain.