Quel est le sujet ici ?
Google, Facebook, Yahoo, etc ... toutes ces sociétés recueillent un nombre de données très important sur vous. Ils ne revendent pas directement les données personnelles (pour la plupart) en revanche, ils savent en faire un très bon usage, en tirer des analyses très précises, et en retirer des informations qui sont susceptibles de leur faire gagner de l'argent en dressant votre profil pour vous proposer des produits, des publicités, des liens qui s'adaptent à vous. Ainsi, quand vous effectuez une recherche, les publicités ou liens sponsorisés ne sont pas affichés uniquement en fonction de votre recherche, mais en fonction de votre recherche ET de votre profil.
L'analyse de mots-clés
L'analyse de mot-clé est très simple à comprendre, vous effectuez une recherche, le moteur de recherche vous présente des résultats liés à cette recherche, et en même temps, vous propose des publicités, ou des « liens sponsorisés » qui correspondent aux mot-clés.
Exemple : vous recherchez "meuble 16ème".
Dans les résultats de la recherche, les liens sponsorisés ou les publicités vous devriez retrouver des informations sur la location de studios meublés dans le 16ème arrondissement de Paris ou des sites d' achat/vente ou de présentation de mobilier ancien.
Ce n'est pas du tout la même chose, certes, mais les deux sujets correspondent parfaitement aux mots-clés. L'analyse simple de mots clés a donc des limites : il n'est pas possible de lever les ambiguïtés lorsque les mots employés appartiennent à plusieurs champs lexicaux (ici 16ème appartient au champ lexical de la localisation géographique sur Paris, et à celui du temps, de l'histoire.)
« L'analyse » de mots clés n'est pas vraiment une analyse en fait, c'est une comparaison et une association de mots-clés. Il n'y a pas de traitement de données, pas d'interprétation,.
L'analyse de données
L'analyse de données (a.k.a. fouille de données, data mining, etc...) est plus complexe à mettre en œuvre. Il faut dans un premier temps recueillir des informations sur un utilisateur : les profils que vous remplissez lors de l'inscription à de nouveaux services ou lors d'achats, ou plus simple : l'utilisation de cookies (DoubleClick, AdRevolver, BlueStreak, FastClick, ...)
Mais il n'est pas possible (ou plutôt, ce n'est pas pertinent) d'essayer d'interpréter des données d'un unique individu, pour pouvoir dresser votre profil et anticiper votre comportement, il faut d'abord recueillir un grand nombre de données sur un large échantillon d'utilisateurs et dresser des profils-type. Là, nous rentrons dans le domaine des mathématiques. La méthode que je connais le mieux est l'analyse en composante principale (ACP) mais je serai incapable de la ré-appliquer sans réviser mes bases d'algèbre et notamment de calcul matriciel. ;-)
« La stratégie adoptée par l'ACP consiste à rechercher de "bons" plans de projection sur lesquels le nuage des individus est projeté. L'analyse des proximités des points projetés sur ces plans suggérera des classes », H. Ralambondrainy (professeur à l'Université de la Réunion, 18/10/2004)Pour essayer de résumer de manière simple, on cherche à corréler différentes données des utilisateurs et lorsque nous observons un nuage de point d'une densité significative, on à alors une classe, c'est à dire une corrélation forte entre les données : des individus présentant un comportement similaire vis à vis des données étudiées.
Exemple : Imaginons avoir un grand nombre de données sur un groupe d'individus dont l'échantillon suivant : tranche de salaire, tranche d'âge, profession, est propriétaire d'une maison ?. À force de recherche, on trouve une forte corrélation sur ces données particulières : les gens ayant un salaire très haut et appartenant plutôt à un type de profession et un âge supérieur à 35 ans avec un fort salaire sont généralement propriétaires. Nous obtenons donc là une classe. Lors d'une recherche "meuble 16ème", il sera plus judicieux de mettre en évidence le mobilier du XVIème siècle dans les résultats de recherches et les publicités contextuelles que des agences qui proposent des locations d'appartement dans le XVIème arrondissement de Paris.
Attention, j'ai été très bref et superficiel dans la manière de présenter les choses, l'analyse de données est quelque chose de complexe et qui peut/doit s'affiner à chaque fois que de nouvelles variables entre en jeu.
Imaginez la masse de données qu'une société comme Google, au travers de sa nébuleuse de service, peut recueillir sur ses utilisateurs.
Une fois que des profils-types ou comportements sont catégorisés (les classes), un individu particulier est complètement cerné via ses données personnelles, ses recherches, ses communications, ses horaires et la fréquence de ses connexions, sa localisation géographique, il est possible de prévoir avec une marge d'erreur relativement faible ce dont cet individu peut avoir besoin, et notamment désambiguïser une recherche dont les termes peuvent appartenir à plusieurs champs lexicaux.
"Le datamining, va devenir un enjeux énorme dans les stratégies d'entreprise"
Voici ce que notre professeur nous avait dit (pas exactement en ces termes, je ne m'en souviens plus exactement) en 2004, c'était déjà vrai à l'époque, c'est encore beaucoup plus vrai aujourd'hui. C'est certainement l'un des axes les plus important des stratégies de marketing aujourd'hui.
Je pense que les analystes sont aujourd'hui très recherchés, je suis même persuadé qu'une personne avec des compétences dans le domaine de la fouille de données et un bagage varié concernant les méthodes possibles à appliquer ne doit pas avoir énormément de difficulté à trouver un emploi. (Mais n'hésitez pas à infirmer ou confirmer mes propos dans les commentaires)
D'ailleurs, ces méthodes peuvent s'utiliser dans bien d'autres domaines : météorologie, militaire, médecine, ... dans tous les domaines où on sait enregistrer un grand nombre de données par les observations et où il est utile et/ou nécessaire de dresser des profils pour ensuite anticiper sur ce qui peut se passer lorsqu'un "nouvel individu" (= un nouveau jeu de données, une nouvelle situation) se présente.

2 commentaires:
Dire que j'avais réussi à oublier certains passages douloureux de ma vie étudiante... Merci bien hein ! ;-)
"une personne avec des compétences dans le domaine de la fouille de données et un bagage varié concernant les méthodes possibles à appliquer ne doit pas avoir énormément de difficulté à trouver un emploi."
Vu la formation pour avoir des compétences en fouille de données, rares doivent être les personnes avec une capacité a trouver des applications "IRL". ;-)
Je pense que généralement, les experts en fouille sont dissociés de ceux qui y trouvent une utilité. Et aucun de ces deux là ne peut vivre sans de vraies données, nombreuses et de qualité. En bref, peu de chances de débouchés dans les TPE et PME selon moi ?
Oui c'est pas faux, c'est un marché pour les "poids lourds" du domaine. Ceux qui ont les moyens de recueillir (ou d'acheter) massivement ces données.
Et désolé pour les passages remémorés, mais j'ai tendance à beaucoup plus les apprécier avec du recul. Nostalgie, quand tu nous tiens .... :D
Enregistrer un commentaire