vendredi 23 avril 2010

Que sait Google sur vous?

Voir le site en source?


Quelles données sont récoltées par Google ? À chaque fois qu'un internaute se connecte sur un service de Google, le serveur enregistre un "log" (journal) de l'échange de données qui en découle. À quoi cela ressemble-t-il ? À deux lignes incompréhensibles de ce type [les données ont été modifiées, ndlr] : 
123.45.67.89 - 25/Mar/2007 10:15:32 - http://www.google.com/search?q=flowers - 
Firefox 2.0.0.7; Windows NT 5.1 - dac465aa86edd2dc 

La série de quatre nombres est l'adresse IP de l'internaute : elle permet d'identifier la connexion depuis laquelle l'utilisateur se connecte. L'internaute est, quant à lui, identifié par Google s'il se connecte à un compte nominatif. Puis viennent la date et l'heure de la connexion, suivies de l'adresse exacte consultée. "Ici, il s'agit d'une recherche sur le termefleurs dans le moteur de recherche", explique Alma Whitten. La seconde ligne correspond à la version du navigateur (Firefox 2), au système d'exploitation (Windows NT 5.1 est le nom de code de Windows XP). Enfin, la série de chiffres et de lettres est l'identifiant du cookie. Un cookie est un petit fichier que Google enregistre sur l'ordinateur de l'utilisateur afin de l'identifier lorsqu'il se connectera à nouveau, quelques instants, quelques jours ou quelques mois plus tard. Il contient les préférences de langue, de domaine et de sécurité de l'utilisateur, et permet à l'entreprise d'optimiser l'affichage des publicités, vendues alors plus cher. 

Combien de temps ? "L'adresse IP est anonymisée au bout de 9 mois", indique Alma Whitten. Google supprime alors le dernier nombre, ce qui rend très difficile l'identification de l'utilisateur (mais pas impossible). Grâce à cela, Google peut conserver les premiers nombres et continuer d'utiliser les données à des fins statistiques. Et la statistique, c'est le nerf de la guerre, car plus les serveurs de Google dévorent des données, plus les services sont adaptés aux utilisateurs (et plus les publicités se vendent cher). "Nos serveurs apprennent grâce aux 'gentils' internautes, qui utilisent le système comme il faut, alors que nous combattons les 'méchants' internautes, qui veulent souvent influencer le système", explique la responsable de Google, opposant les "good guys" aux "bad guys". Du côté des cookies, en revanche, la suppression n'a lieu qu'au bout de 18 mois. "Nous devons pouvoir comparer les données d'une année sur l'autre, c'est stratégique", explique Alma Whitten. "En revanche, nous avons accepté de renoncer aux comparaisons sur des périodes de plus d'un an, même si cela aurait été utile pour les élections, par exemple", poursuit-elle. Certains concurrents, comme Microsoft , se contentent de conserver six mois les adresses IP. 

Contrôler les données associées à son compte. Grâce à Dashboard (tableau de bord, voir la vidéo ci-dessous), lancé en novembre 2009, Google permet à ses utilisateurs de contrôler les données associées à leur compte. Ou presque. "Les utilisateurs peuvent voir quelles informations sont là", plaide Alma Whitten, dont l'équipe a développé Dashboard. Malgré une certaine volonté d'ouverture, Google ne propose pas encore une interface très simple pour effacer ses données. Même la suppression totale du compte ne suffit pas, car tout n'est pas aussi simple que cela, selon Google : "Nous devons prévoir des délais avant d'effacer effectivement les données", explique l'ingénieure, évoquant des cas où des internautes se sont fait passer pour leur ex-compagnon/compagne et ont essayé de tout effacer dans leur compte. "Les gens doivent pouvoir nous avertir et dire 'Non ! Ne supprimez pas tout ! J'ai besoin de ces données !'", renchérit-elle encore. Pour Gmail, par exemple, il faut attendre 30 à 60 jours pour que tout soit réellement effacé. Et ce délai varie en fonction de chaque service de Google, sans qu'une règle ne régisse l'ensemble. "Il n'y a pas actuellement de bouton rouge pour tout supprimer", regrette Alma Whitten. Dommage, car pour rassurer les utilisateurs, il suffirait que la suppression complète de toutes les données liées à un compte soit facile. Mais cela impliquerait que Google renonce à de précieux téra-octets de données. 

  Rejoignez la communauté SCIencextrA . .

 . BlogBang .

    Choose :
  • OR
  • To comment
Aucun commentaire:
Write comments