Démystifier le mythe des données « anonymes »

Aujourd’hui, presque tout ce qui concerne nos vies est enregistré numériquement et stocké quelque part. Chaque achat par carte de crédit, diagnostic médical personnel et préférence en matière de musique et de livres est enregistré puis utilisé pour prédire ce que nous aimons et n’aimons pas et, en fin de compte, qui nous sommes. 

Cela se produit souvent à notre insu ou sans notre consentement. Les informations personnelles que les entreprises collectent à partir de nos comportements en ligne se vendent avec des profits étonnants et incitent les acteurs en ligne à en collecter autant que possible. Chaque clic de souris et chaque balayage d’écran peuvent être suivis puis vendus aux sociétés de technologie publicitaire et aux courtiers en données qui les entretiennent. 

Pour tenter de justifier cet écosystème de surveillance omniprésent, les entreprises prétendent souvent anonymiser nos données. Ceci est censé supprimer toutes les informations personnelles (telles que le nom d’une personne) du point de données (comme le fait qu’une personne anonyme a acheté un médicament particulier à un moment et un lieu particuliers). Les données personnelles peuvent également être regroupées, les données concernant plusieurs personnes étant combinées dans le but de supprimer les informations d’identification personnelle et de protéger ainsi la vie privée des utilisateurs. 

Parfois, les entreprises affirment que nos données personnelles sont « anonymisées », ce qui implique un accès à sens unique où elles ne peuvent jamais être désagrégées ni réidentifiées. Mais cela n’est pas possible : les données anonymes le restent rarement. Comme le résume succinctement le professeur Matt Blaze, expert dans le domaine de la cryptographie et de la confidentialité des données : « quelque chose qui semble anonyme, le plus souvent, ne l’est pas, même s’il est conçu avec les meilleures intentions ». 

Anonymisation… et ré-identification ?

Les données personnelles peuvent être considérées sur un spectre d’identifiabilité . En haut se trouvent les données qui peuvent identifier directement les personnes, comme un nom ou un numéro d’identité d’État, que l’on peut appeler des « identifiants directs ». Viennent ensuite les informations indirectement liées aux individus, comme les numéros de téléphone personnels et les adresses e-mail, que certains appellent des « identifiants indirects ». Viennent ensuite les données liées à plusieurs personnes, comme un restaurant ou un film préféré. À l’autre extrémité de ce spectre se trouvent les informations qui ne peuvent être liées à une personne en particulier, comme les données de recensement agrégées et les données qui ne sont pas du tout directement liées aux individus, comme les bulletins météorologiques.

L’anonymisation des données est souvent entreprise de deux manières . Premièrement, certains identifiants personnels tels que nos noms et numéros de sécurité sociale peuvent être supprimés. Deuxièmement, d’autres catégories d’informations personnelles peuvent être modifiées, par exemple en masquant nos numéros de compte bancaire. Par exemple, la disposition Safe Harbor contenue dans la loi américaine HIPAA (Health Insurance Portability and Accountability Act) exige que seuls les trois premiers chiffres d’un code postal puissent être déclarés dans les données nettoyées.

Cependant, dans la pratique, toute tentative de désidentification nécessite la suppression non seulement de vos informations identifiables, mais également des informations permettant de vous identifier lorsqu’elles sont considérées en combinaison avec d’autres informations connues vous concernant. Voici un exemple : 

  • Tout d’abord, pensez au nombre de personnes qui partagent votre code postal ou votre code postal spécifique. 
  • Ensuite, pensez au nombre de ces personnes qui partagent également votre anniversaire. 
  • Maintenant, pensez au nombre de personnes partageant votre date de naissance exacte, votre code postal et votre sexe. 

Selon une étude historique , ces trois caractéristiques suffisent à identifier de manière unique 87 % de la population américaine. Une autre étude a montré que 63 % de la population américaine peut être identifiée de manière unique à partir de ces trois faits.

Nous ne pouvons pas faire confiance aux entreprises pour s’autoréglementer. L’avantage financier et l’utilité commerciale de nos données personnelles l’emportent souvent sur notre vie privée et notre anonymat. En réobtenant l’identité réelle de la personne impliquée (identifiant direct) ainsi que ses préférences (identifiant indirect), les entreprises sont en mesure de continuer à profiter de nos informations les plus sensibles. Par exemple, un site Web qui demande à des utilisateurs soi-disant « anonymes » des informations apparemment triviales sur eux-mêmes peut être en mesure d’utiliser ces informations pour créer un profil unique pour un individu. 

Surveillance de localisation

Pour comprendre ce système en pratique, nous pouvons examiner les données de localisation . Cela inclut les données collectées par les applications sur votre appareil mobile concernant vos déplacements : depuis vos déplacements hebdomadaires dans votre supermarché local jusqu’à votre dernier rendez-vous dans un centre de santé, une clinique d’immigration ou une réunion de planification de manifestation. La collecte de ces données de localisation sur nos appareils est suffisamment précise pour que les forces de l’ordre puissent placer des suspects sur les lieux d’un crime et pour que les jurys condamnent les personnes sur la base de ces preuves. De plus, toutes les données personnelles collectées par le gouvernement peuvent être utilisées à mauvais escient par ses employés, volées par des criminels ou des gouvernements étrangers, et utilisées de manière imprévisible par les dirigeants des agences à de nouvelles fins néfastes . Et trop souvent , une telle surveillance de haute technologie pèse de manière disparate sur les personnes de couleur   .

En pratique, il n’existe aucun moyen d’anonymiser les données de localisation individuelles puisque ces points de données servent eux-mêmes d’identifiants personnels uniques. Et même lorsque les données de localisation sont censées avoir été anonymisées, la réidentification peut être obtenue en corrélant les données anonymisées avec d’autres données accessibles au public telles que les listes électorales ou les informations vendues par des courtiers en données . Une étude de 2013 a révélé que les chercheurs pouvaient identifier de manière unique 50 % des personnes en utilisant seulement deux points de données de temps et de lieu choisis au hasard. 

Bien réalisée, l’agrégation des données de localisation peut contribuer à préserver nos droits personnels à la vie privée en produisant des décomptes non individualisés de comportements au lieu de chronologies détaillées de l’historique de localisation individuel. Par exemple, une agrégation peut vous indiquer combien de téléphones de personnes ont indiqué leur emplacement comme étant dans une certaine ville au cours du mois dernier, mais pas le numéro de téléphone exact ni d’autres points de données qui vous connecteraient directement et personnellement. Cependant, les experts chargés de l’agrégation sont souvent soumis à des pressions pour générer des ensembles de données agrégées granulaires qui pourraient être plus significatives pour un décideur particulier, mais qui exposent simultanément les individus à une érosion de leur vie privée.  

De plus, la plupart des services de localisation tiers sont conçus pour créer des profils de personnes réelles. Cela signifie que chaque fois qu’un tracker collecte une information, il a besoin de quelque chose pour relier cette information à une personne en particulier. Cela peut se produire indirectement en corrélant les données collectées avec un appareil ou un navigateur particulier , qui pourraient ensuite être corrélées à une personne ou à un groupe de personnes, comme un foyer. Les trackers peuvent également utiliser des identifiants artificiels, comme des identifiants publicitaires mobiles et des cookies pour atteindre les utilisateurs avec des messages ciblés. Et les profils « anonymes » d’informations personnelles peuvent presque toujours être liés à de vraies personnes , y compris l’endroit où elles vivent, ce qu’elles lisent et ce qu’elles achètent.

Pour les courtiers en données qui traitent nos informations personnelles, nos données peuvent être soit utiles à des fins lucratives, soit véritablement anonymes, mais pas les deux. L’EFF s’oppose depuis longtemps aux programmes de surveillance géographique qui peuvent transformer nos vies en livres ouverts soumis à l’examen de la police, des annonceurs basés sur la surveillance, des voleurs d’identité et des harceleurs. Nous dénonçons également depuis longtemps la fausse anonymisation . 

En matière de politique publique, il est essentiel que la vie privée des utilisateurs ne soit pas sacrifiée au profit du remplissage des poches des entreprises. Et pour tout plan de partage de données, le consentement est essentiel : chaque personne a-t-elle consenti à la méthode de collecte des données et à l’utilisation particulière ? Le consentement doit être spécifique, éclairé, volontaire et volontaire. PAR 

PAIGE COLLINGS

CET ARTICLE A ÉTÉ PUBLIÉ EN PARTENARIAT AVEC EFF