Gêne dans les données : déséquilibre entre les besoins de la recherche et le droit à l’anonymat

1. La recherche

Pour l’instant il est de la dernière mode de parler de «Big Data». Les grands ensembles de stockage de données sont seulement la conséquence logique de la numérisation continuelle de notre société. Tous les recoins de nos vies sont à présent branchés sur des réseaux, et dans ces réseaux tombent naturellement de plus en plus de données.

Les grandes entreprises et les services secrets accumulent depuis longtemps d’immenses bases de données. Les banques vérifient les comptes de leurs clients en calculant si leur comportement est statistiquement normal. La chaîne de supermarché américaines Wallmart traitait il a deux ans un million de transactions par heure. Facebook sauvegarde plus de 200 milliards de photos d’utilisateurs, et 10 millions s’y rajoutent chaque jour. Facebook y scanne les visages de ses clients et entraîne ainsi ses propres algorithmes de reconnaissance faciale. L’Agence de la Sécurité Nationale américaine construit dans l’Utah un centre gigantesque d’espionnage pour rassembler et quadriller des bases de données dans des proportions inimaginables.

Tout cela n’est pas nouveau. Mais l’arrivée d’une myriade de développeurs et de chercheurs l’est. De nouveaux résultats intéressants sont découverts. Des chercheurs d’Harvard ont comparé les données de 15 millions de téléphones portables kényans pendant un an avec la propagation de la malaria. Cela a permis de localiser les foyers originels et de visualiser le déplacement de la maladie, pour remarquer que les hommes sont autant responsables de sa propagation que les moustiques. La polio est aussi combattue avec des grosses bases de données de téléphones portables.

La polio est aussi combattue avec des grosses bases de données de téléphones portables en Afrique, tandis qu’en Grande-Bretagne, les diagnostics et ordonnances de tous les patients doivent être toutes rassemblées et liées à d’autres bases de données. C’est vu comme une révolution médicale.

2. Trois données, une identité

On promet toujours d’anonymiser les données. Mais l’effet pervers de ces bases gigantesques est qu’une anonymisation traditionnelle, c’est à dire simplement la suppression des colonnes «nom-prénom-adresse», ne suffit pas, et qu’il devient de plus en plus facile de remonter aux personnes.

Déjà dans les années 90, le gouverneur du Massachusetts avait considéré que les données médicales qu’il avait laissé publier respectaient la vie privée, parce qu’elles ne contenaient pas d’informations personnelles.

La chercheuse Latanya Sweeney a rapidement désanonymisé les données en les croisant avec d’autres. Elle put retrouver le dossier médical du gouverneur et le lui renvoyer.

Sweeney a trouvé en 2000 que 87% des américains pouvaient être clairement identifiés avec seulement trois données : le genre, la date de naissance et le code postal. De plus en plus d’études montrent qu’il est très facile de désanonymiser des données apparemment anonymisées. La société royale d’Angleterre a récemment publié un rapport sur la question, montrant que «la sûreté des données personnelles dans les banques de données via leur anonymisation ne peut être garantie si l’on cherche activement l’identité des gens».

Déjà dans les années 80, le Chaos Computer Club avait étendu l’éthique hacker comme suit : «Utiliser les données publiques, protéger celles privées». Mais qu’est-ce qui est privé ? public ? La chercheuse en sciences sociales Danah Boyd s’est intéressée il y a deux ans à cette question. Elle est convaincue que «Ce n’est pas parce qu’on a accès à des données qu’il est éthique de les utiliser».

Les opérateurs téléphoniques sauvegardent les données de localisation et de connexion pour établir les factures. Lorsque la filiale allemande de Telefónica, O2, a essayé d’utiliser ces données pour faire de la publicité ciblée, elle s’est heurtée au ministre de l’Économie, puis a abandonné l’idée pour l’Allemagne. En droit allemand existe le concept de «Zweckbindung» (utilisation strictement nécessaire), selon lequel les données ne peuvent être utilisées qu’à des fins précises et définies.

3. La lettre des données est plus importante que jamais

Un gros problème pour l’application de la Zweckbindung est cependant que, dans une société numérique comme la nôtre, il devient impossible de savoir quelles données sont utilisées, revendues ou obtenues de nous. Pourtant une condition essentielle pour des décisions rationnelles est justement ce savoir. Les consommateurs devraient être régulièrement informés par les firmes, les institutions et les autorités d’où et comment sont stockées leurs données personnelles. Ce concept de la lettre des données, ou Datenbrief en allemand, devient de plus en plus important.

Les consommateurs devraient pouvoir aussi choisir en toute conscience des usages qui sont faits de leurs données personnelles. Les pratiques actuelles sont de cacher dans des conditions d’utilisation illisibles et interminables ces usages, pour que l’utilisateur donne son blanc-seing et ne pose pas de question. Il doit aussi pouvoir être possible de déposer plus facilement un recours quand on utilise mes données à des fins que je n’ai pas approuvées. Cela permettrait d’arriver à équilibrer les intérêts savants des chercheurs et le droit à l’autonomie décisionnelle de chacun.

À propos de Andre Meister

Andre Meister a étudié les sciences sociales à Berlin, blogue régulièrement à Netzpolitik et a cofondé la Digitale Gesellschaft.

Commentaires !

Vous pouvez discuter en temps réel dans le webchat ou en pointant votre logiciel jabber sur polnetz@conference.sploing.be.

Vous pouvez aussi me contacter par mail à netz@sploing.be.

Mais surtout, contribuez !

Pourboire et parrainage

Pourboire

Sploing ! Bécassine wants your money

Bécassine vous propose de me donner quelques sous pour le temps et l'argent investi dans la rédaction de l'article que vous avez lu et la maintenance du blog aux adresses suivantes.

Pour chaque don je vous embrasse virtuellement et vous envoie un petit mot doux.

Si vous ne savez pas ce que sont des bitcoins, voici une foire aux questions et une présentation des logiciels disponibles.

Parrainage

Pour 0,02 BTC=1LTC=10000DOGE

Vous pouvez parrainer cet article ou un article déjà existant.

Pour 0,04BTC=2LTC=20000DOGE

Vous pouvez me demander de traduire un article dont vous serez automatiquement parrain. Envoyez-moi un mail à netz@sploing.be pour les détails.