jeudi 3 mai 2018

18:28

La mauvaise utilisation des données est une caractéristique pas un bug !

Par Hubert Guillaud

05/04/2018

 

Alors que le scandale Cambridge Analytica bat son plein et plonge à nouveau Facebook dans la tourmente, Ethan Zuckerman (@EthanZ), directeur du Centre pour les médias civiques du Massachusetts Institute of Technology, pour The Atlantic, prend un peu de hauteur. Voilà un peu plus de 17 mois que les Américains s’interrogent sur les effets des médias sociaux sur la démocratie. Mais la plupart du temps, c’est pour ne pointer que des bugs en provenance d’acteurs mal intentionnés : on y accuse tour à tour des adolescents macédoniens, des bots automatisés, des experts en désinformation… S’il y a certes de petits organismes qui peuvent infecter la santé de tout un écosystème, c’est aussi parce que cet écosystème a été conçu pour favoriser nos pires biais, allant du harcèlement social à l’intimidation, en passant par l’homophilie (le fait de se connecter à qui nous ressemble)…

Pourtant, rappelle le chercheur, tous ces effets exploitent des caractéristiques des médias sociaux. Aleksandr Kogan, le chercheur qui a créé un quiz pour recueillir des données sur des dizaines de millions de personnes sur Facebook qui a permis à Cambridge Analytica de produire ses analyses, n’a pas pénétré les serveurs de Facebook pour voler des données. Il a utilisé l’API de Facebook qui, jusqu’en avril 2015, permettait à ceux qui créaient des applications de récolter les informations de leurs utilisateurs et de tout leur réseau social. Comme le dit le spécialiste des médias, Jonathan Albright (@d1g1) : « La capacité d’obtenir des informations exceptionnellement riches sur les amis des utilisateurs est due à la conception et aux fonctionnalités de l’API Graph de Facebook. Et la grande majorité des problèmes qui en ont résulté étaient des caractéristiques pas de bugs. » Si Kogan a agi en violation de l’éthique, il n’a pu le faire que parce que Facebook l’a rendu possible, pointe Zuckerman. Certes, vendre ces données à Cambridge Analytica était une erreur, mais Facebook ne pouvait pas ignorer que des gens comme Kogan pouvaient accéder aux données de millions d’utilisateurs, puisque c’était précisément la fonctionnalité de Facebook annoncée aux développeurs d’applications, jusqu’à ce que Facebook referme un peu la corne d’abondance en 2014. Or, rappelle Ethan Zuckerman, le modèle économique de Facebook est basé sur la collecte des informations personnelles et psychographiques et la vente de la capacité à cibler publicitairement les produits de ces données (c’est-à-dire les utilisateurs).

Cette fonctionnalité n’est pas propre à Facebook, rappelle le chercheur. Google développe des profils de ses utilisateurs, depuis leurs historiques de recherches et les outils qu’il développe pour eux, pour aider des annonceurs à cibler leurs messages. La plupart des sites web financés par la publicité tracent leurs utilisateurs pour tirer de la valeur et améliorer le ciblage publicitaire. Comme l’avait déjà expliqué Zuckerman lui-même, c’est le modèle publicitaire même de l’internet qui est un modèle d’affaires dangereux et socialement corrosif puisque par nature, il vise à mettre les utilisateurs sous surveillance constante.

Les réseaux sociaux peuvent facilement résoudre les problèmes provenant d’acteurs mal intentionnés. Ils peuvent faire la chasse aux bots et aux acteurs de la mauvaise information et ils ont même intérêt à s’aligner sur les intérêts de la société pour lutter contre ce type d’acteurs. Par contre, il va être plus difficile pour les plateformes de lutter contre les autres phénomènes qu’elles activent. Il est difficile pour YouTube de corriger son moteur de recommandation qui favorise le temps passé et nous encourage à l’aller d’une vidéo populaire l’autre, en accumulant des vues pour optimiser ses annonces publicitaires, même si cela favorise des vidéos promouvant les théories du complot ou des vidéos débiles pour les enfants. Il est difficile pour Twitter de limiter le harcèlement et l’intimidation quand les utilisateurs les plus engagés sont aussi les plus opiniâtres. Et il est impossible pour Facebook de nous protéger des publicités manipulatrices quand leur modèle d’affaires repose sur la vente de cette forme particulière de persuasion. Pour réparer ces caractéristiques, nous avons certainement besoin que la société fasse pression pour des normes et des modalités de transparence plus opérantes, comme de savoir qui paye pour faire de la publicité sur Facebook. Désormais nous avons une infrastructure technologique pour exploiter nos biais et pour soutenir l’armement de nos émotions à une échelle globale. Les entrepreneurs qui ont construit cette infrastructure ont désormais l’obligation de rendre des comptes.

 

Peut-on se défaire de la publicité basée sur la surveillance ?

Sur son blog, Doc Searls (@dsearls) ne dit pas autre chose. Facebook est une machine de surveillance rappelait la chercheuse Zeynep Tufekci (@zeynep). Nos profils et nos données sont ce qui est vendu aux annonceurs. Mais c’est le cas de tout site ou service en ligne : les publicités ouvrent le cou numérique des gens aux vampires affamés du sang des données personnelles. Mais tous les médias où se sont exprimés ceux qui condamnent les médias sociaux ou Cambridge Analytica ne font guère mieux. Le New York Times, le New Yorker, comme les autres, divulguent des données de leurs lecteurs à des tiers. Chaque fois qu’une annonce est chargée sur une page, le site envoie l’adresse IP du visiteur, l’URL qu’il consulte et des informations sur son appareil à des centaines d’entreprises (des courtiers de données) qui enchérissent les uns contre les autres pour montrer de la publicité au visiteur (voir ces explications en vidéo pour en saisir le fonctionnement).

Pour Doc Searls, il est nécessaire de se défaire de la publicité basée sur la surveillance (ce qu’on appelle les adtech, les technologies de la publicité), de quitter le marketing direct pour revenir à la publicité. Certes, concède-t-il les journaux ne sont pas équivalents à ce que font des Facebook ou des Cambridge Analytica, mais cela participe d’un même écosystème. Il existe d’autres moyens de faire de la publicité.

Sur Linux Journal, Doc Searls prolonge sa réflexion en invitant à revenir à de la publicité sans surveillance. Pour Searls, le Règlement général sur la protection des données (RGPD) pourrait permettre au #donotbyte de réussir là où le #donottrack a échoué (le donotbyte est un jeu de mot qui signifie à la fois ne pas livrer de données (byte pour octet) et ne pas mordre ; et le donottrack fait référence à l’initiative lancée par les publicitaires permettant aux gens de se faire déférencer du traçage publicitaire selon des modalités si compliquées qu’elles n’ont jamais vraiment été utilisées ou promues). Pour lui, nous devons inverser le processus de conformité et inviter les éditeurs à accepter les conditions d’utilisation des données de leurs utilisateurs plutôt que l’inverse, ce qu’il propose de rendre concret en créant le Customer Commons, qui consiste à décrire des modalités d’utilisation des données personnelles des utilisateurs sur le modèle de ce que les licences Creative Commons ont fait en matière de droit d’auteur. L’enjeu est de faire discuter à la fois un code juridique, un règlement lisible par l’homme et un code associé lisible par la machine (qu’il sera nécessaire de normaliser et spécifier). L’enjeu, explique Searls est de proposer un nouveau modèle de conformité où les sites et les services puissent être conformes à ce que les gens veulent plutôt que l’inverse. L’enjeu également est d’augmenter la valeur de la protection pour tous les acteurs de la chaîne. Dans un autre article, Doc Searls estime encore que nous avons passé le pic de données. Cela signifie, pour lui, que le taux maximum d’extraction de données personnelles ne peut plus être maintenu au niveau où il est actuellement. « La puanteur de l’extraction de données dépasse la tolérance de tous les acteurs ». De là à croire qu’on puisse revenir à une publicité à l’ancienne, à l’affichage, il y a un pas que seul le toujours énergique Doc Searls peut franchir.

 

Facebook n’est pas le problème

Le chercheur en sécurité informatique, Bruce Schneier, le souligne néanmoins : Facebook n’est que l’arbre qui cache la forêt du capitalisme de surveillance.

Aux Etats-Unis, on dénombre entre 2500 et 4000 courtiers de données qui font des affaires en achetant et vendant des données personnelles. « Le capitalisme de surveillance est profondément ancré dans notre société de plus en plus informatisée, et si l’étendue de celle-ci venait à être révélée, il y aurait de larges demandes de réglementations. Mais parce que cette industrie peut fonctionner en grande partie dans le secret et l’opacité, seulement occasionnellement exposée après une violation de données ou un rapport d’enquête, nous demeurons la plupart du temps ignorants de sa portée réelle. » Pour lui aussi, le RGPD européen serait un moyen d’apporter un peu de limites à ce secteur. En limitant la collecte à des fins « spécifiques, explicites et légitimes » et en exigeant le consentement explicite de l’utilisateur, la réglementation souligne que le consentement ne peut plus être caché dans les termes et conditions d’utilisations. Nombre d’entreprises, pas seulement européennes, se préparent à se mettre en conformité avec cette réglementation, rappelle Schneier. En Europe, toutes les entreprises vont devoir expliciter comment elles utilisent les données. Paypal par exemple a discrètement publié une liste de 600 entreprises avec lesquelles elle partage des données. Une initiative qui mériterait d’être saluée et reproduite. Pour Bruce Schneier, la régulation est la seule réponse. S’il a peu d’espoir que le Congrès américain adopte une loi sur la protection des données personnelles semblable au RGPD, il estime néanmoins que les Etats-Unis pourraient exiger d’obtenir des entreprises qu’elles soient plus transparentes sur leurs pratiques, notamment sur la manière dont elles vendent, achètent et utilisent les données.

 

Les plateformes ont favorisé le laisser-faire !

Pour le game designer et chercheur Ian Bogost (@ibogost), lui, s’amuse du scandale. Il rappelle qu’entre 2010 et 2011, il avait développé un jeu pour Facebook : Cow Clicker, un jeu satirique à l’heure où Farmville battait des records d’audience. Et le développeur de confesser qu’il ne fallait pas faire beaucoup d’efforts pour extraire des données de Facebook. Il rappelle qu’en 2007, Facebook a transformé son réseau social en plateforme d’applications. Mais il a fallu attendre 2014 pour que Facebook se mette à limiter l’accès aux données, notamment celles partagées publiquement par un utilisateur. Pour Facebook, la politique officielle en matière de confidentialité a toujours reposé sur le contrôle des utilisateurs (sans toujours leur donner beaucoup de moyens pour le faire) plutôt que sur la vérification des applications des développeurs. Les autorisations d’applications ne sont pas exceptionnellement claires dans Facebook – ailleurs non plus ! Bogost rappelle que l’utilisateur doit accepter la demande de l’application à accéder à des données dès qu’il l’ouvre pour la première fois, avant même de savoir ce que fait l’application. Le plus souvent, cette demande d’autorisation est présentée par Facebook plus que par le tiers qui l’a demandé, ce qui semble la rendre pour l’utilisateur officielle, sûre et approuvée. Pour l’internaute, l’application semble relever de Facebook plus que d’un développeur tiers, alors que ce n’est pas le cas. En substance, Facebook présente les applications comme des extensions quasi approuvées de son service, quand le contrôle qu’il effectue se limite à un service minimum.

Dans les détails que Ian Bogost pointe, on se rend compte surtout combien Facebook a géré avec énormément de légèreté ces questions, les construisant au fur et à mesure que les problèmes étaient mis à jour. Comme le souligne le développeur, alors qu’il a fermé son application il y a des années, il dispose toujours de données sur les gens qui ont utilisé son jeu. Quand bien même les utilisateurs révoqueraient aujourd’hui des autorisations d’applications, est-ce que cela signifie que celles-ci supprimeront les données qu’ils ont stockées ? Révoquer l’accès à une application utilisée il y a des années ne va pas faire disparaître les transmissions qui ont eu lieu ! rappelle-t-il. Comme le soulignait le journaliste de Vice, Jason Koebler, Facebook ne dispose d’aucun mécanisme pour que les applications suppriment les données qu’elles ont récupérées. Facebook a favorisé le laisser-faire, accuse Bogost. La plateforme elle-même était en construction permanente. Certains développeurs ont été malhonnêtes dès le départ. Ce n’était certainement pas la majorité, malgré tout ce qu’il était possible de faire. Beaucoup ont développé des jouets stupides parce que Facebook le leur a permis. Dans l’ensemble, la plupart des développeurs n’ont pas demandé vos données. Mais ils les ont obtenus et… ils les ont encore.

« Des millions d’applications avaient été créées en 2012, lorsque j’ai raccroché mon chapeau de cow-boy. Pas seulement des applications apparemment conçues avec la duplicité à l’esprit, comme le quiz de personnalité d’Aleksandr Kogan, qui a extrait des données qui ont ensuite été vendues à Cambridge Analytica. Mais des centaines de milliers de créateurs de jouets stupides, de quizz… qui n’auraient peut-être jamais eu l’intention de duper ou de voler des utilisateurs l’ont sûrement fait parce que Facebook leur a jeté les données à la gorge. Dans l’ensemble, aucun de nous n’a demandé vos données. Mais nous les avons obtenues quand même. Et pour toujours. »

Pour Chris Hoofnagle, spécialiste de la sécurité des réseaux, responsable du laboratoire Vie privée et sécurité de Berkeley, le constat est le même. Facebook ou Google récompensent les développeurs qui travaillent avec leurs plateformes en rendant les données disponibles, et bien souvent en leur permettant d’accéder à plus de données qu’ils n’en ont besoin.

L’essentiel des commentaires américains va dans le même sens. Pour Will Oremus sur Slate, c’est le modèle d’affaire d’internet qui est en cause. Même chose pour Siva Vaidhyanathan dans le New York Times (@sivavaid), directeur du Centre pour les Medias et la citoyenneté de l’université de Virginie et auteur de la Googlisation de toutes choses.

Un éditorial du New York Times invite le Congrès à s’inspirer du RGPD européen en expliquant que le problème n’est pas tant Facebook que l’absence d’une réglementation forte pour protéger la vie privée des utilisateurs.

Reste que si Facebook a promis de simplifier et de rendre plus accessibles les paramètres pour gérer ses données, Zuckerberg vient d’annoncer à Reuters que s’il approuvait l’esprit du RGPD, il n’en fera pas un standard pour Facebook au-delà de l’Europe. Dommage. Comme le soulignait le New York Times, les entreprises trouveront comment gagner de l’argent même avec des règles de confidentialité plus strictes. Si la plupart des secteurs résistent à la régulation, force est pourtant de constater que de nombreux secteurs en ont bénéficié. Le plus souvent, les normes stimulent la demande. « Facebook et d’autres entreprises internet craignent les règles qui protègent la confidentialité des données, mais ils ne devraient pas. Des règles fortes pourraient être bonnes pour eux comme pour les consommateurs. »

Reste que si la réglementation est vertueuse, elle ne fait pas tout non plus. C’est ce que nous rappelle Joi Ito, à qui nous laisserons le mot de la fin.

 

Il faut remettre les humains dans la boucle !

Pour l’Union américaine des libertés civiles (ACLU), l’une des grandes organisations de défense des droits, Joi Ito (@joi), directeur du Media Lab du MIT, invite les ingénieurs à dépasser le mea-culpa.

« À bien des égards, les problèmes les plus pressants de la société actuelle – disparité croissante des revenus, problèmes de santé chroniques et changement climatique – sont le résultat des gains spectaculaires de productivité que nous avons obtenus grâce à la technologie et à la science. Internet, l’intelligence artificielle, le génie génétique, les cryptomonnaies et d’autres technologies nous fournissent de plus en plus d’outils pour changer le monde qui nous entoure.

Mais elles ont un coût.

Nous sommes en train de nous éveiller aux implications que beaucoup de ces technologies ont pour les individus et la société. »

Leurs effets sont déjà là. À l’image des programmes qui calculent la probabilité de récidive des condamnés américains (voir notre dossier sur la justice analytique) qui peinent à s’extraire de leurs biais. À l’image du controversé programme de la ville de Boston de confier la fixation des horaires d’écoles à un algorithme, abandonné suite au tollé des parents. Les ordinateurs ne savent pas résoudre les problèmes politiques.

Pour Joi Ito, la technologie ne peut oublier de mettre les humains dans la boucle (d’où le fait qu’il parle d’intelligence étendue pour évoquer la relation croissante entre les technologies et la société). Les systèmes techniques sont conçus par des ingénieurs qui décident quelles données utiliser, comment les pondérer, les agencer pour créer des modèles précis et efficaces. Le problème est que ces développeurs ne sont pas des experts des domaines qu’ils construisent. Ils ne connaissent rien en matière de liberté provisoire, de justice, de planification d’horaire ou de vie en collectivité. « Un problème important notamment est que tout biais ou erreur dans les données que les ingénieurs ont utilisées pour enseigner quelque chose à la machine entraînera des résultats qui reflètent ces biais. »

Pour remédier à ces problèmes, Karthik Dinakar (@kaydeeb0y) cherche à impliquer une plus grande variété d’experts dans systèmes d’apprentissage automatisés, afin de créer ce qu’il appelle des systèmes d’apprentissage avec des « humains dans la boucle ». L’enjeu au coeur du calcul humain dans la boucle est de construire des modèles depuis des expertises sur leurs enjeux. Pour Karthik, il est nécessaire d’utiliser une variété de lentilles et d’expertise dans la construction des systèmes, par exemple de demander à un juge d’évaluer les données et les paramètres utilisés dans un système de probation. Pour le MIT, l’enjeu est que ce couplage aide à créer des outils qui soient à la fois plus faciles à comprendre pour les humains et mieux à même de refléter des facteurs pertinents.

Joy Ito pointe notamment deux exemples où des chercheurs s’associent au public pour construire des outils capables de mieux s’inscrire dans la société. Comme le programme Machines Morales, de Iyad Rahwan (@iyadrahwan qui collecte les avis de millions de personnes sur le fameux dilemme du tramway pour mieux comprendre ce qui est acceptable et ce qui ne l’est pas pour les gens en matière de règle éthique pour la conduite autonome. Kevin Esvelt (@kesvelt), un spécialiste du génie génétique implique la population du lieu où se trouve son laboratoire pour savoir si les habitants souhaitent qu’il travaille à créer une souris résistante à la maladie de Lyme (en utilisant un dérivé de la technologie CRISPR, qui ne permette pas au génome modifié de se reproduire). Il a décidé par exemple que des citoyens surveilleraient son projet, avec notamment le droit de l’arrêter à tout moment, leur donnant le droit de ne jamais l’autoriser à déployer ses recherches.

Rétablir l’équilibre sur, au sein et entre les systèmes et les gens demandera du temps et des efforts. Pour Ito, « nous avons besoin de défenseurs des droits sociaux, d’avocats, d’artistes, de philosophes et de tous les citoyens pour nous engager à concevoir cette intelligence étendue. C’est le seul moyen pour réduire les coûts sociaux et améliorer les bénéfices de l’IA à mesure qu’elle s’intègre à notre culture. »

Hubert Guillaud

Sur ce sujet, encore, je vous invite à lire également l’excellent article d’Olivier Ertzscheid qui nous explique que nos données personnelles sont coincées entre le bunker et la passoire, sans que l’un ou l’autre des modèles ne soient sans défauts. Ou l’interview d’Antoinette Rouvroy qui souligne que le scandale Cambridge Analytica est avant tout l’échec de l’autorégulation des grandes plateformes et que l’algorithmique détruit tout rapport de pouvoir. Ou enfin l’excellente analyse de Lionel Maurel sur les question de protection par défaut et de consentement dans le RGPD.

 

 

Collé à partir de <http://www.internetactu.net/2018/04/05/la-mauvaise-utilisation-des-donnees-est-une-caracteristique-pas-un-bug/>