Révélation : c’est Aaron Swartz qui libérait les livres de Google Books sur Internet Archive !

 

Le 24 janvier dernier, dans la magnifique église à San Francisco qui tient lieu de siège à Internet Archive, une cérémonie a eu lieu à la mémoire de l’activiste Aaron Swartz, dont le suicide il y a quelque semaines a provoqué un véritable électrochoc. A cette occasion, Brewster Kahle, le fondateur d’Internet Archive, a prononcé un discours au cours duquel il a fait une révélation importante à propos d’Aaron Swartz.

Aaron Swartz memorial at Internet Archive in San Francisco. Par Steve Rhodes. CC-BY-NC-ND. Source : Flickr

 

Aaron Swartz était connu pour les actions qu’il a conduites contre des bases de données propriétaires, afin d’en libérer le contenu. En 2008, il s’en était d’abord pris à la base américaine de jurisprudence PACER, qui faisait payer l’accès à ses contenus, en téléchargeant 18 millions de documents, ce qui lui avait valu des ennuis avec le FBI. Fin 2010, Aaron Swartz a aussi utilisé la connexion du MIT pour télécharger près de 5 millions d’articles scientifiques depuis la base JSTOR. C’est cette dernière action qui lui valut les poursuites acharnées de la justice fédérale américaine, qui l’ont poussé au suicide.

Ces faits sont connus, mais il existe un autre coup d’éclat dont Aaron Swartz est à l’origine et sur lequel il me paraît important d’attirer l’attention. Dans son discours, Brewster Kahle explique l’importance que le domaine public revêtait aux yeux d’Aaron Swartz, ce qui l’avait conduit à travailler avec Internet Archive, notamment sur le projet Open Library. Or en 2010, un phénomène étrange est survenu : des centaines de milliers de fichiers en provenance de Google Books ont été chargés dans Internet Archive (908 162 livres exactement). J’avais écrit à l’époque un billet à propos de ces « robins des bois » numériques, dont l’intention était visiblement de libérer le domaine public des restrictions imposées par Google dans la réutilisation des fichiers.

En effet, si le modèle de Google consiste à permettre l’accès en ligne gratuitement aux ouvrages du domaine public qu’il diffuse, il maintient une restriction quant à l’usage commercial des contenus (visible sur une page de garde rajoutée dans les fichiers téléchargés depuis Google Books). Google interdit également les extractions automatisés de fichiers depuis son site, afin d’éviter que de gros volumes ne soient téléchargés.

Selon Brewster Kahle, Aaron Swartz avait trouvé le moyen de contourner les limitations imposées par Google et son geste a permis que ces livres soient transférés sur Internet Archive, avec une simple mention « Domaine public ». Google n’a visiblement jamais agi pour tenté d’empêcher la diffusion de ces fichiers sur Internet Archive et cela lui aurait sans doute été compliqué, car les restrictions qu’il impose sur une base purement contractuelle sont certainement fragiles sur le plan juridique.

Brewster Kahle at Aaron Swartz memorial at Internet Archive in San Francisco. Par Steve Rhodes. CC-BY-NC-ND. Source : Flickr

Ci-dessous, je retranscris et je traduis les propos de Brewster Kahle (à partir de 1:20 dans la vidéo), qui tire de cette histoire des enseignements concernant le domaine public et le devoir des bibliothèques, résonnant tout particulièrement en ce moment, avec la situation très préoccupante que nous connaissons en France :

Nous nous sommes rencontrés pour la première fois en 2002, lors du procès Eldred c. Ashcroft devant la Cour suprême à Washington (NB : procès très important intenté pour contester la constitutionnalité du Mickey Mouse Act, qui a étendu la durée du droit d’auteur aux Etats-Unis et causé de graves dommages au domaine public. Lawrence Lessig, le père des Creative Commons, était l’un des avocats qui a plaidé cette cause. Aaron Swartz avait à peine 15 ans à ce moment. Ce procès fut hélas perdu). Nous avions mis en place une « Bookmobile » pour célébrer le domaine public en distribuant des livres faits par des enfants. Je l’ai ensuite recroisé lors du lancement des licences Creative Commons. Mais j’ai vraiment commencé à le connaître lorsqu’il s’est investi dans le projet Open Library. Il s’agissait d’intégrer les livres directement dans Internet. Il nous avait dit : « j’ai développé Infogami, cette technologie qui a permis de mettre en place Reddit, utilisons-là à nouveau pour Open Library ». Et ce fut fantastique de travailler avec lui [...]

Nous avons aussi travaillé ensemble dans d’autres domaines, lorsqu’il devint un champion du libre accès, spécialement à propos du domaine public. Mettre le domaine public en libre accès : beaucoup de personnes pensent que c’est une chose évidente. Que le domaine public signifie que les choses sont effectivement en libre accès. Non ! La réalité ressemble aux parcs nationaux, entourés de murs et protégés par des tours avec des mitrailleuses, prêtes à faire feu si quelqu’un s’approche de trop près…

Aaron fit ce qu’il pensait être juste et il a consacré beaucoup de temps et d’efforts pour rendre accessibles ces contenus. Une des premières actions sur lesquelles nous avons travaillé ensemble consistait à libérer les décisions de justice des tribunaux américains, de manière à ce que tout le monde puisse y avoir accès, sans avoir besoin pour cela de payer ou bénéficier d’un privilège. Il le fit aussi pour qu’on puisse faire du datamining avec ces contenus, afin d’y avoir accès d’une manière différente. Il libéra pour cela un grand nombre de décisions de justice de la base PACER et les téléchargea dans l’Internet Archive. Il y a à présent plus de 4 millions de documents en ligne, qui ont été vues par plus de 6 millions de personnes grâce à ce projet qu’Aaron Swartz et d’autres ont contribué à lancer [...] Cette action m’avait vraiment personnellement frappé, car lorsque j’étais à l’université, nous ne disposions pas de collections de recueils de jurisprudence. Le seul moyen pour moi d’accéder à ces décisions était d’utiliser un identifiant que me donnait mon professeur et de m’introduire dans la bibliothèque de droit d’Harvard pour consulter la base des décisions de justice. C’est juste insensé ! Aaron a fait en sorte que cela retrouve du sens et il ne l’a pas fait seulement pour lui-même, mais pour que cela bénéficie à tout le monde.

Photos of Aaron Swartz at memorial at Internet Archive in San Francisco. Par Steve Rhodes. CC-BY-NC-ND. Source : Flickr.

Il y avait aussi d’autres collections du domaine public, celle des livres de Google Books. Google a numérisé et mis en ligne un grand nombre d’ouvrages du domaine public sur son site internet, mais l’accès est vraiment très pénible. Si vous voulez un livre, vous pouvez l’avoir. Mais si vous voulez 100 livres, ils bloquent votre adresse IP et ils vous bannissent pour toujours. Voilà ce qu’ils appellent un accès public au domaine public… Et un jour, on a vu arriver dans l’Internet Archive des chargements de livres, qui sont allés de plus en plus vite. D’où venaient-ils ? C’était Aaron ! Lui et quelques amis avaient imaginé un système où, avec quelques ordinateurs, ils pouvaient déjouer la limite fixée par Google et obtenir des masses de livres de Google Books pour les charger dans l’Internet Archive. Google n’a pas vraiment réagi, mais ses bibliothèques partenaires ont protesté [...]

Quand c’est arrivé, nous nous sommes demandés ce qui allait se passer, mais il n’y a rien eu. C’était du domaine public. Nous avons utilisé les données pour faire un lien en retour vers Google. Et tout ça marche bien. C’était encore une fois Aaron, qui avait voulu donner un accès public au domaine public. Ce qui me déchire, c’est qu’Aaron a été poursuivi par la justice fédérale pour avoir fait quelque chose que l’Internet Archive encourage activement et encourage les autres à faire. Et nous pensons que toutes les bibliothèques devraient l’encourager également. Permettre le téléchargement massif pour pouvoir effectuer du data mining et d’autres formes de recherche assistées par ordinateur. C’est tout simplement dans l’ordre des choses.

La première étape pour qu’un ordinateur puisse lire et analyser des contenus est de pouvoir télécharger des ensembles de documents. Quand Aaron a voulu faire cela à partir de JSTOR, ils s’y opposèrent catégoriquement. Ils demandèrent au MIT de trouver et d’arrêter cet utilisateur et le procureur a ensuite utilisé ses pires techniques. Pourquoi n’y a-t-il eu personne pour dire stop et demander si le téléchargement massif était vraiment un crime ? Je dis non ! Le téléchargement massif n’est pas en soi un crime. Arrêtons de décourager le téléchargement massif, car c’est nécessaire pour le développement de projets qui nous permettront d’accéder autrement à la connaissance, en faisant en sorte que les ordinateurs participent au processus de recherche. Ne décourageons pas de jeunes gens d’imaginer de nouvelles façons d’apprendre de nos bibliothèques. Ce qui est arrivé dans cette affaire est tragique et insensé.

Ce que nous voulons, c’est que l’on laisse nos ordinateurs lire. Aaron le savait. Nous contribuons à le rendre possible.

Laissez nos ordinateurs lire !

PS : pour connecter tout ceci à ce qui est en train de se passer en France, le plus simple est d’aller lire le billet de Daniel Bourrion « Le jour où les bisounours mordront les vautours« .

PPS : merci @BlankTextField qui a repéré l’information dans la vidéo et  me l’a signalée.

 

Collé à partir de <http://scinfolex.wordpress.com/2013/02/06/cest-aaron-swartz-qui-liberait-les-livres-de-google-books-sur-internet-archive/>