PORTRAITS

L'archiviste du Réseau

L'Américain Brewster Khale veut archiver tous les sites du Web

Edition du mercredi 14 mars 2001


Thierry Vivier

San Francisco

de notre correspondant

Visionnaire. Brewster Khale, la quarantaine, en est un vrai, il en a le regard : souvent figé, toujours perçant et capable de suivre des calculs compliqués qui semblent s'élaborer en permanence dans le fond de sa tête. Et les idées, fixes. Il aspire en effet à construire la librairie d'Alexandrie des temps présents et est en train d'y parvenir. Quelques références chiffrées permettent de saisir l'énormité de la tâche qu'il s'est assignée : la bibliothèque du Congrès des Etats-Unis (la plus grande du monde) contient 17 millions de volumes d'environ 1 mégaoctet d'information chacun, ce qui porte le total à 17 téraoctets. L'archivage de l'Internet selon Brewster Khale, qu'il a commencé en 1996, représente déjà 40 téraoctets.

Décrochant une clé minuscule accrochée à un vulgaire clou au mur des locaux qu'il occupe dans d'anciens baraquements militaires, à l'entrée de la baie stratégique de San Francisco, Brewster Khale invite à visiter sa cave. Lumière ! " Voici la Toile ", dit-il en s'accompagnant d'un grand geste du bras, derrière lequel on découvre une batterie de boîtes noires bien rangées, un mur de huit mètres de long sur deux de haut, 140 ordinateurs en tout, serrés les uns contre les autres, censés contenir la " mémoire du monde " d'aujourd'hui.

Mais quelle mouche l'a piqué ? " Tout a commencé au début des années 1980, raconte Brewster Khale, lorsque j'étudiais l'intelligence artificielle au Massachusetts Institute of Technology (MIT, Boston). Un jour, on m'a posé la question suivante : " Que peux-tu donc faire de bon avec ta technologie ?" " Il eu du mal à répondre sur le coup, et cela le mit mal à l'aise. Ne lui vint à l'esprit que le cryptage des données supposé protéger la vie privée et la nécessité de créer une bibliothèque digitale. Il s'est, depuis, tenu à la deuxième partie de sa réponse.

La culture des " barbares "

L'objectif est devenu peu à peu énorme. Il s'agit aujourd'hui, dans la tête de Brewster Khale, de réaliser une bibliothèque de tout ce qui paraît sur le Web, pour ne pas perdre la mémoire des millions de pages créées, alors que, selon lui, la durée de vie moyenne d'un document en ligne est de 75 jours. Une bibliothèque digitale à l'échelle de celle d'Alexandrie, dont Démétrios de Phalère, qui en fut l'instigateur, précisait qu'elle devait recueillir un exemplaire de chaque livre de tous les peuples du monde.

Brewster Khale voit cette tentative comme le premier effort systématique de comprendre l'humanité, " non seulement sa propre culture, mais aussi celle des barbares - les "yahoos", en anglais dans le texte - qui se trouvent de l'autre côté de la montagne ". C'était possible alors grâce à un matériau abondant, le papyrus. C'est de nouveau possible grâce à la préservation magnétique des données numériques.

Comment mettre en œuvre pareille ambition ? D'abord, les machines pour traiter des téraoctets. Brewster Khale trouva son premier boulot, en 1983, dans une société du nom de Thinking Machines (machines pensantes), où il travailla à la construction de superordinateurs. Une étape indispensable à son projet, selon lui, car les ordinateurs d'alors n'étaient pas assez puissants pour mener à bien les tâches essentielles à l'archivage dont il avait l'ambition. " Mais, dit-il, avec une certaine nostalgie, nous avons pu construire des "machines rapides" incapables de penser. Il leur manquait la mémoire. " Puis, pour constituer une librairie digitale, encore fallait-il que les publications soient numérisées.

Car Brewster Khale a des idées folles, mais des moyens rationnels d'y parvenir. C'est donc pour aider les entreprises à numériser les livres en gagnant de l'argent que Brewster Khale met au point, au début des années 1990, le premier système de publication sur Internet, le WAIS, ou Wide Area Information Server, qui permet, par exemple, à l'Encyclopaedia Britannica ou au New York Times de porter leur contenu en ligne. Il finit par vendre la technologie à America Online en 1995. Avec l'argent gagné, Brewster Khale lança en parallèle Alexa.com et Archive.org, en 1996.

Archive.org, c'est la bibliothèque virtuelle, une association à but non lucratif. Accès gratuit à condition de remplir un questionnaire, en argumentant sa demande, possibilité de surfer sur " tout le Web, de 1996 à nos jours ", ce qui représente 1 milliard de pages Web stockées. Allusion à la bibliothèque de ses rêves, Alexa.com, racheté par Amazon en 1999, est la partie commerciale du projet. Elle produit un programme intégré à Netscape, qui peut être ajouté à la barre de navigation d'Explorer. Il permet d'obtenir des informations sur les sites visités : localisation, trafic, rapidité d'affichage, etc. Et s'appuie sur une double analyse des données rapportées par les bots, les logiciels-robots qui parcourent la Toile, et des liens activés par les usagers. Les archives du Web présentent un intérêt pour les usagers d'Alexa : quand ils se heurtent au " 404-File not Found ", ils peuvent activer un bouton de la barre de navigation et en retrouver la copie stockée dans www.archive.org.

Les archives de Brewster Khale sont encore rudimentaires. Les cycles d'archivage des sites Web sont opérés tous les deux mois, pour les textes, et tous les ans, pour les photos. Malgré cela, les coûts sont raisonnables. " C'est faisable ", affirme-t-il. Les pages Web sont stockées sur des machines Linux et reliées à un serveur d'archive auquel se connectent les internautes.

Revenant à son obsession, Brewster Khale voit tout de même deux grandes différences entre la bibliothèque à laquelle il travaille et celle d'Alexandrie : " Il y aura accès universel, et il s'agira de bibliothèques dis tribuées. " Et d'ajouter : " McLuhan avait tort, le village global n'est pas un produit des mass media. Nous vivons au contraire dans un globe de villages. Ce que nous faisons avec www.archive.org nous permet de dire que nous ne sommes pas tous identiques. " Rien que pour cette dernière remarque, l'initiative de Brewster Khale est à garder en mémoire.

www.alexa.com

www.archive.org

Francis Pisani

 

Droits de reproduction et de diffusion réservés; © Le Monde 2000
Usage strictement personnel. L'utilisateur du site reconnaît avoir pris connaissance
de la licence de droits d'usage, en accepter et en respecter les dispositions.