|
![]() | |||||||
![]() |
![]() | ||||||
![]() |
![]()
![]()
![]()
![]()
![]()
![]()
|
![]() |
• LE MONDE |
05.04.02 | 13h08
Le dépôt légal du Web,
terrain de compétition à la française
Les élections 2002 feront l'objet d'une première. Tous les sites - 400 environ - faisant allusion à ces échéances électorales sont, à intervalles réguliers, "aspirés" et stockés pour la postérité par la Bibliothèque nationale de France (BNF), engagée dans un programme expérimental de dépôt légal du Web. La future loi sur la société de l'information (LSI), dont le projet a été déposé à l'Assemblée nationale en juin 2001, prévoit en effet d'élargir au Web le dépôt légal, créé en 1537 par François I er et actuellement régi par une loi de 1992.
UN MILLIARD DE PAGES La BNF s'est rapprochée de l'Institut national pour la recherche en informatique et automatique (Inria) et de la start-up Xylème, qui en est issue. Xylème dispose en effet de nombreux outils pour sonder le Web. Elle a procédé à une évaluation de sa partie française à partir d'un échantillon d'un milliard de pages. Les sites ".fr" représentent 1 à 2 % de la Toile, mais les "crawlers" (automates) ont constaté que 40 % d'entre eux étaient inaccessibles de façon automatique. Soit parce que les robots butent sur des barrières (robot.txt), soit parce qu'il faut remplir des formulaires, soit enfin parce qu'ils sont désorientés par des langages (java scripts) engendrant des adresses dynamiques. Le tout-automatique est donc exclu. Pas seulement pour des raisons techniques. "Le Web est une grande poubelle à ciel ouvert : archiver une poubelle n'a pas très grand sens, commente Serge Abiteboule, directeur de recherche à l'Inria et cofondateur de Xylème. Il faut savoir détecter l'importance de ce que l'on retient, mais aussi être capable d'indexer le contenu." Après avoir étudié les expériences étrangères, la BNF préconise une double approche. Une collecte automatisée, proche de celle réalisée par les moteurs de recherche, qui hiérarchisent les sites en fonction du nombre de liens qui pointent vers eux. Et une collecte individualisée, "tournée vers les sites de qualité inaccessibles aux robots", précise Julien Masanès, conservateur à la BNF. Une trentaine d'entre eux ont déjà été "approchés", pour étudier la meilleure façon de transférer leurs contenus. En juin, la BNF prévoit de "crawler" l'ensemble du web en ".fr", soit 148 000 sites. L'INA fait pour sa part valoir son expertise dans l'archivage de médias de flux, télévision et radio, dont Internet se rapproche de plus en plus. Mais aussi son expérience face à l'évolution, toujours plus rapide, des technologies. "Aspirer le Web n'est pas le plus difficile, avance Jean-Michel Rodes, directeur de l'Inathèque. Mais renormaliser les contenus pour pouvoir les lire dans cinquante ans est plus délicat." L'INA a lancé un partenariat avec une équipe de l'Ecole normale supérieure (ENS), dirigée par le physicien Dominique Pignon. Elle aussi a entrepris de "crawler" tout ce qui concerne les élections. Les questions en suspens sont identiques. "Les sites sont de plus en plus dynamiques, constate Dominique Pignon. A-t-on affaire à une ou dix éditions ? Doit-on prendre des instantanés, ou faut-il rapatrier directement la base de données qui les génère ?" Pour le chercheur, l'enjeu n'est pas tant "l'accumulation que la façon dont on pourra utiliser ces données". Reste à définir les relations avec les fournisseurs de contenu et d'accès dont la collaboration est indispensable. Le dépôt légal ne deviendra obligatoire que trois ans après la promulgation de la LSI. La BNF et l'INA ont donc le temps de peaufiner leur stratégie. Mais les deux institutions sont persuadées qu'il faut commencer à stocker au plus vite, car des pans entiers sombrent chaque jour dans l'oubli. H. M. • ARTICLE PARU DANS L'EDITION DU
06.04.02
|
![]() |
![]() | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() Droits de reproduction et de diffusion réservés © Le Monde 2002 Usage strictement personnel. L'utilisateur du site reconnaît avoir pris connaissance de la licence de droits d'usage, en accepter et en respecter les dispositions. Politique de confidentialité du site. Besoin d'aide ? faq.lemonde.fr |