De l’évaluation des collections à l’évaluation des processus : l’exemple de l’archivage du web

Compte-rendu de l’intervention de Clément Oury, chef du service du dépôt légal numérique à la Bibliothèque nationale de France (BnF).

Depuis son instauration par François Ier, le dépôt légal a bien changé. Ou plutôt, il a su s’adapter aux évolutions successives des modes de diffusion. C’est donc logiquement que le champ du dépôt légal s’est étendu, depuis 2006, via le Code du Patrimoine, aux publications diffusées sur Internet. Clément Oury est venu nous présenter le fonctionnement et les différentes formes d’évaluation qui entourent le dépôt légal numérique. Quels rapports entre le dépôt légal du web et l’évaluation ? L’évaluation intervient sous différentes formes et à différentes étapes de la constitution des collections du dépôt légal de l’Internet français. Ce sont ces différentes étapes qui ont structuré l’intervention de Clément Oury : sélection des contenus, évaluation de la qualité des collections et évaluation de la qualité des processus.

Traditionnellement, le dépôt légal se veut exhaustif, il constitue une obligation pour les éditeurs et les imprimeurs. Sa transposition à l’Internet nécessite les changements fondamentaux que sont le passage du dépôt à la collecte et le renoncement à l’exhaustivité. Ce ne sont plus les documents qui parviennent à la BnF, c’est à elle qu’il incombe désormais d’aller les collecter à l’aide de moyens technologiques. La production en ligne de ces « signes, signaux, écrits, images, sons ou messages de toute nature », tous soumis au dépôt légal, est foisonnante. Cette production est également mouvante : l’apparence et le contenu d’une page web peuvent constamment évoluer et ont d’ailleurs vocation à le faire. Dans ce contexte, l’exhaustivité ne saurait être un objectif. Le dépôt aspire donc plutôt à offrir l’image la plus représentative possible du Web français à un instant donné. Ainsi, si l’intégralité des sites identifiés fait l’objet d’un « moissonnage » annuel par les robots de la BnF, d’autres formes de collectes ont lieu. Des campagnes ponctuelles portent sur des événements ou des thématiques particulières. D’autres sites d’actualité ou de référence font l’objet d’une collecte plus systématique. Face à l’impossibilité de tout collecter, il s’agit de sélectionner les sites dont on estime qu’ils méritent une attention plus particulière. La BnF collabore pour cela avec des spécialistes : ses propres Départements, d’autres bibliothèques (notamment universitaires), des laboratoires de recherche mais également des associations. Il s’agit ici de documenter le processus de sélection pour éclairer les usages à venir. La nécessité nouvelle de faire des choix entre ce qui sera conservé, et ce qui risque d’être ou sera perdu, rapproche la pratique du dépôt légal de celle des archivistes.

Le rapprochement ne s’arrête pas là. Collecté, le Web doit pouvoir être conservé et communiqué. Se posent alors des questions propres à l’archivage numérique. En effet, la masse des données accumulées doit être pérennisée. Mais ces données sont des images des sites Web, non les sites eux-même. Ainsi, ce qui est offert à la consultation est une reconstitution faite à partir des informations collectées par les robot. En clair, il peut y avoir une déperdition d’informations par rapport au site original, sur l’apparence comme sur le contenu. Pour ne pas tromper l’utilisateur final, les distorsions éventuelles doivent être documentées. Ainsi, à partir des objets numériques complexes que sont les sites Internet, le dépôt légal web crée de nouveaux artefacts dont la qualité peut être évaluée.

Des travaux dans ce sens ont eu lieu, à l’échelle internationale, qui ont abouti à la publication d’une norme : ISO/TR 14 783 « statistiques et indicateurs de qualité pour l’archivage du web. » Au nombre de ces indicateurs, le pourcentage du périmètre effectivement collecté, la part des collections consultables ou le coût par URL collectée. D’autres réflexions ont porté sur la documentation des aspects techniques de la collecte. La question des métadonnées à employer, ou les usages des utilisateurs du dépôt légal du Web, ont également été posées. Le travail a donc porté sur toute la chaîne documentaire : sélection, collecte, accès, préservation.

De toutes ces problématiques, aucune n’est étrangère au travail de l’archiviste. L’intervention de Clément Oury rappelle en particulier aux archivistes l’importance de documenter leurs choix et leurs interventions. Elle donne également à réfléchir sur l’intérêt qu’ont les archivistes à mettre en place des indicateurs de leurs activités pour mieux savoir les évaluer… Et les expliquer.

François Rimelen