Nouveaux environnements pour la collecte

Sous la présidence de Claire Sibille-de Grimoüard, Aïda Chébbi, Céline Guyon et Clément Oury ont évoqué les nouveaux environnements pour la collecte qui doit désormais prendre en charge les documents électroniques, voire des informations sans support, tels les sites web. Si l’impact du passage du papier au numérique sur la collecte est assez récent, il s’accentue par le basculement vers le tout numérique des administrations et collectivités. Ces renversements ont vu la multiplication des exemplaires d’un même document en fonction des usages, des supports, des formats et des accès. L’usage d’une signature électronique est une question essentielle : il s’agit de rematérialiser les traces de validation pour rassurer les citoyens quant à l’authenticité des documents auxquels ils ont accès. La collecte des documents numériques est alors complexifiée par l’existence de ces deux exemplaires similaires mais non identiques. De même, la fragmentation et l’éclatement du contenu sont deux notions à prendre en compte : à une hiérarchie verticale, régie par le dossier-maître dans les archives papier, se substitue un mode de production horizontal. Les impacts sur la collecte sont donc multiples : aucun vrac n’est envisageable, la structure des bases de données, leur agencement les unes par rapport aux autres, leurs métadonnées sont indispensables pour assurer leur conservation et leur communication. Désormais, la collecte ne se fait plus en différé, elle intervient dans le cycle de vie du document qui est validé, diffusé et immédiatement collecté. Il convient donc d’archiver au plus près de la production, ce qui implique une collecte de plus en plus automatisée. Le terme de « versement » est-il alors toujours pertinent dans ce cas là ?

L’ « archivage » du web, tel que présenté par Clément Oury et Aïda Chebbi, permettrait d’éviter le « trou de mémoire numérique » provoqué par la disparition des pages à forte valeur patrimoniale. Si la BNF et l’INA ont pour mission le dépôt légal de l’Internet depuis 2006, la BNF a entrepris l’archivage des pages web dès 2002, et ce sans jugement de valeur pour leur contenu. En revanche, l’exhaustivité est remplacée par la représentativité : tous les sites .fr, soit 2,5 millions, ont déjà été archivés grâce à un logiciel libre, Heritrix, appelé « collecteur ». Ce dernier collecte de manière automatisée des contenus figés, ce qui pose parfois des problèmes d’authenticité quant au format et à la forme. Ce système présente, en effet, quelques risques d’incohérence temporelle. Il convient alors de compléter la collecte automatisée par des collectes ponctuelles en fonction des événements et des nouveaux types de documents, comme les pages d’accueil ou encore les agendas en ligne.

Stéphanie Desvaux