Tech&Co
Culture Web

Deux milliards d'URL: la BnF débute son archivage des skyblogs, qui disparaissent ce 21 août

Annoncée en juin dernier, la fin des skyblogs prend effet officiellement ce 21 août. La fin d'une époque qui lance surtout le début de l'archivage opéré par la Bibliothèque nationale de France et l'Institut national de l'audiovisuel.

Depuis ce 21 août 2023, Skyblog n'est plus. Les aficionados de gifs kitsch et de polices d'écriture à paillettes doivent dire adieu à ces blogs amateurs, qui ont connu leur âge d'or dans les années 2000.

Face à cette triste annonce pour la culture web, l'Institut national de l'audiovisuel (Ina) et la Bibliothèque nationale de France (BnF) se sont rapidement portées garantes de la sauvegarde de ce patrimoine français numérique, en indiquant qu'ils allaient conjointement archiver l'ensemble des pages existantes, soit environ 19 millions de blogs.

2 milliards d'URL à archiver

Et le travail va enfin pouvoir commencer. Car la Bibliothèque nationale de France ne va débuter son processus d'archivage que cette semaine, après plusieurs phases de tests (l'institution a été contactée dès avril par Skyrock) pour décréter la façon la plus optimale de collecter ces données.

"Cela va prendre une cinquantaine de jours pour archiver les 12,6 millions de blogs qui nous ont été confiés. Skyblog s'est déjà chargée de nous fournir les URL des pages d'accueil des blogs mais il va falloir aller chercher chaque composante des sites. Il a fallu trouver la bonne vitesse de collecte pour éviter tout problème", explique à Tech&Co Vladimir Tybin, chef du service du Dépôt légal numérique à la BnF.

"Cela représente au total 2 milliards d'URL à collecter, soit 38 téra octets de données. C'est beaucoup mais cela représente un moment emblématique du web français, c'est une mission patrimoniale", affirme Vladimir Tybin.

L'Ina doit de son côté archiver une quantité beaucoup plus raisonnable de blogs, environ un million. Contacté par Tech&Co, l'institut n'a pour le moment pas répondu aux sollicitations pour connaître l'avancée de son processus de collecte. Mais l'Ina semble déjà bien avancé puisqu'il avait annoncé lors de l'annonce de l'arrêt des blogs en avoir déjà sauvegardé pas moins de 1,6 million.

Pas d'accès libre aux blogs

Pour la BnF, la collecte des données se fera avec Heritrix, un "robot moissonneur" chargé de naviguer sur les URL qu'on lui soumet afin de capturer le code source de chaque page, avec ses textes, ses images ou ses vidéos, et de tout enregistrer.

Un travail qui ne devrait pas effrayer le robot, déjà habitué à capturer tout le web français depuis plusieurs années, parfois plusieurs fois par jour, des sites d'actualité aux tweets (même si l'arrivée d'Elon Musk et le passage à X ont compliqué la tâche) en passant par les chaînes YouTube ou les vidéos TikTok.

"L'objectif de la BnF est d'avoir l'archive et la mémoire les plus complètes et représentatives possibles. Nous avons collecté 48 milliards d'URL du web depuis 1996", souligne le responsable du Dépôt légal numérique de la BnF.

Au terme des 50 jours de collecte, avec une fin prévue vers novembre, les skyblogs seront rendus disponibles dans les salles de recherche de la Bibliothèque nationale de France, accessibles essentiellement pour les chercheurs. "On ne peut pas mettre à la disposition de tous ces sites, pour des raisons de droit d'auteur et de propriété intellectuelle", précise Vladimir Tybin.

Il sera donc difficile pour les internautes n'ayant pas fait les démarches nécessaires pour sauvegarder leur relique de retrouver celle-ci. Sauf s'ils justifient d'un vrai travail de recherche, toutefois largement possible au vu de tout ce que racontent ces skyblogs d'une époque désormais révolue.

Julie Ragot