La Biblioteca Nacional de España ha guardado más de 1.970.00 dominios web durante 25 días, rozando los 68 TB de información. El número de dominios ‘.es’ desde 2016 ha aumentado en 180.000 y la infraestructura tecnológica usada ha mejorado su eficacia reduciendo considerablemente el tiempo necesario para la descarga de la información, de los 92 días en 2016 a los 25 días en 2021, según ha informado la institución.
Entre las funciones de la BNE destaca la de preservar el patrimonio documental en internet. Para ello se lleva a cabo, por sexto año consecutivo, la recolección masiva de sitios web pertenecientes al dominio ‘.es’ como parte de la memoria colectiva de España.
En total, la Biblioteca Nacional de España ya conserva el 87 por ciento de los dominios ‘.es’. Para guardar los contenidos se trabaja con un software de recolección automático, NetarchiveSuite, que utiliza 71 arañas que rastrean la web y guardan los contenidos pinchando y descargando la información de los enlaces que encuentra.
El contenido se almacena en un formato específico, conocido como WARC (Web Archive), que permite la consulta de los sitios web tal y como se haría navegando por Internet. A las recolecciones se les establece un límite de tamaño de descarga por cada sitio web para evitar la sobrecarga y saturación del sistema de recolección.
La BNE establece un límite de 150 Megabytes por cada dominio, por lo que una vez llegado a este límite la recolección para, continuando con el siguiente dominio. Este año y con esta configuración, se ha logrado guardar de manera completa el 87% del total de los dominios.
El Archivo de la Web Española desde su creación en 2009, complementa las recolecciones masivas con una selección de sitios web que recogen, con mayor profundidad y frecuencia, más de 40.000 sitios web en cualquier dominio (.com, .net, etc.) importantes por su valor histórico, social o cultural.
Esto no sería posible sin el apoyo del Consejo de Cooperación Bibliotecaria, que posibilita la colaboración de más de 30 conservadores web de diferentes comunidades autónomas, que seleccionan e incorporan contenidos al Archivo de la Web Española. Las últimas en incorporarse al proyecto han sido la ciudad autónoma de Ceuta y las Islas Baleares.
A las colecciones de mayor recorrido como política nacional o medios de comunicación, se unen colecciones específicamente creadas para abordar los temas de mayor actualidad como el cambio climático, el feminismo o los videojuegos.
En esta línea, se siguen guardando contenidos sobre la pandemia del Coronavirus con más 6.000 sitios web guardados hasta la fecha. También se han cubierto acontecimientos como las elecciones de Cataluña y Madrid; fiestas de importancia social y reivindicativa como el 8 de marzo, el Día Internacional de la Mujer, o el Orgullo LGTBI.
Sin este trabajo, muchos de los contenidos generados de forma masiva y continuada en Internet se perderían para siempre, haciendo imposible el estudio de nuestra sociedad por los ciudadanos e investigadores, actuales y futuros.