Il Web Archiving, la nuova frontiera digitale affinché l’informazione non vada persa

Il passato di Internet in un click

Alcune Nazioni si stanno preoccupando di archiviare i siti web per non perdere le proprie informazioni aumentando così il sempre più vivo dibattito sul tema. La problematica è arrivata alla sensibilità del grande pubblico quando il Time ha lanciato, qualche mese addietro, un vero e proprio allarme causato dal fatto che molti siti web creati in occasione della morte di Lady D non sono più attivi e raggiungibili. Da qui il problema di cosa faccia ogni Nazione per salvaguardare quanto viene pubblicato sul web, entro i suoi confini e per ciò che la riguardi, visto che vige il deposito legale di stampa, che obbliga appunto al deposito presso delle istituzioni deputate di tutte le pubblicazioni.

Ad oggi molti paesi si stanno organizzando perché il loro “patrimonio” culturale pubblicato su web non vada perso archiviando i siti che lo riguardano e ben 15 Stati hanno in corso progetti di Web Archive: la Svezia, ad esempio, archivia lo spazio web nazionale dal 1997 e ha l’archivio più significativo (5,5 terabyte-TB). A livello internazionale il Web archiving nasce con Internet Archive, istituzione senza fine di lucro che dal 1996 vuole raccogliere lo spazio web mondiale e che al momento dispone di 150 TB. Invece le biblioteche nazionali come la British Library, puntano a selezionare i siti “di interesse storico” o quelli che, secondo il progetto PANDORA delle biblioteche australiane (NLA), sono ritenuti utili alle esigenze della ricerca. Com’è facilmente intuibile alla base di questa scelta c’è il concetto di selezione, ma in realtà chi può sapere cosa e quanto potrà essere rilevante nel corso del tempo? Senza contare il fatto che tutto ciò che può essere definito “utile”, non sempre è archiviabile; infine esistono anche per il materiale pubblicamente disponibile sul web dei problemi di copyright e non tutti i siti possono essere “raccolti” ed organizzati per un loro futuro recupero. Internet Archive per esempio non fa l’harvesting di siti web se questi non desiderano essere archiviati e cancella dal proprio archivio il sito già raccolto se è il proprietario a richiederlo.

Il web si presenta, ed infatti è, come un magazzino caotico in cui ognuno può, sempre più facilmente, depositare e consultare i dati più disparati, ma questi dati devono essere raccolti ed indicizzati per essere più correttamente raggiungibili, visto che ognuno di noi ha spesso dovuto scontrarsi con il “rumore” informatico. Inoltre sappiamo che da oltre dieci anni il web rappresenta la maggiore fonte di informazione al mondo, ma forse non sappiamo che mediamente i siti dopo poco più di soli 40 giorni vengono modificati o cancellati rischiando di far perdere un patrimonio non solo informativo, ma anche culturale (per maggiori informazioni sulle iniziative in corso di web archive, di software open source per il web archiving si veda il saggio di G. La Rosa su http://www.cresco.enea.it).

E in Italia? La nuova legge sul deposito legale datata 2004 (n. 106) per la prima volta evidenziava che i siti web divenivano oggetto di deposito legale presso le biblioteche nazionali come qualsiasi altra pubblicazione. La biblioteca nazionale di Firenze, che già da tempo si stava interessando a tale esigenza, si è subito prodigata perché quanto dettato dalla legge potesse avvenire, sebbene si fosse ancora in attesa del regolamento attuativo circa l’harvesting e la modalità di deposito dei documenti digitali. La porzione web catturata in via sperimentale ha portato a raccogliere 7,22 TB (7mila miliardi di byte) dal dominio “.it”: una porzione di web che si avvicina all’equivalente del posseduto della Biblioteca del Congresso degli Stati Uniti che conserva circa 10 TB di informazioni. [A tale proposito si veda Web archiving e ruolo della BNCF pubblicato su “Biblioteche oggi”, n. 2 (2007) e il sito www.aib.it alla sezione Gruppo di studi o sulle biblioteche digitali].

Quindi nell’ottica di quanto detto non si tratta più di conservare il supporto sul quale è conservata l’informazione, ma si tratta prima di arrivare e poi mantenere leggibile questa informazione nella forma originale dal momento che le risorse digitali, almeno quelle raggiungibili, sono facilmente manipolabili. I dibattiti e le sperimentazioni sono iniziati da tempo e non è difficile intuire che il lavoro sarà ancora lungo e si imbatterà in molte problematiche di non facile soluzione, che qui non possono essere nemmeno elencate. Però in questa sede possiamo auspicarci che non avvenga quanto già Platone temeva: “la scrittura [digitale] non aumenterà la nostra memoria, ma la distruggerà”.

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...