Istat, ecco la strategia sui Linked Open Data
Avere un modello globale di condivisione, interoperabilità semantica e integrazione dei dati basato sui Linked Data favorisce gli sforzi necessari ad avere un modello globale per la rappresentazione e lo sfruttamento dei dati a disposizione in una organizzazione, aumentando il valore dell’informazione
30 Giugno 2016
Stefano De Francisci e Monica Scannapieco, Istat
Il portale Linked Open Data (LOD) di Istat consente di accedere e navigare dati in formato aperto sulla base di tecnologie e standard del web semantico.
Il portale, che permette la pubblicazione di dati come Linked Open Data – LOD (massimo livello di apertura – 5 stelle – nella scala dei dati open), costituisce il primo sistema di diffusione che l’Istat pubblica in piena ottemperanza delle linee guida per la valorizzazione del patrimonio informativo pubblico. I LOD, interrogabili direttamente da qualsiasi applicazione, rispondono in tal modo alle esigenze di disporre di dati standardizzati e interoperabili espresse dalle comunità di utilizzatori.
In poco più di un anno di pubblicazione (il sistema è disponibile dal mese di maggio 2015) il portale ha avuto oltre 23.000 diversi visitatori, con quasi 400.000 pagine visitate e circa 900 mila singoli accessi.
La pubblicazione dei dati in formato LOD si basa sulla definizione di ontologie (rappresentazioni formali, condivise ed esplicite della concettualizzazione di un dominio di interesse). Il primo nucleo di Linked Open Data pubblicato dall’Istituto è costituito da dati provenienti dal Censimento della popolazione e delle abitazioni 2011. Per rappresentare tali dati in formato LOD sono state definite due specifiche ontologie: l’ontologia delle basi territoriali, che formalizza e descrive il territorio italiano analizzandolo sia dal punto di vista amministrativo che statistico-geografico, e l’ontologia dei dati censuari, relativa ai metadati delle variabili censuarie. Dal punto di vista amministrativo il territorio è suddiviso in Stato, Ripartizione geografica, Regione, Provincia, Comune e Area sub-comunale (per i 34 comuni di maggiore dimensione demografica e con popolazione non inferiore a 100.000 abitanti). Dal punto di vista statistico-geografico il territorio è invece partizionato in Sezioni di censimento, Aree di censimento e Località. Sono anche rese disponibili le aree speciali (entità geomorfologiche, isole amministrative, zone in contestazione, nuclei speciali). Per l’ontologia dei Dati Censuari è stata utilizzata una specifica meta-ontologia (Data Cube Vocabulary) creata appositamente per la rappresentazione di dati multi-dimensionali. Le variabili censuarie (oltre 150) sono riferite alle seguenti aree tematiche: popolazione residente, popolazione straniera, famiglie, grado di istruzione, condizione professionale, pendolarismo, alloggi, edifici.
Dal punto di vista delle funzionalità a disposizione degli utenti per accedere/utilizzare i dati, il sistema prevede meccanismi di selezione, ricerca, interrogazione ed estrazione dei dati attraverso interfacce che consentono di interagire in modalità sia guidata, attraverso meccanismi guidati di selezione che permettono il download di dataset a livello territoriale comunale, sia libera, attraverso un Endpoint SPARQL (pratica interfaccia di accesso che funziona come una porta attraverso cui il sistema comunica con il mondo esterno) che offre la possibilità di eseguire interrogazioni non predefinite. Sono inoltre disponibili interfacce per la navigazione tra i dati (in modalità ipertestuale e grafica) che consentono di “muoversi” tra i dati attraverso i reciproci collegamenti implementati dal formato RDF. Per l’interoperabilità tra applicazioni è disponibile un Web Service REST che permette di accedere al triple store dell’Istat in modalità machine-to-machine e di ottenere i dataset delle variabili censuarie accettando alcuni parametri, come regione, comune e livelli territoriali subcomunali, dataset tutti per dominio tematico e vari formati di output. In aggiunta, l’accesso machine-to-machine è anche garantito dall’API REST dell’Endpoint SPARQL alla quale è possibile sottomettere interrogazioni libere.
L’apertura della nuova frontiera dei Linked Open Data comporta la necessità di porre particolare attenzione alla qualità del dato. Nel portale viene per questo certificata la provenienza dei dati, utilizzando anche in questo caso una specifica meta-ontologia (PROV-O) che consente di descrivere in dettaglio la provenienza dei dati. I dati pubblicati sono corredati in particolare da un insieme di metadati tra cui entità, attività e agenti partecipanti al processo di generazione del dato, responsabile del dato, possessore dei diritti sui dati, data di ultima modifica, titolo pubblicato, periodo di riferimento, licenza di pubblicazione, descrizione dei dati, riferimento spaziale dei dati, ecc.
Un interessante caso di utilizzo del portale LOD Istat è l’integrazione con il portale dei Linked Open Data dell’ISPRA (Istituto per la Protezione e la Ricerca Ambientale). I dati disponibili a livello comunale presso i rispettivi endpoint SPARQL dei due Istituti sono stati collegati tra loro. In particolare sono stati collegati per Istat i dati del territorio e del XV Censimento della popolazione e delle abitazioni e per ISPRA un insieme di indicatori sul consumo di suolo. Attraverso il collegamento per via semantica dei dati è ad esempio possibile selezionare ed estrarre in un unico dataset i comuni di una determinata provincia con associati indicatori su: numero totale di edifici e complessi edilizi, numero di edifici utilizzati e complesso edilizio, numero di edifici residenziali e numero di edifici e complessi edilizi per tipologia d’uso (dal triple store istat) e i corrispondenti indicatori sul consumo del suolo, sia in ettari sia in percentuale (dal triple store dell’ISPRA).
Infine, è anche importante evidenziare come la pubblicazione i dati in formato LOD possa essere utilizzabile anche per l’integrazione dei dati all’interno di una organizzazione, prima e indipendentemente dal successivo utilizzo in diffusione. In altri termini, avere un modello globale di condivisione, interoperabilità semantica e integrazione dei dati basato sui Linked Data favorisce gli sforzi necessari ad avere un modello globale per la rappresentazione e lo sfruttamento di tutti i dati a disposizione in una organizzazione, in questo costituendo uno dei principali pilastri per aumentare il valore dell’informazione.