Qualità del dato open, ecco come aumentarla: l’utente al centro
Lo sviluppo di una pipeline
informatica per il controllo della qualità degli Open Data sulle
caratteristiche di interesse più trasversale, può venire in aiuto a quelle Istituzioni
–come i piccoli Comuni- che non hanno le risorse sufficienti per implementare
un processo di controllo della qualità dei dati prima della loro apertura
28 Gennaio 2016
Antonio Vetrò, direttore della Ricerca del Centro Nexa su Internet & Società e Marco Torchiano, Politecnico di Torino e Faculty Fellow del Centro Nexa
Il numero degli Open Data rilasciati dalle pubbliche amministrazioni in Italia è notevolmente cresciuto a seguito dell’ “Open by Default“ (Decreto No. 179/2012): al momento della stesura di questo articolo, sono più di diecimila i dataset aperti segnalati da dati.gov.it in vari formati. I possibili benefici derivanti dalla disponibilità dei dati della PA sono ampiamente discussi e largamente condivisi, sia in termini di trasparenza, che di potenziale economico. La stessa attenzione, tuttavia, non è normalmente dedicata alle barriere al loro riuso, che possono indebolirne, se non addirittura annullarne, le potenzialità.
Senza dubbio la più conosciuta delle barriere è il formato con cui i dati sono resi disponibili. A tal riguardo, è spesso usata come riferimento la scala 5-Star Linked Data, in cui il livello più basso (una stella) corrisponde a un dataset aperto in qualsiasi formato (ad esempio un’immagine, oppure un file audio), e quello più alto corrisponde a dati rilasciati con un formato aperto definito dal W3C e collegato ad altri dataset, tramite l’adozione di ontologie standard. I gradi di mezzo sono rappresentati da dati strutturati e in un formato aperto. La scala 5-Star Linked Data, ideata dall’inventore del Web Tim-Berners Lee, è uno strumento utile e necessario per un’adeguata apertura dei dati. Tuttavia, non è sufficiente, perché non include molti altri aspetti. Ad esempio, non dice nulla sulla completezza dei dati aperti, sulla loro accuratezza, sui metadati ad essi associabili, oppure sull’attualità delle informazioni.
Lo standard di qualità ISO/IEC 25012, esteso in seguito dall’ ISO/IEC 25024, è il riferimento giusto per capire la molteplicità degli aspetti della qualità a cui bisognerebbe prestare attenzione quando si rilasciano i dati in modalità. Tra le 15 caratteristiche di qualità proposte nello standard, l’ Agenzia per l’Italia Digitale ha enfatizzato l’importanza dell’accuratezza (semantica e sintattica), della coerenza, della completezza e dell’attualità del dato, e, più recentemente, dei seguenti aspetti: credibilità, sicurezza (privacy), accessibilità, comprensibilità, disponibilità, portabilità e reperibilità. Questo elenco è un ulteriore conferma delle tante sfaccettature di questa problematica.
E’ importante dunque identificare gli aspetti giusti di qualità del dato che si vogliono monitorare e migliorare: le nostre esperienze di definizione e applicazione di misura della qualità dei dati applicata agli Open Government Data, ci hanno insegnato che un modo molto semplice ed efficiente è quello di partire dai bisogni degli utenti finali e dalle loro difficoltà riscontrare nell’uso dei dati (nel nostro caso si trattava di sviluppatori di applicazioni). A partire dalle problematiche raccolte, è possibile risalire alle caratteristiche di qualità che meglio le rappresenta. Piccoli pilot con un campione di possibili usufruenti dei dati, con questionari e/o brevi interviste, possono essere più che sufficienti per identificare correttamente le principali barriere all’utilizzo del dato, che se non rimosse o abbassate, rischiano di annullare i benefici derivanti dalla disponibilità dello stesso.
Una volta individuati gli aspetti di qualità dei dati di più alto interesse, a partire dalla natura e il contesto d’uso dei dati, è importante misurarli con delle metriche appropriate. Anche in questo caso lo Standard ISO/IEC 25024 viene in aiuto con un set di 63 misure di qualità applicabili alle caratteristiche di qualità dei dati, e con un metodo di applicazione che prevede anche la modifica di tali misure, o l’aggiunta. Il panorama dei tipi di dati rilasciati dalle amministrazioni pubbliche è così ampio che potrebbe essere necessario un appropriato tailoring delle misure, che rispetti le specificità del dato e ne misuri correttamente gli aspetti di qualità scelti.
Oltre a rispettare i requisiti dello standard, le metriche dovrebbero essere automatizzabili per consentire un monitoraggio veloce e ripetibile: è bene tenere a mente che questa attività di sviluppo software richiede ulteriori risorse, che si sommano a quelle dovute all’intero processo di miglioramento dei dati. Pertanto, riteniamo che lo sviluppo di una pipeline informatica per il controllo della qualità degli Open Data sulle caratteristiche di interesse più trasversale, può venire in aiuto a quelle Istituzioni –come i piccoli Comuni- che non hanno le risorse sufficienti per implementare un processo di controllo della qualità dei dati prima della loro apertura.
In attesa di ciò, un aiuto concreto per tali Istituzioni può arrivare da un mondo molto vicino a quello degli Open Data, ovvero quello dell’ Open Source Software, che offre già diversi tool per le attività di base di miglioramento della qualità (quali il data cleaning, il data enrichment, data format validation, data versioning).