La strategia in ambito data governance e l’intelligenza artificiale
Il potenziale delle statistiche sperimentali risulta essere elevatissimo in quanto queste hanno la capacità di colmare lacune conoscitive in maniera tempestiva, di fornire input allo sviluppo di nuove analisi e nuovi indicatori e di garantire un valido sostegno conoscitivo alle policy
11 Febbraio 2025
Massimo Fedeli
Direttore del Dipartimento per lo sviluppo di metodi e tecnologie per la produzione e diffusione dell'informazione statistica, Istat

Immagine della NASA da Unsplash - https://unsplash.com/it/foto/fotografia-aerea-della-citta-durante-la-notte-1lfI7wkGWZ4
Questo articolo è tratto dal capitolo “Trasformazione digitale” dell’Annual Report 2024 di FPA (la pubblicazione è disponibile online gratuitamente, previa registrazione)
La data governance e l’intelligenza artificiale
I dati nella società digitale contemporanea assumono un valore inestimabile; pertanto, l’Italia ha adottato un approccio che valorizza e salvaguarda il patrimonio informativo nazionale, identificandolo come un bene comune e una risorsa al servizio della collettività.
L’Istat, in qualità di produttore della statistica ufficiale del Paese, ha il compito di servire la collettività attraverso la produzione e la condivisione di informazioni statistiche, analisi e previsioni di elevata qualità. L’Istituto supporta, infatti, gli enti governativi, le Istituzioni e i cittadini nei propri processi decisionali in ottica Data Driven, adottando uno specifico approccio metodologico, tematico e tecnologico basato su dati e fatti oggettivi per intraprendere scelte informate.
Negli ultimi anni, in linea con gli Istituti di Statistica europei, l’Istat ha intrapreso un processo di evoluzione della produzione statistica. Il continuo calo dei tassi di risposta e i costi elevati della conduzione di indagini statistiche tradizionali su larga scala, hanno portato l’Istituto a implementare un innovativo approccio multi-fonte basato sull’implementazione di un sistema integrato che costituisce una struttura informativa unica e coerente a supporto della produzione statistica ufficiale.
Inoltre, uno degli obiettivi principali dell’Istituto consiste nello sfruttare il potenziale delle nuove tecnologie, quali l’intelligenza artificiale (IA), al fine di valorizzare le fonti dati non tradizionali (ad esempio i Big Data) e di facilitare l’interazione tra l’Istituto e i cittadini, efficientando le modalità di fruizione dei dati e delle analisi statistiche. In particolare, l’approccio multi-fonte adottato a partire dal 2016 permette di sfruttare al meglio il prezioso patrimonio informativo a disposizione e si basa su tre pilastri fondamentali che costituiscono le fonti principali di cui l’Istat si avvale:
- indagini statistiche, ovvero informazioni derivanti dall’applicazione del procedimento tradizionale di raccolta dati, ovvero mediante un questionario;
- archivi amministrativi, ovvero informazioni raccolte per scopi amministrativi e non statistici da parte dell’Ente titolare del dato amministrativo;
- sistema Integrato dei Registri (SIR), un sistema progettato per gestire e consolidare i dati statistici, con l’obiettivo di centralizzare e integrare le informazioni provenienti dagli Archivi Amministrativi e dalle indagini statistiche.
Il SIR è la spina dorsale del nuovo approccio multi-fonte e il suo obiettivo è di mettere a disposizione dell’Istituto un sistema integrato che rappresenti una struttura informativa unica e coerente a supporto dei diversi output della statistica ufficiale.
Tale obiettivo è raggiungibile centralizzando e integrando dati derivanti da una pluralità di fonti, in particolar modo incrementando l’uso di dati amministrativi, originati per finalità non statistiche da enti diversi dall’Istat, combinandoli con dati provenienti da indagini dirette condotte dall’Istituto.
Il progetto SIR costituisce un’innovazione strutturale considerevole nel modello di produzione statistica dell’Istituto. Negli ultimi anni l’Istat ha infatti svolto importanti progressi nella costruzione dei singoli registri e del sistema utilizzato per la loro integrazione e, più in generale, nella valorizzazione stessa del dato. Questa nuova prospettiva ha implicato significative innovazioni metodologiche, tecnologiche, organizzative e di ricerca, con una profonda e progressiva trasformazione dei processi di produzione statistica. Il SIR è costituito da quattro Registri Statistici di Base:
- Registro base degli Individui, delle Famiglie e delle Convivenze (RBI);
- Registro delle unità economiche (imprese e istituzioni);
- Registro statistico di base dei luoghi (RSBL);
- Registro delle attività, relativo alle attività e agli eventi che legano le unità appartenenti ai primi tre registri base.
I primi tre registri racchiudono le unità delle popolazioni più rilevanti per la statistica ufficiale: individui, unità economiche e territorio. Il Registro delle attività, invece, ha un carattere trasversale e riporta le informazioni sulle interrelazioni che sussistono tra gli altri tre registri, permettendo di costruire le connessioni necessarie a collegare tra loro persone, unità economiche e luoghi. Oltre i quattro registri di base, all’interno del SIR vi sono altri registri, i Registri Statistici Satellite, che perseguono l’obiettivo di rilasciare variabili di tipo tematico quali educazione, salute, sicurezza e reddito.
Nel Sistema, l’integrazione dei dati tra i registri avviene tramite un processo di linkage che sfrutta identificatori univoci. Questo processo permette di costruire una rete di informazioni dettagliata e coerente, garantendo al tempo stesso il massimo rispetto della privacy degli interessati. Difatti, l’anonimizzazione e le tecniche di protezione dei dati sono prioritarie per l’Istituto, data l’importanza del ruolo assunto nel sistema paese dal General Data Protection Regulation (GDPR) e dalle altre normative sulla privacy e la sicurezza. Il SIR permette di ottenere una visione più approfondita e ricca delle caratteristiche della popolazione, delle imprese e dell’economia in generale, aumentando esponenzialmente la qualità e il dettaglio dei dati messi a disposizione degli utenti.
In tale contesto, l’approccio multi-fonte implementato dall’Istat comporta numerosi vantaggi in termini di riduzione dei costi e dei tempi. Ridurre, infatti, il numero delle indagini dirette comporta una notevole diminuzione dei costi operativi nonché del burden statistico su cittadini e imprese. Inoltre, grazie al continuo aggiornamento dei dati amministrativi, l’Istat è in grado di produrre statistiche in tempi sempre più brevi e di monitorare fenomeni sociali ed economici Near Real Time.
L’Istat lavora costantemente all’evoluzione del proprio approccio multi-fonte e, quindi, del Sistema Integrato dei Registri, introducendo nuove fonti, aggiornando i processi di linkage e sviluppando algoritmi di analisi avanzati. In particolare, un aspetto di primario interesse per l’Istituto consiste nell’integrare dati provenienti dalle nuove fonti digitali, quali i Big Data, per continuare il processo evolutivo in termini di qualità e tempestività del dato.
Inoltre, in linea con il percorso intrapreso da Eurostat e da altri Istituti di Statistica Nazionali, l’Istat sta sperimentando l’applicazione di metodi innovativi nella produzione di dati. Tali statistiche prodotte sono definite appunto sperimentali in quanto ancora non rispettano pienamente i criteri necessari all’introduzione stabile di nuove metodologie, alla loro traduzione in soluzioni tecnologiche e organizzative, all’accertamento del rispetto dei requisiti di qualità e delle regole di armonizzazione.
Tuttavia, il potenziale delle statistiche sperimentali risulta essere elevatissimo in quanto queste hanno la capacità di colmare lacune conoscitive in maniera tempestiva, di fornire input allo sviluppo di nuove analisi e nuovi indicatori e di garantire un valido sostegno conoscitivo alle policy.
Le statistiche sperimentali sono organizzate in quattro differenti tipologie:
- classificazioni non standard ottenute a partire dalle tassonomie ufficiali utilizzate correntemente dall’Istat, oppure proposte sperimentalmente nell’ambito di attività di analisi e ricerca attraverso elaborazioni condotte su microdati;
- nuovi indicatori prodotti sulla base dell’integrazione di una pluralità di fonti, ufficiali e non ufficiali, ponendo l’enfasi sui fenomeni e non sulle fonti statistiche utilizzate per descriverli;
- analisi e quadri interpretativi di fenomeni complessi ottenuti attraverso l’integrazione di fonti ufficiali;
- risultati di sperimentazioni su Big Data, caratterizzate per loro natura dall’utilizzo di fonti non ufficiali.
In merito all’ultimo punto sopra citato, l’utilizzo per fini statistici dei Big Data e la produzione delle Trusted Smart Statistics (TSS) sono tra le sfide più importanti che l’Istituto e la produzione statistica ufficiale in generale si trovano ad affrontare. Con il termine TSS si fa riferimento a tutti quei prodotti statistici derivanti dai Big Data generati dall’uso continuativo di dispositivi elettronici, social network e smart devices.
Ad oggi, l’Istat è coinvolto in numerose iniziative dedicate alle TSS e ai Big Data in generale, partecipando attivamente e proponendo soluzioni sia metodologiche sia tecnologiche nel contesto dell’European Statistical System (ESS). Per poter affrontare in modo sicuro queste sfide, sfruttando la maturità ormai raggiunta nell’accesso e nel trattamento dei Big Data, è necessario che l’Istituto effettui un importante investimento metodologico che consenta di:
- contenere i costi legati alla rilevazione diretta delle informazioni garantendo elevati livelli di qualità dei dati;
- “catturare” in modo corretto (non distorto) l’informazione statistica contenuta in dati di natura non probabilistica e (spesso) non strutturata;
- misurare l’accuratezza e più in generale la qualità del dato stesso nonché l’affidabilità delle TSS prodotte.
Tale investimento metodologico consente di utilizzare le nuove tecnologie sfruttandone al meglio il potenziale. Le nuove tecnologie risultano, infatti, un elemento chiave per la valorizzazione del patrimonio informativo pubblico e per l’elaborazione efficiente delle banche dati. Tra queste, ruolo centrale è assunto dall’IA.
L’Istituto, nell’ambito dell’utilizzo dell’IA, sta sperimentando specifiche applicazioni al fine di evolvere il processo della produzione statistica ufficiale:
- gestione dei Big Data: l’IA è in grado di elaborare dati molto complessi, gestendo volumi di informazioni che gli strumenti tradizionali non possono “maneggiare”. La valorizzazione dei Big Data attraverso l’impiego di framework di Machine Learning e Deep Learning abilita la produzione delle Trusted Smart Statistics e consente l’integrazione di fonti dati innovative nel contesto della produzione statistica ufficiale;
- raccolta automatizzata dei dati: l’IA abilita la raccolta dati in modo automatizzato da varie fonti non convenzionali, quali social media e dati transazionali, applicando metodologie di web scraping e utilizzando sensori IoT, aumentando in modo esponenziale l’efficienza rispetto ai metodi manuali. A differenza dei metodi statistici convenzionali, le metodologie basate sull’IA consentono agli operatori di raccogliere grandi volumi di dati non strutturati in tempo reale e di condurre indagini statistiche intelligenti che combinano informazioni provenienti dalla compilazione di questionari web e dai sensori IoT;
- miglioramento della pulizia e dell’elaborazione dei dati: gli algoritmi di IA possono essere utilizzati per l’automatizzazione di alcune delle attività relative al processo di pulizia del dato, come la gestione di valori mancanti, la rimozione di duplicati, l’identificazione di outlier e la standardizzazione del formato. Tale applicazione dell’IA consente di snellire la fase di pre-elaborazione del dato che spesso risulta essere uno dei processi più lunghi dell’analisi statistica;
- modelli predittivi avanzati: l’implementazione dell’IA consente lo sviluppo di modelli predittivi complessi, come le reti neurali e i metodi d’insieme (ad esempio le foreste casuali e il gradient boosting), che sostituiscono in alcune applicazioni la tradizionale regressione lineare o logistica. I modelli predittivi complessi sono in grado di individuare relazioni e interazioni non lineari che i modelli statistici tradizionali potrebbero trascurare.
Tuttavia, l’introduzione dell’intelligenza artificiale pone alla statistica ufficiale anche sfide e limiti da superare. Difatti, il Deep Learning e i complessi algoritmi di Machine Learning su cui si basa l’IA funzionano come “scatole nere”: sono in grado di effettuare previsioni o classificazioni estremamente accurate ma non forniscono chiarimenti sul perché o sul come tali decisioni siano state raggiunte.
Di conseguenza, la poca trasparenza che contraddistingue gli strumenti e le metodologie di IA ostacola la produzione di analisi statistiche chiare, riproducibili e spiegabili che possano supportare il processo decisionale delle Istituzioni e dei cittadini. Si mantiene comunque elevato il grado di fiducia nei confronti dell’Istituto nazionale di statistica. La ricerca si sta concentrando sul miglioramento dell’affidabilità e della trasparenza dell’IA al fine di sfruttare al meglio e in modo sicuro le grandi innovazioni che tale tecnologia sta portando nel mondo della produzione statistica ufficiale.
Una volta superati tali ostacoli, l’Istat sarà in grado di migliorare l’efficienza e la scalabilità dei processi di raccolta ed elaborazione dei dati e di effettuare analisi sempre più complesse e approfondite, unendo il rigore dell’analisi statistica al potere adattivo e predittivo dell’IA.