Big Data nella statistica, le sfide da affrontare
Il miglioramento della comprensione dei fenomeni sociali ed economici integrando nuove fonti con quelle tradizionali, sono solo alcuni degli esempi delle principali linee di ricerca alla base delle sperimentazioni che l’Istituto nazionale di statistica sta compiendo sull’impiego dei Big Data nelle proprie attività istituzionali
26 Febbraio 2016
Stefano De Francisci, Istat
Pianificare e condurre progetti incentrati sull’impiego di Big Data nella statistica ufficiale implica dover affrontare alcune sfide particolarmente rilevanti. Da una parte, ripensare alcune tradizionali problematiche metodologiche (soprattutto campionamento e inferenza) allo scopo di adattare la specificità delle nuove fonti di Big Data lungo il ciclo di vita dei processi statistici; dall’altra, sfruttare le potenzialità delle nuove tecnologie disponibili per il trattamento di grandi masse di dati, tipicamente molto diversificate in termini di varietà e velocità. L’adozione di Internet come fonte (IaD), l’impiego di tecniche avanzate di data mining (spesso su dati non-strutturati) per scoprire la conoscenza nascosta tra i dati, il focus su approcci di previsioni a brevissimo termine o addirittura in tempo reale (le cosiddette tecniche di nowcasting), il miglioramento della comprensione dei fenomeni sociali ed economici integrando nuove fonti con quelle tradizionali, sono solo alcuni degli esempi delle principali linee di ricerca alla base delle sperimentazioni che l’Istituto nazionale di statistica sta compiendo sull’impiego dei Big Data nelle proprie attività istituzionali. Inoltre, un altro importante aspetto del quale si sta tenendo conto è la necessità di una piena integrazione delle conoscenze e competenze metodologiche e informatiche con quelle degli esperti dei vari settori statistici e domini applicativi coinvolti nei vari progetti, indirizzando le attività secondo un approccio di Data Science.
Partendo da queste premesse, le sperimentazioni condotte da Istat sui Big Data hanno riguardato inizialmente tre campi di azione: (i) la stima dei profili di mobilità dei city users di un dato territorio a partire dall’analisi del traffico telefonico su dispositivi mobili avvenuto nell’ambito dello stesso territorio; (ii) l’utilizzo di tecniche avanzate di forecasting e nowcasting nell’ambito dell’indagine sulle Forze di Lavoro e (iii) l’uso congiunto di tecniche di Web scraping e di algoritmi di text e data mining nella fase di stima dell’indagine sull’impiego di ICT nelle imprese.
Il progetto Persons & Places dell’Istat relativo alla Popolazione insistente e ai City Users, è un sistema informativo di dati amministrativi integrati su individui, (alcuni) eventi di vita e luoghi degli eventi stessi. Come spiega Roberta Vivio, responsabile del Progetto “l’integrazione di archivi anagrafici, previdenziali, universitari, e dell’occupazione alla base del Sistema Informativo, ha tra le sue potenzialità la produzione di una matrice origine/destinazione relativa alla mobilità per lavoro e studio a livello comunale, e la classificazione della Popolazione insistente per tipologia di uso del territorio, verso della mobilità, frequenza del pendolarismo, tipo di permanenza. Tali classi di popolazione sono i cosiddetti City Users: CU con dinamicità per lavoro o studio all’interno del comune, i CU dinamici in uscita (e in entrata) dal comune, e CU senza attività di lavoro/studio, quindi “statici”: i CU dinamici in uscita comprendono sia i Pendolari giornalieri che i Pendolari con frequenza meno che giornaliera. La sperimentazione, condotta in collaborazione con il CNR-ISTI e con l’Università di Pisa, si basa sull’uso di una metodologia già utilizzata nelle ricerche del CNR, e descritta nel contributo “ Use of mobile phone data to estimate mobility flows ” pubblicato negli Atti del Convegno SIS 2014 di Cagliari.” Il test è finalizzato al confronto tra due differenti approcci nello studio dei profili di mobilità, e cioè: (i) stima basata su Big Data (dati di telefonia mobile) e (ii) stima basata su archivi amministrativi. Ovviamente, il confronto è possibile solo a livello aggregato, non essendo disponibile per i dati di telefonia mobile alcuna informazione che permetta di stabilire corrispondenze a livello micro. Infatti le uniche variabili a disposizione nei Call Detail Records (CDR) sono un identificativo anonimo per il chiamante, la cella territoriale della posizione del chiamante a inizio/fine chiamata, l’ora di inizio/fine ora e la durata. La fase di analisi dei dati è articolata in tre fasi principali: pre-elaborazione, classificazione automatica e Clustering e label propagation. Nell’attività di pre-elaborazione i CDR sono trasformati in singoli profili di chiamata (PIC), vale a dire un insieme di profili utente aggregati in chiave spazio-temporali”. L’aggregazione temporale è per settimana (raggruppando separatamente i giorni lavorativi e i weekend) e per fasce orarie del giorno in modo da poter individuare quelle lavorative, le notturne, ecc.. La fase di classificazione automatica ( clustering) è consistita nell’individuazione di classi di profili utente. In particolare, sono stati individuati quattro profili: Residenti “statici”, residenti “dinamici, pendolari e visitatori, profili che corrispondono ad altrettanti modi di “insistere” sulla città. Tramite la fase di classificazione è stato possibile attribuire i vari PIC alle rispettive classi-profilo, attraverso due passi. Il primo è rivolto all’estrazione dei profili rappresentativi delle chiamate (cioè un limitato insieme di profili sintetici ottenuto aggregando con tecniche di clustering gli insiemi omogenei delle chiamate reali). Il secondo passo – una volta disponibili profili significativi – è consistito nel propagare con tecniche automatiche le label assegnate manualmente al passo precedente.
La seconda esperienza si è concentrata sull’uso della serie storica delle query di Google Trend (utilizzando in particolare la parola chiave ” Offerte di lavoro“) in riferimento alla serie storica delle stime mensili delle forze di lavoro a partire dal 2004. I dati settimanali di Google Trend (GT) sono stati aggregati in medie mensili secondo lo stesso criterio dell’indagine diretta. Lo scopo è la previsione (Nowcasting) del tasso di disoccupazione, ossia la stima del tasso di disoccupazione mensile per il mese in cui l’indagine è in realtà ancora in corso. Come illustra Stefano Falorsi, che ha coordinato l’attività Istat, svolta in collaborazione con Banca d’Italia “l’obiettivo è quello di fornire una stima provvisoria dell’indicatore di disoccupazione mensile prima che tutte le fasi dell’indagine siano state completate. Dato che le informazioni di GT non sono state sottoposte a nessuna forma di controllo di qualità, la nostra opinione è che il dato GT può essere utilizzato unicamente come una sorta di segnale istantaneo, fornendo indicazioni sul fenomeno di interesse e della sua evoluzione nel tempo e nello spazio. L’utilizzo della parola chiave Offerte di lavoro è giustificato dalla sua popolarità tra le parole chiave correlate alla ricerca di lavoro, tenuto anche conto che la sua ampia definizione la rende idealmente robusta rispetto a forti variazioni congiunturali della domanda/offerta di lavoro di specifici sottogruppi. Inoltre, le due serie ottenute rispettivamente dal campione generale e dal sotto-campione che ha utilizzato Internet, mostrano marcate somiglianze. I primi risultati dello studio sono basati su un’analisi comparativa tra due diversi modelli di serie temporali (entrambi basati sul modello ARIMA) che utilizzano i dati mensili ufficiali e le informazioni ausiliarie tratte da GT. Mentre il primo modello non utilizza le informazioni ausiliarie GT il secondo coinvolge, anche, le informazioni provenienti da GT. Lo studio ha mostrato con una certa evidenza che la serie di Google Trend fornisce un segnale attendibile ed immediato del livello del tasso di disoccupazione e può quindi costituire uno strumento utile al fine di ottenere una migliore previsione di questo indicatore se utilizzato insieme alla serie ufficiale dell’indagine sulle Forze di Lavoro.”
Nella rilevazione campionaria Istat su “ICT nelle imprese”, finalizzata a produrre informazioni sull’uso delle tecnologie informatiche e in particolare sull’utilizzo di Internet da parte di imprese italiane per vari scopi (e-commerce, e-recruitment, pubblicità, gare, e-Procurement, e-government), l’Istituto – oltre all’utilizzo dei questionari tradizionali – ha iniziato a esplorare la possibilità di utilizzare anche tecniche di Web Scraping sui siti delle imprese, puntando a combinare le due tecniche di raccolta in un approccio integrato.
Analizzando con tecniche di scraping circa 8.600 siti web, indicati dalle 19.000 imprese rispondenti come proprio sito, ne sono stati dapprima acquisiti i contenuti in formato testo (quindi con una struttura limitata) e successivamente elaborati in fase di stima con algoritmi di text e data mining, al fine di riprodurre parte delle informazioni raccolte tramite questionario, sostituendo in questo caso le risposte dirette con quelle provenienti dai risultati dello scraping.
Obiettivo della fase di analisi dei testi era la stima di variabile target (ad esempio la presenza di funzionalità di vendita via web), a partire dalle occorrenze di parole “significative” nei siti.
Al fine di scegliere gli strumenti migliori per costruire il sistema di inferenza, sono stati testati e comparati in questa fase alcuni metodi applicabili a problemi di text mining (alberi di classificazione, reti neurali, Random Forest, Support Vector Machine ed altri) e, come risultati di una prima fase di sperimentazione, è stato individuato come il più adatto allo scopo il metodo denominato Naïve Bayes, che ha permesso di ottenere buoni risultati sia in termini di performance sia rispetto alla qualità dell’allineamento tra il dato osservato e quello stimato. In una successiva fase di progetto si prevede di estendere la sperimentazione a tutti i siti web appartenenti alla popolazione di interesse (circa 200.000 aziende).
Come spiega Monica Scannapieco che ha curato gli aspetti informatici del progetto “oltre alle problematiche strettamente tecnologiche, sono stati affrontati due particolari aspetti di carattere più progettuale: le modalità di accesso e le modalità di memorizzazione di non strutturati. Le modalità di accesso hanno richiesto un utilizzo controllato di sistemi di web scraping che garantisse la qualità desiderata per l’acquisizione. Le modalità di memorizzazione hanno esplorato il trade-off tra l’indicizzazione di grosse moli di dati e la significatività delle informazioni da reperire per le analisi successive. Entrambi questi aspetti sono stati affrontati per la prima volta in modo sistematico in un’indagine Istat.”