Exploratory Computing: un nuovo approccio per l’utilizzo pratico dei dati complessi

Home Open Government Open Data Exploratory Computing: un nuovo approccio per l’utilizzo pratico dei dati complessi

25 Novembre 2015

N. Di Blas, M. Mazuran, P. Paolini, E. Quintarelli, L. Tanca, Politecnico di Milano

La cosiddetta “sfida dei Big Data” ha stimolato la ricerca sui metodi e le tecniche per affrontare il problema della gestione di enormi quantità di dati, in particolare per supportare gli utenti nell’estrarne informazioni sintetiche e significative. La maggior parte dei metodi sviluppati affronta e risolve il problema assumendo un preciso punto di vista, proponendo, ad esempio, nuove tecniche di ottimizzazione delle interrogazioni oppure metodi di analisi che riassumono i dati o riducono la loro dimensionalità, o ancora tecniche di visualizzazione dei dati, etc. Partendo dall’osservazione di come l’essere umano esplora un dominio per comprenderlo ed eventualmente prendere delle decisioni, “Exploratory Computing” (EC) propone anche a utenti non esperti un paradigma basato su un processo iterativo e multi-step, ricco di scoperte ma anche di ripensamenti, che permetta l’acquisizione progressiva di conoscenze passando, sulla base del risultato di una richiesta, al successivo passo di esplorazione, in una sorta di “dialogo” tra l’utente e il sistema. Un sistema EC [1], ad ogni richiesta dell’utente, fornisce un feedback che enfatizza le proprietà interessanti del risultato e suggerisce una o più possibili azioni da intraprendere al passo successivo.

Il nostro obiettivo è proporre una sorta di “manifesto” di questo nuovo approccio per l’esplorazione di insiemi di dati, non solo numerosi ma anche e soprattutto ricchi di sfaccettature, le cosiddette “features” o “facets”: i dataset comprendono oggetti semanticamente complessi, con molte proprietà, la cui ispezione può arricchire la conoscenza dell’utente andando anche oltre le sue aspettative. Il paragone più vicino è quello del dialogo tra persone: quando due persone parlano, fanno continuamente riferimento alle loro conoscenze, organizzandole al fine di comprendersi e contribuire all’interazione al meglio. In altre parole, due persone che parlano stanno in realtà esplorando le caratteristiche dei reciproci dataset: il proprio, per offrire un contributo adeguato, quello dell’interlocutore, per giungere a una adeguata comprensione. Gli obiettivi e gli esiti di questo processo dialogico sono molteplici: ricerca di informazioni, ricerca di ispirazione, supporto a una decisione da prendere, confronto tra opinioni, apprendimento, svago (intellettuale) privo di un obiettivo definito, etc.

Facciamo un esempio: immaginiamo un sistema EC che abbia come tema la didattica supportata da tecnologie e contenga un dataset di informazioni su quali esperienze basate sulla tecnologia si possano svolgere a scuola. Un insegnante di scuola secondaria inferiore vorrebbe introdurre l’uso dei tablet nella sua classe: a questo scopo accede al sistema e crea un sotto-insieme di esperienze che siano proprio quelle che hanno fatto uso di tablet. Nell’interrogare il sistema, esattamente come in un dialogo (“se si usano i tablet, quali benefici si ottengono?”), apprenderà che facendo uso di tablet gli studenti si concentrano meglio sui contenuti ma le loro relazioni interpersonali peggiorano. A questo punto l’insegnante, che le ritiene importanti, può decidere di cambiare punto di vista, chiedendosi invece quali tecnologie potrebbero favorire i benefici relazionali. Potrebbe anche decidere di raggruppare le esperienze in base alle tecnologie adottate ed effettuare un confronto tra i diversi benefici apportati.

Come l’esempio illustra, in un percorso di EC: (i) il processo interattivo è più importante delle singole interrogazioni: un’esperienza esplorativa si basa anche su scoperte fatte nei passi precedenti e non parte da zero ad ogni nuovo passo; (ii) i riscontri sono tanto rilevanti quanto le richieste poiché servono da guida per i passi successivi; (iii) la risposta del sistema fornisce un feedback sulle proprietà dei dati: si privilegia la comprensione delle caratteristiche dei dataset rispetto ai singoli elementi che li popolano. Quindi un utente di un sistema EC può intraprendere l’interazione per indagare, poniamo, un fenomeno: ma nell’indagare, le sue ipotesi di ricerca possono passare da vaghe a definite e quindi anche la sua modalità di interagire cambierà.

Ci sono diversi campi di ricerca che, pur avendo in sé obiettivi differenti, possono venire in aiuto nella realizzazione di un sistema di EC. Per esempio, l’area dell’Exploratory Data Analysis [2] adotta statistiche elementari e visualizzazioni dei dati per consentirne una esplorazione veloce e intuitiva. Questo tipo di ricerca considera l’esplorazione come un singolo passo e non un processo ma le tecniche adottate possono essere importate per i sistemi EC. Un altro ambito di ricerca molto importante come base per l’EC è quello dell’Intensional Query Answering [3], che suggerisce l’idea di denotare oggetti mediante le loro proprietà, piuttosto che i loro valori. Mentre è difficile caratterizzare completamente un dataset usando solo le sue proprietà, una descrizione approssimata – cioè con una precisione inferiore al 100% – di un insieme di dati è più fattibile [4]. In EC, proponiamo l’uso di risposte intensionali approssimate nelle varie fasi del processo esplorativo, per fornire all’utente descrizioni concise e approssimate del contenuto dei dati. Questo tipo di descrizione è molto adottato anche nell’ambito del data mining [5] che si concentra su algoritmi e tecniche per trovare, in una grande quantità di dati, correlazioni o gruppi in grado di trasmettere la conoscenza implicita. L’uso delle tecniche sviluppate in questi ambiti di ricerca può fornire i mezzi per combinare e confrontare insiemi di risultati tra loro e per gestire il progresso incrementale di esplorazione realizzato dai sistemi EC.

La ricerca tramite facet, chiamata anche “navigazione tramite facet”, è una strategia (che sta diventando “lo” standard) per accedere a insiemi di dati organizzati in una tassonomia, vale a dire un sistema di classificazione [6]. A questo scopo gli elementi devono essere classificati in base a una serie di facet: ad esempio, nel caso dell’insieme di esperienze educative di sopra, alcuni facet potrebbero essere “livello scolastico” o “materia”, ecc. Le recenti proposte di ricerca tramite facet includono diversi strumenti, tuttavia non esiste ancora un modello che faccia da fondamento e unifichi le varie proposte, e i problemi di prestazioni che derivano dal volume dei dati in gioco vengono ignorati.

In conclusione, molte tecniche provenienti da questi regni, che sono state tenute distinte per così tanto tempo, possono essere incapsulate nei sistemi EC, con la sfida tecnica aggiuntiva di rendere possibile il loro utilizzo all’interno di un intero processo di esplorazione online personalizzata.

[1] N. Di Blas, M. Mazuran, P. Paolini , E. Quintarelli, L. Tanca. Exploratory computing: a challenge for visual interaction. AVI, 2014. 361- 362.

[2] J. Tukey. Exploratory data analysis. Reading, MA, 231, 1977.

[3] A. Pirotte, D. Roelants, E. Zimanyi. Controlled Generation of Intensional Answers. IEEE Trans. Knowl. Data Eng. 3(2): 221–236, 1991.

[4] M. Mazuran, E. Quintarelli, L. Tanca. Data Mining for XML Query- Answering Support. IEEE Trans. Knowl. Data Eng. Engine 24(8): 1393– 1407, 2012.

[5] J. Han, M. Kamber. Data Mining: Concepts and Techniques, 2nd edition, Morgan Kaufmann Publisher, 2006.

[6] D. Tunkelang. Faceted Search (Synthesis Lectures on Information Concepts, Retrieval, and Services). Morgan and Claypool Publishers, 2009.