Come difendersi dal web scraping? Il punto di equilibrio tra ANAC e Garante privacy
L’Autorità Nazionale Anticorruzione chiarisce che le PA non possono impedire l’indicizzazione dei dati pubblicati online, come stabilito dal Decreto legislativo che regola il diritto di accesso civico e gli obblighi di pubblicità e trasparenza. Il delicato equilibrio tra la trasparenza e la protezione dei dati personali solleva importanti interrogativi su come difendere i dati sensibili dal web scraping
27 Febbraio 2025
Patrizia Cardillo
Esperta di Protezione dati personali

Foto di Christophe Hautier su Unsplash - https://unsplash.com/it/foto/top-grigio-902vnYeoWS4
Il parere adottato dall’Autorità Nazionale Anticorruzione (Anac) lo scorso 30 gennaio 2025, ci dice che le Pubbliche amministrazioni, relativamente ai dati e alle informazioni oggetto di pubblicazione ai sensi del decreto legislativo 33/2013[1] (d.lgs. 33/13), non possono “introdurre soluzioni tecniche atte ad impedire ai motori di ricerca web di indicizzare ed effettuare ricerche”. E dunque come può il titolare tutelare i dati personali?
Il quesito
Un’amministrazione comunale aveva rivolto ad Anac un quesito volto a chiarire quali misure possano essere messe in atto per garantire la trasparenza e, contemporaneamente, inibire pratiche di web scraping di dati personali oggetto di pubblicazione obbligatoria nella sezione del sito “Amministrazione Trasparente”.
Nel quesito venivano indicate una serie di misure difensive, quali:
- creazione di aree riservate accessibili solo previsa registrazione e autenticazione;
- inserimento di clausole antiscraping nei termini di servizio dei siti;
- monitoraggio del traffico verso le pagine web per individuare eventuali flussi anomali di dati in entrata e in uscita;
- interventi specifici sui bot, utilizzando – tra le altre – le soluzioni tecnologiche rese disponibili dalle stesse società responsabili del web scraping.
Il quesito riproduceva, citando espressamente la fonte, le possibili cautele che i titolari dei trattamenti di dati personali resi disponibili on line per finalità diverse, sulla scorta di valutazioni da fare caso per caso, possono implementare al fine di prevenire o mitigare, in maniera selettiva, l’attività di web scraping per finalità di addestramento di modelli di intelligenza artificiale generativa (IAG), come indicate dal Garante per la protezione dei dati personali nel provvedimento n. 329 del 20 maggio 2024. Misure che lo stesso Garante afferma essere non esaustive e non obbligatorie. Come ben sappiamo, spetta, infatti, sempre al titolare, nel caso specifico il gestore di sito web o piattaforma online, ove sia anche titolare del trattamento dei dati personali ai sensi del Regolamento (UE) 2016/679, valutare, caso per caso, in base alla natura, l’ambito di applicazione, il contesto e le finalità dei dati personali trattati, il regime di pubblicità, accesso e riuso da assicurare, tenendo conto dello stato dell’arte e dei costi di attuazione, l’opportunità di utilizzo e individuare ulteriori misure che ritenessero adeguate.
Il web scraping: che cos’è?
Il web scraping (to scrape, grattare/raschiare) è una particolare tecnica informatica di estrazione di dati da un sito web per mezzo di programmi software che hanno lo scopo di raccogliere tutte le informazioni necessarie per indicizzare in modo automatico le pagine di un sito, analizzare i collegamenti ipertestuali e trovare associazioni tra termini di ricerca e classificarli (web crawling: il cervello del motore). È una tecnica largamente usata da tutti i motori di ricerca per offrire agli utenti risultati sempre aggiornati.
In particolare, parliamo di web scraping laddove l’attività di raccolta massiva ed indiscriminata di dati è combinata con un’attività di memorizzazione e conservazione dei dati raccolti per successive analisi, elaborazione e utilizzi mirati.
Si tratta, in tutta evidenza, di un’attività che pone serie criticità sotto il profilo della protezione dei dati e su cui il Garante è intervenuto, in via generale, con il provvedimento 329/24, contenente proprio alcune indicazioni per difendere i dati personali pubblicati online (siti web o piattaforme) da soggetti pubblici e privati in qualità di titolari del trattamento.
La risposta di Anac
Nel suo Parere l’Anac ricorda come il d.lgs. 33/13 garantisce l’accessibilità totale dei dati e documenti detenuti oggetto di pubblicazione obbligatoria ai sensi della normativa vigente, resi disponibili anche a seguito dell’accesso civico. Tali documenti devono essere, inoltre, pubblicati in formato di tipo aperto e riutilizzabili “senza ulteriori restrizioni” diverse dall’obbligo di citare la fonte e rispettarne l’integrità.
Argomenta altresì che una tale interpretazione è confermata dallo stesso Garante laddove, tra i“considerato” del provvedimento, esplicita che “restano ferme le disposizioni in materia di obblighi di pubblicazione per finalità di trasparenza di cui al d. lgs. n. 33/2013 e altre pubblicità legali, in materia di apertura dei dati e riutilizzo dell’informazione del settore pubblico ai sensi d. lgs. n. 36/2006, in materia di prevenzione della corruzione e trasparenza da parte di società ed enti di diritto privato controllati e partecipati dalle pubbliche amministrazioni e di enti pubblici economici, nonché le disposizioni previste da normative specifiche come quelle a tutela della proprietà intellettuale e del diritto d’autore”.
Ne emerge che, in forza del d.lgs. 33/13, occorre garantire l’accessibilità totale dei dati e documenti detenuti oggetto di pubblicazione obbligatoria ai sensi della normativa vigente, resi disponibili anche a seguito dell’accesso civico. Tali documenti devono essere, inoltre, pubblicati in formato di tipo aperto e riutilizzabili “senza ulteriori restrizioni” diverse dall’obbligo di citare la fonte e rispettarne l’integrità.
Conclusioni
Entrambi i provvedimenti, sia pure da diversi punti di vista, ribadiscono come qualunque titolare, pubblico o privato, di trattamenti di dati personali, deve rispettare i principi fissati dal Regolamento e ad essi conformare il suo comportamento.
I dati personali resi disponibili dalla PA nei siti web sono pubblicati esclusivamente per le finalità specifiche previste dalla legge (in particolare, obblighi di trasparenza, pubblicità legale, procedure a evidenza pubblica) e non possono essere utilizzati ad altri fini.
Grava sui gestori, pubblici e privati, di siti web e piattaforme online, stabiliti in Italia, l’obbligo di rispettare i principi fondamentali previsti dal Regolamento a partire dall’individuazione dell’idonea base giuridica di ogni trattamento, alla limitazione della finalità, alla minimizzazione dei dati, alla loro integrità oltre alla necessità di individuare misure di sicurezza più adeguate.
In tale quadro di riferimento, tra obblighi di pubblicazione e obblighi di tutela, come comportarsi?
Per rispondere occorre in primo luogo, distinguere tra il sito web (e la piattaforma online) tout court e la pagina “Amministrazione trasparente”.
Per quest’ultima, non potrà applicarsi alcuna misura in contrasto con l’obbligo di pubblicazione in formato aperto e riutilizzabile di cui al d.lgs. 33/13. Non potranno, pertanto, prevedersi aree riservate accessibili solo previsa registrazione e autenticazione o, più in generale, misure che limitino o impediscano l’indicizzazione. Del tutto compatibili con la disciplina sulla trasparenza appaiono le ulteriori misure indicate dal Garante nel provvedimento 329/24 quali l’inserimento di clausole/avvertenze ad hoc, il monitoraggio del traffico, gli interventi anti-bot.
Dall’altro, con riferimento più in generale a siti e piattaforme online, i gestori, in quanto titolari del trattamento, ai sensi dell’art.32 del regolamento, saranno tenuti a individuare ogni misura di sicurezza adeguata in relazione al caso concreto, tra cui spiccano quelle indicate dal Garante nel provvedimento 329/24 (inclusa la creazione di aree riservate) sulla base del principio di accountability.
Contributo alla Rubrica “Appunti di Privacy”: notizie, spunti di riflessione, brevi commenti, chiarimenti sui principali temi di attualità sul tema della tutela dei dati personali. A cura di Patrizia Cardillo, Esperta di Protezione dati personali, in collaborazione con FPA.
[1] Decreto legislativo 14 marzo 2013, n. 33 “Riordino della disciplina riguardante il diritto di accesso civico e gli obblighi di pubblicità, trasparenza e diffusione di informazioni da parte delle pubbliche amministrazioni”.