
Obblighi di trasparenza: amministrazione trasparente e web scraping
A cura di Rosalisa Lancia, DG Area Formazione e Consulenza di Legislazione Tecnica
Contesto
L’evoluzione tecnologica degli ultimi anni ha portato all’affermazione di pratiche di raccolta automatizzata di dati che pongono nuove e complesse sfide al sistema di protezione dei dati personali. Tra queste, il c.d. “web scraping” rappresenta oggi una delle questioni più delicate, soprattutto quando i dati raccolti vengono utilizzati per addestrare sistemi di intelligenza artificiale generativa.
La problematica assume particolare rilevanza quando oggetto di questa raccolta automatizzata sono dati personali, ovvero informazioni che consentono l’identificazione diretta o indiretta di persone fisiche. Nomi, indirizzi, numeri di telefono, indirizzi email, curriculum vitae, fotografie e qualsiasi altra informazione riferibile a individui determinati possono essere estratti massivamente dai siti web e successivamente aggregati, elaborati e riutilizzati per finalità completamente diverse da quelle per cui erano stati originariamente pubblicati.
Va da sé che la pratica del web scraping assume una particolare rilevanza quando i dati personali sono pubblicati nella sezione “Amministrazione Trasparente” dei siti istituzionali degli enti perché si crea una tensione interpretativa tra l’applicazione del D.Lgs. 33/2013 e il rispetto dei principi della tutela dei dati personali di cui al Reg. UE 2016/679 e al D.Lgs. 196/20023.
Richiesta di parere ad ANAC
Il RPCT di un Comune ha chiesto all’ANAC di chiarire quali misure tecniche possano essere adottate per garantire contemporaneamente la trasparenza amministrativa prevista dal decreto trasparenza e inibire le pratiche di web scraping dei dati personali pubblicati nella sezione AT anche alla luce delle indicazioni fornite dal Garante della Privacy nel maggio 2024.
Cos’è il Web Scraping
Il web scraping è una tecnica informatica che consente l’estrazione automatizzata e massiva di dati e informazioni da siti web mediante l’utilizzo di software specializzati, comunemente denominati “bot” o “crawler”. Questi programmi scansionano sistematicamente le pagine web e ne estraggono i contenuti in modo automatico, consentendo la raccolta di grandi quantità di dati in tempi molto brevi.
Nel contesto del parere, la preoccupazione riguarda specificamente l’utilizzo di questa tecnica per raccogliere dati personali pubblicati sui siti istituzionali delle pubbliche amministrazioni, con particolare riferimento al loro possibile impiego per addestrare sistemi di intelligenza artificiale generativa o per altri scopi non previsti dalle finalità originarie della pubblicazione.
L’articolo 9 del D.Lgs. 33/2013 e il divieto di filtri tecnici
L’art. 9, co. 1 D.Lgs. n. 33 del 2013 stabilisce un principio fondamentale per la trasparenza amministrativa: le amministrazioni non possono disporre “filtri e altre soluzioni tecniche atte ad impedire ai motori di ricerca web di indicizzare ed effettuare ricerche all’interno della sezione «Amministrazione trasparente»”.
Questa disposizione si inserisce in un quadro normativo più ampio che prevede:
- L’accessibilità totale dei dati e documenti detenuti dalle pubbliche amministrazioni (art. 1);
- La pubblicazione in formato di tipo aperto ai sensi dell’articolo 68 del CAD – Codice dell’Amministrazione Digitale (art. 7, co. 1);
- La riutilizzabilità dei dati pubblicati, senza ulteriori restrizioni diverse dall’obbligo di citare la fonte e di rispettarne l’integrità;
- La possibilità che i dati personali (diversi da quelli particolari e giudiziari) siano indicizzati e rintracciabili tramite i motori di ricerca web (art. 7-bis, co. 1).
La risposta dell’ANAC: incompatibilità tra filtri anti-scraping e obblighi di trasparenza
ANAC ha espresso una posizione netta e inequivocabile: l’introduzione di soluzioni tecniche atte ad impedire ai motori di ricerca web di indicizzare ed effettuare ricerche all’interno della sezione “Amministrazione trasparente”, anche al fine di prevenire il web scraping, è in contrasto con quanto previsto dal decreto legislativo n. 33 del 2013.
La ratio di questa conclusione risiede nella natura stessa degli obblighi di trasparenza, che impongono alle amministrazioni di rendere i dati:
- Accessibili totalmente e senza barriere tecniche;
- Indicizzabili dai motori di ricerca;
- Riutilizzabili secondo i principi dell’open data;
- Disponibili in formato aperto per consentirne l’elaborazione automatica.
L’ANAC sottolinea che i dati, le informazioni e i documenti pubblicati nella sezione “Amministrazione trasparente” devono sempre essere resi disponibili in formato di tipo aperto, senza restrizioni diverse dall’obbligo di citare la fonte e di rispettarne l’integrità. Quando contengono dati personali (eccetto quelli giudiziari e particolari), questi possono essere diffusi nel rispetto dei principi sul trattamento dei dati personali – in particolare di pertinenza e non eccedenza – ma devono comunque rimanere indicizzati e riutilizzabili.
Il bilanciamento con la protezione dei dati personali
ANAC chiarisce che resta fermo l’obbligo per le amministrazioni di trattare i dati personali contenuti negli atti e nei documenti pubblicati nel rispetto dei principi sul trattamento dei dati personali e dei regimi di accesso e riuso previsti dalla legge. A tal proposito, il parere rinvia espressamente alle Linee guida del Garante per la tutela dei dati personali in materia di trattamento di dati personali effettuato per finalità di pubblicità e trasparenza sul web.
La conferma del Garante Privacy
L’ANAC evidenzia che la propria posizione trova conferma nello stesso Provvedimento n. 329 del 20 maggio 2024 con cui il Garante Privacy ha adottato la nota informativa sul web scraping. Nei “considerando” di tale provvedimento, infatti, è esplicitato che “restano ferme le disposizioni in materia di obblighi di pubblicazione per finalità di trasparenza di cui al d.lgs. n. 33/2013”, insieme alle altre pubblicità legali, alle disposizioni in materia di apertura dei dati e riutilizzo dell’informazione del settore pubblico.
Conclusioni operative
In sintesi, il parere ANAC stabilisce che le pubbliche amministrazioni:
- Non possono introdurre filtri tecnici, sistemi di protezione o altre soluzioni tecnologiche che impediscano l’indicizzazione e la ricerca all’interno della sezione “Amministrazione trasparente”, nemmeno con la finalità di prevenire il web scraping;
- Devono garantire che i dati pubblicati rimangano accessibili, indicizzabili e riutilizzabili secondo i principi dell’open data;
- Devono comunque assicurare che i dati personali pubblicati siano trattati nel rispetto dei principi di pertinenza, non eccedenza e proporzionalità previsti dalla normativa sulla protezione dei dati personali.
La soluzione al problema del web scraping non può quindi passare attraverso limitazioni tecniche all’accessibilità dei dati nella sezione “Amministrazione trasparente”, ma deve essere ricercata a monte, attraverso una corretta applicazione dei principi di minimizzazione e proporzionalità nella selezione dei dati personali da pubblicare, conformemente alle indicazioni fornite dal Garante Privacy nelle proprie linee guida.