Cosa significa l’intelligenza artificiale per la privacy dei dati?

L’hype tecnologico è una risorsa volubile. Alcuni anni fa, blockchain e criptovalute erano le parole d’ordine magiche che spingevano i venture capitalist a prendere i libretti degli assegni. Ora, con il settore che vale il 40% di quello che era al suo apice e i principali attori coinvolti in un pantano litigioso, il suo potere di affascinare è scemato e l’intelligenza artificiale lo ha saldamente sostituito come il sapore del mese.

I VC sono semplicemente alla disperata ricerca di denaro per gli sviluppatori di intelligenza artificiale. Mistral AI, composta da tre ingegneri francesi e poco altro, ha ricevuto 105 milioni di euro per una valutazione di 240 milioni di euro nel più grande round di seed mai realizzato in Europa, appena un mese dopo la sua costituzione. I politici sono altrettanto entusiasti, ripongono le loro speranze in una crescita trasformativa della produttività nella tecnologia e fanno tutto ciò che è in loro potere per garantire che la loro giurisdizione ospiti le società di intelligenza artificiale.

L'hype potrebbe essere giustificato. Le capacità degli ultimi strumenti di intelligenza artificiale sono impressionanti e sembra inevitabile che la loro proliferazione e sviluppo avranno enormi conseguenze economiche.

Ma proprio mentre l’industria delle criptovalute si trova ad affrontare sfide normative, l’intelligenza artificiale sta iniziando ad affrontare le proprie battaglie legali su diversi fronti. Mentre l’industria delle criptovalute è alle prese con le leggi sui titoli e le restrizioni antiriciclaggio, i fornitori di intelligenza artificiale si trovano ad affrontare le ire dei regolatori e degli attivisti della privacy. Uno dei regimi più problematici per il settore dell’intelligenza artificiale è il Regolamento generale sulla protezione dei dati, il regime legale che protegge la privacy di tutti i residenti dell’Unione Europea e del Regno Unito.

Insidie dei dati disponibili al pubblico

Lo sviluppo di un modello linguistico di grandi dimensioni come ChatGPT richiede la raccolta di vasti corpi di testo attraverso un processo chiamato web scraping. Questi set di dati ingeriscono dettagli estratti da fonti online aperte come i profili dei social media. Le informazioni sono di dominio pubblico, quindi raccoglierle non può essere un problema, giusto? Sbagliato. Gli avvocati specializzati in privacy si preoccupano di sottolineare che gli sviluppatori di intelligenza artificiale impegnati nel web scraping e nell'analisi rimangono in sospeso.

Chris Elwell-Sutton è partner del team dati, privacy e sicurezza informatica dello studio legale britannico TLT. “C’è una convinzione comune secondo cui, se i dati vengono estratti da fonti disponibili al pubblico, non rientrano nell’ambito del GDPR e di regimi simili sulla privacy. Questo è un errore, potenzialmente molto costoso", spiega. "Una volta che i tuoi dati personali sono archiviati in un sistema di archiviazione, hai la protezione del GDPR, indipendentemente dalla fonte originale."

Il GDPR impone una serie di obblighi rigorosi a qualsiasi organizzazione che archivia, trasmette o esegue analisi sui dati personali. Il problema più fondamentale che gli sviluppatori LLM dovranno affrontare a causa del GDPR è l'identificazione di una base legale per lo scraping all'ingrosso dei dati personali di milioni di persone a loro insaputa o senza il loro consenso. Questa questione è stata oggetto di un pesante controllo normativo e giudiziario in tutta Europa e non c’è una soluzione semplice in vista.

Ci sono ancora incognite sui dettagli di come il GDPR si applicherà all’intelligenza artificiale generativa, ma i primi colpi sono stati sparati in quella che sarà sicuramente una battaglia lunga e costosa. ChatGPT è stato temporaneamente vietato dall'autorità italiana per la protezione dei dati a causa di risultati imprecisi e mancanza di motivi legittimi per il trattamento, nonché per la cattiva gestione dei dati dei bambini. Google ha poi dovuto posticipare il lancio nell'UE del suo concorrente Bard a causa di simili sfide sulla privacy – anche se il colosso della tecnologia ha ritenuto opportuno lanciare il servizio nel Regno Unito – un cenno, forse, all'approccio positivo per le aziende all'applicazione della privacy promesso dal Regno Unito. Governo conservatore post-Brexit.

OpenAI ha apportato miglioramenti alla sua posizione sulla privacy, fornendo la verifica dell'età, consentendo agli utenti di rinunciare all'utilizzo dei propri dati per le modalità di formazione e adottando "misure per eliminare le informazioni di identificazione personale dal set di dati di formazione". Ma provare questa affermazione con soddisfazione di un regolatore sarà probabilmente difficile.

Le tecniche esatte utilizzate da OpenAI per rimuovere i dati personali dal suo set di dati non sono state ancora divulgate in dettaglio, ma si parla di "filtraggio dei dati e anonimizzazione".