Una “miniera d’oro” che potrebbe essere sfruttata per il progresso scientifico e il bene comune, ma che molto spesso è inaccessibile ai ricercatori, soprattutto in Italia. È l’insieme dei dati sanitari già disponibili e raccolti in database dai vari ospedali e centri clinici, il cui uso è attualmente vincolato da protezioni della privacy considerate da alcuni eccessive. Soprattutto perché il fine della comunità scientifica è accedervi per far avanzare le conoscenze e restituire alla società informazioni utili per la collettività, senza nessuno scopro di lucro. A sottolinearlo è Guido Cavalletti, professore ordinario presso il Dipartimento di Medicina e Chirurgia dell’Università Milano Bicocca nel corso del workshop “Gestione dei dati nella ricerca clinica: sfide e opportunità in un contesto in rapida evoluzione” organizzato lo scorso 21 novembre dall’Istituto di ricerche farmacologiche Mario Negri di Milano.
Una miniera d’oro
“Sono disponibili tantissimi dati a costo zero, perché già raccolti, che non sappiamo come utilizzare” ha commentato Cavalletti che è anche Principal investigator del progetto Anthem, un programma di ricerca finanziato dal ministero dell’Università e della Ricerca, all’interno del cosiddetto Piano nazionale complementare (Pnc), che coinvolge 23 enti e porta avanti 28 progetti di ricerca. “È già successo che chiedere l’autorizzazione all’utilizzo dei dati in centri con caratteristiche assolutamente identiche non necessariamente abbia prodotto la stessa risposta. Per un ricercatore è deprimente sapere che esiste questa mole di dati che non può toccare, al contrario di quando avviene in altri Paesi, dove il loro riutilizzo è più facile”.
A fargli eco Andrea Rossetti, professore associato di Filosofia del diritto e informatica giuridica presso l’Università di Milano Bicocca, che ha moderato la prima parte del workshop dedicata agli aspetti tecnico normativi della gestione del dato. L’esperto infatti ha ricordato come il Gdpr (General data protection regulation), la normativa dell’Unione europea emanata nel 2016 ed entrata in vigore nel 2018 che regola il trattamento e la protezione dei dati personali degli individui all’interno dell’Ue e dello Spazio economico europeo (See), “inizi a mostrare crepe, perché impedisce l’uso di dati che in nessun modo ledono i diritti di colui che li cede, ostacolando il progredire della ricerca pubblica”.
Il contesto normativo
A complicare il riuso dei dati sanitari contribuisce la coesistenza di diverse normative nazionali e sovranazionali, che in alcuni casi possono anche entrare in conflitto. Attualmente, infatti, è in forza il Gdpr, al quale si affianca ancora il Codice della Privacy italiano. Mentre a breve entreranno in vigore due nuovi Regolamenti (che, a differenza delle direttive, sono direttamente applicabili in tutti gli Stati membri dell’Ue senza necessità di recepimento): l’AI Act e il Regolamento sullo Spazio europeo dei dati sanitari (European Health Data Space – Ehds). A completare il quadro normativo ci sono ancora: il Regolamento sulla gestione dei dati (Data Governance Act), che è già in vigore e mira a regolare la condivisione e il riutilizzo dei dati; il Data Act, il quale dovrebbe favorire lo sviluppo dello Spazio europeo dei dati; la Direttiva NIS2, che riguarda la sicurezza delle reti e dei sistemi informativi, ed è principalmente rivolta alle infrastrutture critiche e alle aziende tecnologiche; e infine il Regolamento sulla Cyber-Resilienza, che è ancora in fase di sviluppo e mira a garantire la sicurezza dei prodotti connessi.
Il fondamento legale per il riutilizzo dei dati sanitari
Questo contesto normativo, insieme a basi giuridiche come il consenso esplicito dell’interessato (sempre revocabile), il contratto di lavoro o di cura che consente il riutilizzo del dato per finalità specifiche, l’interesse pubblico, la ricerca statistica e la protezione di un interesse vitale, rappresenta il fondamento legale per il riutilizzo dei dati sanitari, come ha spiegato Chiara Gallese, avvocato e assegnista di ricerca al Dipartimento di Matematica e Scienze dell’Università di Trieste e Marie Skłodowska- Curie presso l’Università di Torino. “Per poter riutilizzare i dati sanitari è necessario disporre di una base giuridica”, sottolinea. “Nel caso di un Irccs, le linee di ricerca rientrano nell’attività principale dell’istituto, ma è comunque necessario rispettare la deroga prevista dall’articolo 9 del Gdpr, che limita fortemente l’utilizzo dei dati medici e devono sussistere tutte le basi giuridiche già ricordate. Nel caso in cui il consenso sia necessario questo deve essere preventivo, specifico per il singolo progetto di ricerca (secondo quanto stabilito dal Garante), libero, informato, espresso, inequivocabile per iscritto e sempre revocabile”.
Procedure più snelle
Nel dettaglio, in base all’articolo 9 del Gdpr, il dato può essere riutilizzato per fini di ricerca perché tale riuso è compatibile con l’intento originario della raccolta. Inoltre gli istituti di ricerca che utilizzano i dati per finalità mediche non sono automaticamente considerati “terze parti” ai sensi del Gdpr, poiché il loro scopo è strettamente legato alla cura e alla ricerca. “Quando la ricerca viene condotta in base a disposizioni di legge, il consenso esplicito dell’interessato non è obbligatorio”, precisa Gallese. A complicare la procedura quindi, secondo l’esperta, non è tanto il Gdpr, quando il garante italiano e la normativa italiana che son stati più restrittivi rispetto all’estero, dove la procedura per il riutilizzo dei dati è molto più snella.
Buone notizie
Le buone notizie però sono due. La prima è che a partire dal 2024 la procedura per il riutilizzo dei dati in Italia è stata semplificata rispetto alla disciplina precedente. Il consenso infatti non è più richiesto quando a causa di particolari ragioni è impossibile informare gli interessati o quando questo implica uno sforzo sproporzionato o rischia di rendere impossibile o pregiudicare la finalità della ricerca. In questi casi “al titolare del trattamento basta documentare e motivare le ragioni etiche e organizzative per cui non è possibile chiedere retrospettivamente il consenso agli interessati e pubblicare la valutazione di impatto” ricorda l’avvocato facendo notare come si tratti di “un grande passo avanti per gli ospedali, per gli istituti di ricerca e i dipartimenti che si occupano di ricerca medica”. “La valutazione di impatto rimane – continua – secondo quando stabilito dal Gdpr. Va fatta quando c’è un rischio elevato per i diritti e le libertà degli interessati, pubblicata per intero o solo per estratti in casi particolari (come il rischio di compromissione di proprietà intellettuale) e posta a disposizione della consultazione del Garante in presenza di rischi significativi”.
Lo spazio europeo dei dati sanitari
La seconda novità è il Regolamento sullo spazio europeo dei dati sanitari, una proposta di regolamento dell’Unione Europea – presentata nel maggio 2022 e già approvata dal Consiglio dell’Ue ma non ancora promulgata –, che mira a creare un’infrastruttura omogenea e regolamentata per la gestione e la condivisione dei dati sanitari in tutta l’Ue. Una buona notizia secondo Gallese, perché consentirà il riutilizzo dei dati per finalità di ricerca. Obiettivo dell’Ehds è creare un’infrastruttura comune per l’utilizzo principale dei dati sanitari, in modo che qualsiasi cittadino europeo abbia accesso alla propria cartella sanitaria in ogni Paese e possa essere curato ovunque si trovi all’interno dell’Unione europea. I dati sanitari però, da regolamento, potranno essere usati anche per scopi secondari – come la ricerca appunto – tramite autorizzazione. “Si tratta di un regolamento rivoluzionario – commenta Gallese – perché crea un’infrastruttura che non sempre in tutta Europa, soprattutto nelle zone rurali, è presente, facilitando così l’attività dei clinici e la ricerca”.
Anonimizzatine e pseudoanonimizzazione
In seguito all’entrata in vigore dell’Ehds saranno creati enti nazionali che regoleranno l’accesso a questa grande mole di dati e stabilite nuove norme sul riutilizzo dei dati. Tra cui la condivisione tramite autorizzazione/permesso dell’autorità preposta; il divieto di re-identificazione del dato; l’obbligo di pubblicazione dei risultati entro 18 mesi dal permesso e il divieto di pubblicazione dei dati non anonimizzati. Proprio l’anonimizzazione è già adesso uno dei requisiti necessari per il riutilizzo dei dati sanitari, in quanto consente a essi di fuoriuscire dal controllo del Gdpr. Un processo diverso dalla pseudoanonimizzazione (utilizzata per proteggere i dati ma che di fatto non li rende anonimi e utilizzabili), ma ancora poco chiaro, come ricorda Gallese: “l’anonimizzazione è uno spettro e non un concetto statico. Non è ancora chiaro cosa sia un dato anonimizzato e ci sono varie interpretazioni, il che può portare a problemi nel riutilizzo”.
I dati sintetici
Che fare quindi se i vincoli burocratici limitano così tanto i dati sanitari da impedirne l’uso? Una soluzione arriva dai dati sintetici, che secondo un lavoro pubblicato nell’aprile del 2023 su Nature potrebbero addirittura essere meglio dei dati reali (“Synthetic data could be better than real data”). A raccontarlo nel corso del convegno è stato Giuseppe Jurman, responsabile dell’unità di ricerca Data Science for Health del Centro Digital Health e Wellbeing della Fondazione Bruno Kessler (Fbk) di Trento, che ha spiegato come l’Ai generativa potrebbe “sostituire”, integrare o aumentare un dato reale quando di difficile accesso. “A partire dagli ultimi dieci anni, il numero di paper che sono stati dedicati all’uso di dati sintetici per sostituire quelli dei pazienti è aumentato in modo quasi esponenziale in tutti i settori della medicina” ha commentato.
La povertà del dato
Il motivo di tanto interesse deriva dalla necessità dei ricercatori di superare diversi limiti, che rientrano sotto il cappello di “povertà del dato”. Si tratta da una parte degli ostacoli burocratici già ricordati che allungano e limitano l’accesso a tali informazioni e dall’altra della ridotta disponibilità di pazienti e di conseguenza dati che si ha in casi particolari, come le malattie rare. “L’intelligenza artificiale generativa, già oggi permette di creare nuovi dati in maniera ‘intelligente’ in modo che abbiano una struttura e una distribuzione identica o molto simile al dato reale integrando o sostituendo questi ultimi” afferma Jurman. “Lo fa partendo da un insieme di pochi dati reali a disposizione, creando una sorta di pazienti virtuali. Il che ovviamente libera i ricercatori dai problemi legati alla privacy, essendo dati che non appartengono a nessun paziente anche se clinicamente realistici e allo stesso tempo migliora la diversità e la struttura del dataset”.
Il supporto dell’Ai generativa
L’idea come ricorda Jurman non è nuova, perché già negli anni ’80 venivano usati metodi matematici o statistici per costruire nuovi dati, ma senza aggiungere ricchezza conoscitiva perché troppo simili e ai dati di partenza. L’Ai generativa invece ha il vantaggio di produrre dati che sono abbastanza diversi da quelli di partenza, in modo da essere utili al modello. Le “regole” da rispettare però sono due, come ricorda ancora l’esperto: “La prima è che i dati devono essere abbastanza simili a quelli veri per essere considerati realistici, ma anche abbastanza differenti per non essere ricondotti al paziente reale. La seconda è che è necessario addestrare i modelli nel modo più completo e più diverso possibile per evitare bias di qualsiasi tipo”. Anche se già realtà, questa metodologia presenta ancora diversi punti aperti su cui i ricercatori stanno lavorando, ammette in chiusura Jurman. Ma una volta risolte, la sfida del futuro sarà “svolgere trial clinici virtuali in modo sensato e ben strutturato”.
***** l’articolo pubblicato è ritenuto affidabile e di qualità*****
Visita il sito e gli articoli pubblicati cliccando sul seguente link