Skip to main content

Per quanto riguarda gli attacchi informatici, l’avvelenamento dei dati ha proprio un nome che fa paura. Già suona male, soprattutto in un periodo in cui il mondo del business tratta i dati come l’equivalente digitale di un metallo prezioso.

E in effetti l’avvelenamento dei dati è qualcosa di negativo. Il termine si riferisce a un rischio emergente per i modelli di IA in cui un attaccante – che può essere esterno o interno – corrompe deliberatamente i dataset di addestramento per influenzare le operazioni o i risultati del modello. Questo può includere l’aggiunta di dati non validi, la manipolazione di dati esistenti o la cancellazione di dati corretti.

Se stai costruendo prodotti SaaS basati su IA – ad esempio un’applicazione di automazione del marketing che include uno strumento LLM – devi prestare particolare attenzione a come proteggi i tuoi modelli.

Want more from The CTO Club?

Create a free account to finish this piece and join a community of CTOs and engineering leaders sharing real-world frameworks, tools, and insights for designing, deploying, and scaling AI-driven technology.

This field is for validation purposes and should be left unchanged.
Name*

In questo articolo, condividerò i consigli degli esperti sulle strategie principali per ridurre al minimo il rischio di avvelenamento dei dati nei dataset di addestramento IA.

Che cos’è l’avvelenamento dei dati?

Un esempio di avvelenamento dei dati fornito dal NIST, che – come tante altre organizzazioni attente alla sicurezza – sta ovviamente osservando attentamente la minaccia: “[Gli attaccanti possono inserire] numerosi esempi di linguaggio inappropriato nei registri delle conversazioni, così che un chatbot possa interpretarli come linguaggio abbastanza comune da utilizzare a sua volta nelle interazioni con i clienti.”

All’improvviso, il tuo affidabile chatbot di assistenza clienti inizia a usare parolacce (o addirittura espressioni peggiori) nelle conversazioni con persone reali. Probabilmente non è questo che si intende quando si parla di usare l’IA per aumentare produttività, efficienza o innovazione.

Indipendentemente dal caso d’uso, i CTO che integrano intelligenza artificiale generativa o altre applicazioni basate su IA nei propri prodotti SaaS devono adottare misure per proteggere i dati di addestramento da aggiunte malevole, cancellazioni o altre manipolazioni che possono influenzare tutto: dalle prestazioni dei modelli all’esperienza utente, fino alla reputazione del marchio e oltre.

Inoltre: gli esperti sembrano generalmente concordi che la prevenzione sia la migliore difesa contro l’avvelenamento dei dati. Di solito è più facile prevenire il problema che mitigarne le conseguenze, una volta avvenuto l’incidente.

Come contrastare l’avvelenamento dei dati – 5 principi per ridurre i rischi

1. Conosci i tuoi dati.

Rafforzare le difese contro l’avvelenamento dei dati parte dalla comprensione di ciò che si sta proteggendo: non si può proteggere ciò che non si conosce.

“La prima fase per combattere l’avvelenamento dei dati nei prodotti SaaS guidati dall’IA è avere una chiara comprensione dei dati su cui viene addestrato il modello,” afferma Ian Ahl, SVP di P0 Labs, la divisione di ricerca sulle minacce della società di sicurezza delle identità Permiso. “È fondamentale addestrare i modelli su dati che puoi controllare.”

Che tipo di dati sono? Da dove provengono? Chi vi ha accesso? Se non puoi rispondere con chiarezza a queste domande, probabilmente sei esposto a un rischio maggiore di attacco.

Una comprensione approfondita dei dati di addestramento è anche una condizione necessaria per una buona governance dei dati, tema che approfondiremo più avanti. Ma per ora è sufficiente dire che devono esistere dei controlli su come persone, team e processi interagiscono e utilizzano i dati di addestramento.

“Valutando i dati stessi, puoi mettere controlli più stringenti sugli utenti che li aggiornano e stabilire regole rigorose su come i clienti possono interagirvi,” afferma Ahl. “Serve un bilanciamento tra supervisione su persone, processi e dati.”

2. Rivaluta la tua strategia di trasformazione dei dati.

Serve anche considerare – e forse rivedere – come i dati fluiscono dalle fonti originali ai tuoi modelli, cioè la cosiddetta pipeline di dati.

“Le decisioni che i CTO prendono sulla strategia di trasformazione dei dati influiscono direttamente sulla sicurezza dei loro prodotti SaaS basati sull’IA, perché dettano quanto le pipeline dati possano essere vulnerabili all’avvelenamento,” afferma Dave Jenkins, VP of Product and Research presso Iterate.ai.

In particolare, Jenkins afferma che stiamo vivendo un cambio di paradigma dai modelli basati su ETL (Extract, Transform, Load) verso l’architettura delle pipeline dati ELT (Extract, Load, Transform). Le motivazioni sono molteplici, ma uno dei vantaggi della strategia ELT è una maggiore efficacia nel ridurre rischi come l’avvelenamento dei dati.

“Il motivo è che, quando le trasformazioni dei dati IA avvengono troppo presto e il modello non è ancora ben regolato o i dataset sono incompleti, come spesso capita con l’ETL, allora potenziali dati errati vengono incorporati,” spiega Jenkins. “Errori e allucinazioni possono poi moltiplicarsi, e trovare – e correggere – la fonte dei dati avvelenati può risultare quasi impossibile.”

Per questo motivo, aggiunge Jenkins, bisogna evitare scenari in cui applicazioni diverse producono proprie trasformazioni prima che i dati vengano trasferiti in un data lake. Il modello ELT ribalta l’ordine degli step, per così dire, garantendo maggiore controllo e una trasformazione più unificata.

“Trasferendo invece tutte le trasformazioni in un ambiente di data warehouse come Snowflake, i CTO e i loro team ottengono maggiore visibilità e controllo mentre sviluppano i loro prodotti,” afferma Jenkins.

3. Dai priorità a una buona governance dei dati.

La visibilità e il controllo sono fondamentali, ma risultano insufficienti senza solide politiche e una corretta governance in tutti i tuoi pipeline e processi dati.

“Gestire correttamente questo aspetto, naturalmente, richiede anche una governance chiara,” afferma Jenkins. “I CTO devono specificare dove possono avvenire le trasformazioni dei dati AI. Vorranno avere tracciamenti degli audit, framework di validazione, dataset di riferimento per test di confronto e, idealmente, sandbox di trasformazione per testare e ritestare eventuali errori o allucinazioni prima della produzione.”

Ahl osserva che la governance deve includere anche le persone, in particolare sotto forma di politiche chiare e barriere su chi può interagire con i dati di addestramento, quali dati possono essere utilizzati e così via: “Chiunque abbia la possibilità di aggiungere file per addestrare un modello, sia esso un utente o un team, deve avere vincoli sui dati che può utilizzare.”

4. Rafforza la tua posizione generale in materia di sicurezza.

È inoltre importante ricordare che l’IA, in generale, sta nuovamente ampliando la superficie d’attacco di molte organizzazioni. L’avvelenamento dei dati è solo una delle potenziali minacce – seppur molto importante. Tutto quanto sopra dovrebbe essere attuato nel contesto di una più ampia strategia di sicurezza.

Se già trascuri i fondamenti della sicurezza come le patch, l’igiene delle password, la gestione delle identità e il principio del privilegio minimo, allora è probabile che anche i tuoi modelli AI e i dati di addestramento siano ancora più esposti ai rischi.

5. Valuta l’addestramento avversario dei modelli.

Quando emergono nuove minacce come l’avvelenamento dei dati, solitamente seguono nuove strategie e strumenti per difendersi. È ciò che sta accadendo ora con l’IA, che è arrivata con un intero pacchetto di nuovi rischi, non solo l’avvelenamento dei dati. Spesso queste minacce vengono raggruppate sotto il termine “IA avversaria”, ovvero l’uso malevolo dell’apprendimento automatico e di altri tipi di IA per attaccare altri sistemi IA. L’avvelenamento dei dati è una delle forme di IA avversaria.

Puoi ribaltare la situazione utilizzando l’addestramento avversario, che di fatto insegna ai tuoi modelli come individuare potenziali pattern e anomalie che potrebbero indicare avvelenamento dei dati o altre forme di IA avversaria, per poi adottare misure di mitigazione. 

L’addestramento avversario continua a prendere piede come approccio chiave per la sicurezza delle IA. Ad esempio, questo articolo accademico offre un framework per mitigare i bias che potrebbero essere stati acquisiti tramite la raccolta dati in contesti sanitari, dove le conseguenze potenziali dell’avvelenamento dei dati e di altri attacchi sono particolarmente gravi. Un altro articolo propone un framework di addestramento avversario specificamente per difendersi dall’avvelenamento dei dati.

E ora?

Se stai integrando l’IA generativa e altre funzionalità alimentate dall’IA nel portfolio dei tuoi prodotti SaaS, devi assicurarti che i tuoi dati di addestramento siano puliti, accurati e sicuri.

Altrimenti aumenti il rischio di avvelenamento dei dati e di altri problemi – e solitamente è più facile prevenire questi problemi piuttosto che risolverli dopo che si sono verificati.

Prima di andare, iscriviti alla nostra newsletter per ricevere gli ultimi approfondimenti!