Bastano 13 parole a dirottare la ricerca AI verso le truffe: l’attacco WARP


Tre ricercatori del Cornell Tech hanno dimostrato che basta un commento di tredici parole su Reddit per piegare gli agenti di ricerca basati sull’intelligenza artificiale: la tecnica si chiama WARP e fa citare al sistema fonti e aziende scelte dall’attaccante nel 38-62% dei casi. Non è un bug da correggere con una patch, è il modo stesso in cui questi agenti leggono il web.

Tre ricercatori del Cornell Tech hanno dimostrato che bastano tredici parole, aggiunte in fondo a un commento su Reddit, per piegare al proprio volere gli agenti di ricerca basati sull’intelligenza artificiale. Tingwei Zhang, Harold Triedman e Vitaly Shmatikov hanno battezzato la tecnica WARP, acronimo di Web Agent Retrieval Poisoning; il loro preprint su arXiv, ripreso prima da 404 Media e poi da Tom’s Guide, descrive un attacco che non richiede di violare un server, ma è sufficiente soltanto scrivere, nel posto giusto, poche righe pensate per essere lette da una macchina.

Tredici parole bastano a dirottare la ricerca AI verso le truffe

Che cosa sono gli agenti di deep research

Per misurare la portata del problema conviene partire da che cosa sia, oggi, un agente di deep research. Non è un chatbot che risponde meglio: è una pipeline multi-agente che, ricevuto un obiettivo, lancia in autonomia molte ricerche correlate, recupera decine di pagine, le sintetizza e produce un report strutturato con tanto di citazioni. Sta sostituendo la ricerca tradizionale per compiti che vanno dalla comparazione fra due prodotti alla preparazione di un dossier di mercato; e lo fa con una posa di autorevolezza che il vecchio elenco di link blu non aveva. È la stessa logica agentica che i grandi vendor stanno mettendo al centro dei loro prodotti, da Google in giù. Il punto debole nasce proprio dal suo tratto distintivo: la quantità di interrogazioni che l’agente spara in una singola sessione.

Come funziona l’attacco WARP

L’intuizione di Zhang e colleghi è elegante nella sua semplicità. Quando un agente affronta un tema, non pone una domanda sola: ne genera molte, vicine fra loro, e nel farlo torna a pescare ripetutamente le stesse pagine. All’interno di uno stesso grappolo di argomenti esiste cioè un manipolo di fonti che ricorrono quasi sempre. Chi volesse condizionare l’esito non deve inquinare l’intero web: gli basta individuare una di quelle pagine ad alta frequenza e aggiungervi il proprio testo.

L’attaccante, vale la pena ribadirlo, non inserisce documenti nuovi, non conosce il modello né il prompt, non controlla quali risultati verranno recuperati; modifica soltanto una pagina che l’agente già visita per conto suo. La pipeline ha tre fasi ordinate, ricognizione, generazione del contenuto, pubblicazione: prima si mappa quali fonti l’agente predilige su un argomento, poi si confeziona il testo-esca, infine lo si pubblica dove farà più effetto, spesso un commento in coda a un thread molto frequentato. È un metodo, non un colpo di fortuna; ed è questo a renderlo industrializzabile.

Tredici parole, dal 38 al 62 per cento di efficacia

Il dato che ha fatto il giro delle redazioni tecniche è quello dell’efficacia. Un testo avvelenato lungo appena tredici parole è bastato a ottenere tassi di citazione compresi fra il 38% e il 62%, con l’entità scelta dall’attaccante, un prodotto, un marchio, un dominio, richiamata direttamente nel report conclusivo. Non un caso isolato su una domanda fortunata: la manipolazione regge sull’intero grappolo di interrogazioni correlate, perché è la stessa pagina avvelenata a riaffiorare query dopo query.

Lo studio misura l’attacco su tre sistemi rappresentativi, STORM, Co-STORM e OmniThink, valutati su undici cluster tematici per centosettantasei interrogazioni, estratte da un insieme molto più ampio di quasi quattromilatrecento domande. Per condurre i test senza pubblicare davvero contenuti malevoli sul web vivo, i ricercatori hanno costruito un ambiente di simulazione dedicato, così da osservare il comportamento degli agenti in laboratorio. La fotografia che ne esce è netta: dove il recupero delle fonti si concentra su poche pagine, l’esca piazzata su una sola di esse contamina l’intera analisi.

Non è data poisoning: la falla è a valle

Qui serve una precisazione che molti titoli hanno saltato, e che per un lettore tecnico fa la differenza. WARP non è data poisoning nel senso classico del termine. L’avvelenamento dei dati, quello che su Digitalic abbiamo raccontato quando bastavano duecentocinquanta documenti per condizionare un modello, colpisce a monte, durante l’addestramento: sporca il sapere che il modello interiorizza una volta per tutte. WARP colpisce a valle, nel momento dell’uso: non tocca i pesi del modello, tocca le pagine che l’agente legge in tempo reale mentre lavora per noi.

È una differenza sostanziale. Significa che nessun re-training risolve il problema, perché il modello in sé può anche essere impeccabile; e significa che la superficie d’attacco coincide con il web pubblico aggiornato all’istante, non con un dataset congelato. Il modello può essere perfetto: se la fonte è marcia, il report nasce marcio. Spostare l’attenzione dal training all’inferenza ribalta anche le priorità di chi difende, abituato a presidiare i dati di addestramento e molto meno il flusso di informazioni che entra nel sistema mentre è in funzione.

Il web degli altri: perché la radice è strutturale

La ragione per cui l’attacco funziona è scomoda da accettare per chi vende questi strumenti come oracoli. Fra il 54% e il 71% degli URL recuperati durante una sessione arriva da piattaforme di contenuti generati dagli utenti, con Reddit e Wikipedia in testa, seguite a distanza da forum e, per certe domande, da YouTube: in una comparazione fra robot aspirapolvere i video pesavano per il 15% dei link recuperati, sulle ricerche di antivirus intorno all’8%. Sono spazi aperti, editabili, costruiti perché chiunque possa contribuire; la loro forza, la copertura capillare di ogni nicchia, è anche la loro fragilità.

Non è una novità assoluta. Nel 2024 le AI Overviews di Google avevano suggerito di aggiungere colla alla salsa della pizza, pescando il consiglio da un post ironico di undici anni prima su Reddit; allora fu un incidente, materia da meme. WARP prende quella casualità e la trasforma in metodo ripetibile. Lo scenario si aggrava se lo si sovrappone all’AI slop, la marea di contenuti sintetici che ormai compone una quota enorme del web: più il terreno è inquinato, più diventa arduo, per l’agente e per chi lo controlla, distinguere la fonte autentica da quella piazzata ad arte.

 

Dal SEO al GEO: una nuova economia della manipolazione

Vale la pena leggere WARP anche con la lente del marketing, perché è lì che nascerà la tentazione. Per anni le aziende hanno investito in SEO per scalare le pagine dei motori di ricerca AI e di quelli tradizionali; la nuova frontiera, già battezzata GEO, generative engine optimization, punta a farsi citare dagli assistenti generativi anziché comparire fra i link. WARP ne mostra il lato oscuro: se un commento ben piazzato può imporre il nome di un prodotto nel report di un agente, la distanza fra ottimizzazione legittima e manipolazione si assottiglia fino a sparire; e non serve molta fantasia per immaginare chi, oltre a qualche reparto marketing spregiudicato, avrebbe interesse a orientare in massa le risposte, dai promotori di truffe fino a chi fa disinformazione di mestiere.

Cosa cambia per CISO, MSP e system integrator

Per chi in azienda risponde della sicurezza, il messaggio è ruvido. Gli agenti di ricerca stanno entrando nei flussi decisionali, dalla selezione di un fornitore alla due diligence su un software, e portano con sé una catena di fiducia che si sposta dal modello alla fonte; e la fonte, come si è visto, è il web pubblico, modificabile da chiunque. Per un CISO questo significa una superficie d’attacco che i SOC oggi non sorvegliano, perché non genera alert, non lascia tracce nei log, non somiglia a nulla di ciò che gli strumenti tradizionali sono addestrati a cercare.

Per gli MSP e i system integrator che installano soluzioni basate su deep research presso i clienti, la verifica dell’integrità delle fonti diventa un requisito operativo, allo stesso livello della sicurezza di rete e degli endpoint. Vendere un agente come scorciatoia verso la verità, senza spiegarne i limiti, è una promessa che prima o poi presenta il conto; e il conto, quando una decisione di acquisto si rivela orientata da un commento anonimo, lo paga il cliente e la reputazione di chi quel sistema lo ha messo in produzione.

Le difese esistono, ma non chiudono la falla

Gli stessi autori non si fermano alla diagnosi e studiano le contromisure lungo la pipeline: filtri sulle fonti a monte, che scartino o pesino diversamente le piattaforme più esposte; sistemi di rilevamento sull’output a valle, che provino a riconoscere quando un report è stato orientato. Nessuna di queste, però, chiude la falla all’origine, perché l’origine è il modo stesso in cui gli agenti si nutrono di un web aperto e non verificato.

La direzione realistica somiglia alla convivenza con il rischio che il settore ha imparato vent’anni fa con i malware: gerarchie di istruzioni che separino il dato dal comando, controlli sulla provenienza delle fonti, supervisione umana sui passaggi critici, una cultura del dubbio applicata anche alle risposte che arrivano con il tono più sicuro. La fiducia cieca nell’output, quella, resta la vulnerabilità più difficile da rattoppare, perché non sta nel software ma in chi lo usa.




#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
 Francesco Marino

Source link

Di