Cerca

CRONACA

Perché la poesia “inganna” l’IA

Come i versi riescono a eludere i filtri di sicurezza dei modelli linguistici

Perché la poesia “inganna” l’IA

Molti utenti, almeno una volta, hanno provato a forzare i limiti di modelli come ChatGPT, ricevendo un rifiuto: contenuti vietati, richieste dannose, materiale protetto o informazioni sensibili. I sistemi di intelligenza artificiale generativa sono progettati per riconoscere input pericolosi e bloccarli, ma non sempre questa protezione è perfetta. La novità? Alcune ricerche mostrano che basta trasformare una richiesta in poesia perché le barriere di sicurezza si indeboliscano.

Secondo gli esperti, i modelli utilizzano due grandi strategie: l’allineamento durante l’addestramento e filtri esterni capaci di riconoscere pattern rischiosi. Ma – come spiega Matteo Prandi, ricercatore di AI Safety per la startup Dexai – questi sistemi sono ottimizzati per richieste dirette, prosastiche, formulate in linguaggio naturale. Ed è qui che nasce la vulnerabilità.

Come funziona un jailbreak in versi
Negli anni sono emerse molte tecniche per aggirare i vincoli: narrazioni metaforiche, role-play, richieste suddivise in più fasi, fino agli adversarial suffix, ossia sequenze di parole o simboli che confondono il filtro ma non il modello.

La sorpresa arriva dallo studio pubblicato da Icaro Lab, che ha mostrato come riformulare una richiesta in forma poetica possa superare i guardrail di molti sistemi. Testando vari modelli – tra cui Gemini, Claude e DeepSeek – il tasso di successo ha raggiunto in media il 62%, con picchi del 100% in alcuni casi.

Secondo Prandi, quando la richiesta assume la struttura di una poesia, con metafore, ritmo e immagini evocative, il modello comprende perfettamente l’intento dell’utente. I filtri però non riconoscono più l’input come pericoloso, perché manca il pattern linguistico tipico delle richieste esplicite. È un disallineamento: la capacità interpretativa del modello resta alta, mentre la robustezza dei guardrail cala drasticamente.

La “maschera poetica” dei modelli linguistici
I ricercatori ipotizzano che la forma poetica induca l’IA ad assumere un ruolo diverso: non più l’assistente rigido e vigile, ma un interprete creativo. In questa configurazione, il modello sarebbe meno sensibile ai segnali di allarme. La poesia diventerebbe così una sorta di “maschera” che modifica la percezione del pericolo.

L’idea nasce dal parallelo con gli adversarial suffix, che per il modello sono una specie di poesia casuale: sintassi spezzata, termini insoliti, immagini confuse. Se una “non-poesia involontaria” può aggirare i filtri, è plausibile che la poesia umana – ben più strutturata – funzioni anche meglio.

Il ruolo della temperatura
Un altro indizio riguarda il parametro detta temperatura, che regola quanto l’output del modello sia prevedibile o creativo. Strategie poetiche o caotiche aumentano implicitamente la temperatura interna del modello, spingendolo verso risposte meno controllate e più inclini a violare le regole.

Una sfida che unisce tecnologia e umanesimo
Sorge quindi una domanda cruciale: sarà mai possibile rendere questi sistemi veramente invulnerabili agli usi impropri? Le riformulazioni possibili sono infinite e la creatività umana non ha confini.

E qui sta il punto: gli attuali test di sicurezza, usati anche per soddisfare i requisiti dell’AI Act, valutano solo prompt standard. Ignorano le sfumature retoriche, metaforiche e artistiche del linguaggio naturale.

Lo stesso Prandi sottolinea: “Servono valutazioni che uniscano rigore tecnico e sensibilità umanistica. La sicurezza dell’AI non può basarsi solo su competenze ingegneristiche: è fondamentale capire come funziona il linguaggio, la persuasione, il framing narrativo”.

Paradossalmente, a mandare in tilt l’intelligenza artificiale è proprio ciò che rende unica l’intelligenza umana: la capacità di creare poesia, ambiguità, immagini. E questa potrebbe essere, almeno per ora, la vulnerabilità più difficile da colmare.

Resta aggiornato, iscriviti alla nostra newsletter

Commenta scrivi/Scopri i commenti

Condividi le tue opinioni su

Caratteri rimanenti: 400