Pagina Facebook

Pagina Twitter

Pagina Instagram

Feed Rss

Cerca

VOCE

REGIONALI 2025

Edicola
Digitale

sei in
>
Polesine24
>
Oggi

CRONACA

Perché la poesia “inganna” l’IA

Come i versi riescono a eludere i filtri di sicurezza dei modelli linguistici

Federica Viscusi

Email:

provincia.ro@lavoce-nuova.it

02.12.2025 - 18:30

Molti utenti, almeno una volta, hanno provato a forzare i limiti di modelli come ChatGPT, ricevendo un rifiuto: contenuti vietati, richieste dannose, materiale protetto o informazioni sensibili. I sistemi di intelligenza artificiale generativa sono progettati per riconoscere input pericolosi e bloccarli, ma non sempre questa protezione è perfetta. La novità? Alcune ricerche mostrano che basta trasformare una richiesta in poesia perché le barriere di sicurezza si indeboliscano. Secondo gli esperti, i modelli utilizzano due grandi strategie: l’allineamento durante l’addestramento e filtri esterni capaci di riconoscere pattern rischiosi. Ma – come spiega Matteo Prandi, ricercatore di AI Safety per la startup Dexai – questi sistemi sono ottimizzati per richieste dirette, prosastiche, formulate in linguaggio naturale. Ed è qui che nasce la vulnerabilità. Come funziona un jailbreak in versi Negli anni sono emerse molte tecniche per aggirare i vincoli: narrazioni metaforiche, role-play, richieste suddivise in più fasi, fino agli adversarial suffix, ossia sequenze di parole o simboli che confondono il filtro ma non il modello. La sorpresa arriva dallo studio pubblicato da Icaro Lab, che ha mostrato come riformulare una richiesta in forma poetica possa superare i guardrail di molti sistemi. Testando vari modelli – tra cui Gemini, Claude e DeepSeek – il tasso di successo ha raggiunto in media il 62%, con picchi del 100% in alcuni casi. Secondo Prandi, quando la richiesta assume la struttura di una poesia, con metafore, ritmo e immagini evocative, il modello comprende perfettamente l’intento dell’utente. I filtri però non riconoscono più l’input come pericoloso, perché manca il pattern linguistico tipico delle richieste esplicite. È un disallineamento: la capacità interpretativa del modello resta alta, mentre la robustezza dei guardrail cala drasticamente. La “maschera poetica” dei modelli linguistici I ricercatori ipotizzano che la forma poetica induca l’IA ad assumere un ruolo diverso: non più l’assistente rigido e vigile, ma un interprete creativo. In questa configurazione, il modello sarebbe meno sensibile ai segnali di allarme. La poesia diventerebbe così una sorta di “maschera” che modifica la percezione del pericolo. L’idea nasce dal parallelo con gli adversarial suffix, che per il modello sono una specie di poesia casuale: sintassi spezzata, termini insoliti, immagini confuse. Se una “non-poesia involontaria” può aggirare i filtri, è plausibile che la poesia umana – ben più strutturata – funzioni anche meglio. Il ruolo della temperatura Un altro indizio riguarda il parametro detta temperatura, che regola quanto l’output del modello sia prevedibile o creativo. Strategie poetiche o caotiche aumentano implicitamente la temperatura interna del modello, spingendolo verso risposte meno controllate e più inclini a violare le regole. Una sfida che unisce tecnologia e umanesimo Sorge quindi una domanda cruciale: sarà mai possibile rendere questi sistemi veramente invulnerabili agli usi impropri? Le riformulazioni possibili sono infinite e la creatività umana non ha confini. E qui sta il punto: gli attuali test di sicurezza, usati anche per soddisfare i requisiti dell’AI Act, valutano solo prompt standard. Ignorano le sfumature retoriche, metaforiche e artistiche del linguaggio naturale. Lo stesso Prandi sottolinea: “Servono valutazioni che uniscano rigore tecnico e sensibilità umanistica. La sicurezza dell’AI non può basarsi solo su competenze ingegneristiche: è fondamentale capire come funziona il linguaggio, la persuasione, il framing narrativo”. Paradossalmente, a mandare in tilt l’intelligenza artificiale è proprio ciò che rende unica l’intelligenza umana: la capacità di creare poesia, ambiguità, immagini. E questa potrebbe essere, almeno per ora, la vulnerabilità più difficile da colmare.

Molti utenti, almeno una volta, hanno provato a forzare i limiti di modelli come ChatGPT, ricevendo un rifiuto: contenuti vietati, richieste dannose, materiale protetto o informazioni sensibili. I sistemi di intelligenza artificiale generativa sono progettati per riconoscere input pericolosi e bloccarli, ma non sempre questa protezione è perfetta. La novità? Alcune ricerche mostrano che basta trasformare una richiesta in poesia perché le barriere di sicurezza si indeboliscano.

Secondo gli esperti, i modelli utilizzano due grandi strategie: l’allineamento durante l’addestramento e filtri esterni capaci di riconoscere pattern rischiosi. Ma – come spiega Matteo Prandi, ricercatore di AI Safety per la startup Dexai – questi sistemi sono ottimizzati per richieste dirette, prosastiche, formulate in linguaggio naturale. Ed è qui che nasce la vulnerabilità.

Come funziona un jailbreak in versi
Negli anni sono emerse molte tecniche per aggirare i vincoli: narrazioni metaforiche, role-play, richieste suddivise in più fasi, fino agli adversarial suffix, ossia sequenze di parole o simboli che confondono il filtro ma non il modello.

La sorpresa arriva dallo studio pubblicato da Icaro Lab, che ha mostrato come riformulare una richiesta in forma poetica possa superare i guardrail di molti sistemi. Testando vari modelli – tra cui Gemini, Claude e DeepSeek – il tasso di successo ha raggiunto in media il 62%, con picchi del 100% in alcuni casi.

Secondo Prandi, quando la richiesta assume la struttura di una poesia, con metafore, ritmo e immagini evocative, il modello comprende perfettamente l’intento dell’utente. I filtri però non riconoscono più l’input come pericoloso, perché manca il pattern linguistico tipico delle richieste esplicite. È un disallineamento: la capacità interpretativa del modello resta alta, mentre la robustezza dei guardrail cala drasticamente.

La “maschera poetica” dei modelli linguistici
I ricercatori ipotizzano che la forma poetica induca l’IA ad assumere un ruolo diverso: non più l’assistente rigido e vigile, ma un interprete creativo. In questa configurazione, il modello sarebbe meno sensibile ai segnali di allarme. La poesia diventerebbe così una sorta di “maschera” che modifica la percezione del pericolo.

L’idea nasce dal parallelo con gli adversarial suffix, che per il modello sono una specie di poesia casuale: sintassi spezzata, termini insoliti, immagini confuse. Se una “non-poesia involontaria” può aggirare i filtri, è plausibile che la poesia umana – ben più strutturata – funzioni anche meglio.

Il ruolo della temperatura
Un altro indizio riguarda il parametro detta temperatura, che regola quanto l’output del modello sia prevedibile o creativo. Strategie poetiche o caotiche aumentano implicitamente la temperatura interna del modello, spingendolo verso risposte meno controllate e più inclini a violare le regole.

Una sfida che unisce tecnologia e umanesimo
Sorge quindi una domanda cruciale: sarà mai possibile rendere questi sistemi veramente invulnerabili agli usi impropri? Le riformulazioni possibili sono infinite e la creatività umana non ha confini.

E qui sta il punto: gli attuali test di sicurezza, usati anche per soddisfare i requisiti dell’AI Act, valutano solo prompt standard. Ignorano le sfumature retoriche, metaforiche e artistiche del linguaggio naturale.

Lo stesso Prandi sottolinea: “Servono valutazioni che uniscano rigore tecnico e sensibilità umanistica. La sicurezza dell’AI non può basarsi solo su competenze ingegneristiche: è fondamentale capire come funziona il linguaggio, la persuasione, il framing narrativo”.

Paradossalmente, a mandare in tilt l’intelligenza artificiale è proprio ciò che rende unica l’intelligenza umana: la capacità di creare poesia, ambiguità, immagini. E questa potrebbe essere, almeno per ora, la vulnerabilità più difficile da colmare.

Resta aggiornato, iscriviti alla nostra newsletter

Email

Commenta scrivi/Scopri i commenti

Condividi le tue opinioni su

Ultimo Video

SPETTACOLO

Quattro appuntamenti per sognare

La Voce nuova | Direttore responsabile: Alberto Garbellini
Editrice Editoriale la Voce Soc. Coop. | Piazza Garibaldi, 17 - 45100 Rovigo Telefono 0425 200 282 - Fax 0425 422584 - email: redazione.ro@lavoce-nuova.it

Per la tua pubbicita' su questo sito: commerciale.ro@lavoce-nuova.it

Editrice: Editoriale La Voce Società Cooperativa. “La società percepisce i contributi di cui al decreto legislativo 15 maggio 2017, n. 70. Indicazione resa ai sensi della lettera f) del comma 2 dell’articolo 5 del medesimo decreto legislativo.” Redazione: piazza Garibaldi 17, 45100, Rovigo tel. 0425 200282 e:mail: redazione.ro@lavoce-nuova.it sito: www.lavocedirovigo.it
Pubblicità locale: Editoriale La Voce Soc. Coop. Divisione commerciale Piazza Garibaldi 17 - 45100 Rovigo - Tel. 0425 200282. Pubblicità Nazionale: MANZONI & C. S.p.A. Via Nervesa, 21 - 20139 Milano - Tel. 02 574941 www.manzoniadvertising.com Stampa: Tipre srl Luogo di stampa: via Canton Santo 5 Borsano di Busto Arsizio. POSTE ITALIANE S.P.A. - Sped. in Abb. Post. - D.L. 353/2003
(conv. in L. 27/02/2004, n.46) art. 1, comma 1, DCB (Ro). Testata registrata “La Voce Nuova” Registrazione del Tribunale di Rovigo n. 11/2000 del 09/08/2000.

Testata aderente all’Istituto dell’Autodisciplina Pubblicitaria www.iap.it. Iscrizione al ROC n. 23289. Associata FILE

IL FESTIVO

Innovazione

REGIONALI 2025

Perché la poesia “inganna” l’IA

Come i versi riescono a eludere i filtri di sicurezza dei modelli linguistici

Quattro appuntamenti per sognare