Un grupo de investigadores italianos demostró que bastó con usar poesía para romper las barreras de seguridad de los chatbots más avanzados del mundo. El estudio, realizado por el laboratorio Icaro Lab vinculado a la Universidad Sapienza de Roma y al grupo DexAI, dijo que la simple reformulación de solicitudes peligrosas en verso permitió eludir los filtros de seguridad en 25 grandes modelos de lenguaje, incluidos GPT-5 de OpenAI, Gemini de Google, Claude de Anthropic, Llama 4 de Meta y Grok de xAI.
Los investigadores convirtieron preguntas relacionadas con ciberataques, armas químicas o manipulación psicológica en poemas breves con ritmo y metáforas. De ese modo, los sistemas que normalmente rechazaban la petición respondieron con instrucciones o información prohibida. El trabajo, titulado Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models, registró una tasa de éxito promedio del 62%, y en algunos casos superó el 90%, según el documento técnico publicado en arXiv.
Vulnerabilidad transversal revelada por la poesía
La investigación comprobó que el efecto no dependía de un modelo específico ni de un dominio temático. Los versos lograron respuestas no seguras en temas de ciberseguridad, manipulación, privacidad, armas nucleares y pérdida de control de sistemas. En el estudio, Google Gemini 2.5 Pro fue el más vulnerable y respondió a todos los poemas, mientras que GPT-5 Nano y Claude Haiku 4.5 resistieron casi por completo. En total participaron modelos de nueve compañías, tanto comerciales como de código abierto.
Según el análisis, el problema surge de cómo los modelos predicen la siguiente palabra en una secuencia. La estructura irregular y metafórica del verso altera los patrones lingüísticos que los sistemas de seguridad reconocen, haciendo que los filtros no identifiquen la intención dañina. Así, una pregunta formulada con imágenes poéticas se interpreta como un ejercicio creativo y no como una instrucción peligrosa.
Los investigadores probaron más de 1.200 solicitudes del conjunto MLCommons AILuminate, reformuladas automáticamente en poesía, y comprobaron que esta versión triplicó la tasa de respuestas dañinas frente a los textos en prosa. Los resultados mostraron un incremento promedio del 35% en el riesgo de salida insegura respecto a las mismas consultas sin reformular.
Falta de respuestas y consecuencias regulatorias
Antes de difundir los hallazgos, el equipo notificó a las empresas involucradas. Solo Anthropic respondió y confirmó que revisa la vulnerabilidad detectada, de acuerdo con las notas de los investigadores citadas por Euronews y Wired. El resto de las compañías no ofreció comentarios públicos.
El estudio advierte que la falla no se limita a ataques sofisticados. Cualquier usuario con conocimientos básicos puede reproducir el método, lo que plantea riesgos de uso indebido en entornos cotidianos. Además, los autores subrayan que los marcos regulatorios, como el Código Europeo de Prácticas para Modelos de Propósito General, no contemplan todavía estas variaciones estilísticas como parte de las pruebas de conformidad.
La investigación concluye que la forma artística del lenguaje puede alterar profundamente el comportamiento de los sistemas de IA, evidenciando que los actuales métodos de alineación y seguridad no generalizan ante cambios de estilo tan simples como los de la poesía.




