Rompiendo la IA a propósito: Cómo los investigadores están ayudando a hacer la inteligencia artificial más segura
Resumen
El profesor Sumit Kumar Jha y su equipo del CISE de la Universidad de Florida están trabajando para fortalecer la seguridad de la IA al encontrar y explotar intencionalmente vulnerabilidades, un proceso denominado 'romper la IA a propósito'. Su investigación, detallada en el artículo "Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion", se centra en sondear las vías de decisión internas de los Modelos de Lenguaje Grandes (LLM) en lugar de depender únicamente de la manipulación externa de indicaciones. Desarrollaron un método llamado Dirección de Espacio Nulo Enmascarada por Cabezal (HMNS), que identifica los componentes activos ('cabezales') en el proceso de respuesta de un LLM, los silencia y dirige otros componentes para observar los cambios en la salida. Esta prueba de estrés interna, aplicada a sistemas de Meta y Microsoft, demostró ser muy eficaz, superando a los métodos de vanguardia en los puntos de referencia de la industria tanto en tasa de éxito como en eficiencia computacional. Los investigadores enfatizan que este trabajo no tiene como objetivo permitir el mal uso, sino revelar modos de falla para que los desarrolladores puedan construir defensas más robustas necesarias para el despliegue seguro y generalizado de la IA en infraestructuras críticas.
(Fuente:News Ufl Edu)