Hackean el LLM local de Apple Intelligence con un ataque de inyección de instrucciones

Apple Intelligence en iPhone

- APPLE

MADRID, 9 Abr. (Portaltic/EP) -

Los investigadores de RSAC Research han conseguido saltarse las medidas de seguridad del modelo de lenguaje grande (LLM) que impulsa a nivel local Apple Intelligence mediante inyección de instrucciones o 'prompt injection'.

En diciembre de 2025 había unos 200 millones de dispositivos de Apple en uso en todo el mundo con capacidad para utilizar Apple Intelligence, el ecosistema de inteligencia artificial generativa que introduce funciones inteligentes tanto a nivel de sistema operativo como en aplicaciones compatibles.

Apple Intelligence utiliza dos LLM: uno de menor tamaño, que se ejecuta a nivel local, en el propio dispositivo; y otro más grande, que funciona en el servidor, dentro de una nube privada llamada Private Cloud Compute.

El equipo de RSAC Research se propuso sortear la seguridad que Apple ha implementado en el modelo pequeño, que interactúa con los usuarios y las aplicaciones con la mediación de la API Foundation Models Framework.

Como explican los investigadores, esta API también aplica las políticas de la compañía, supervisa el comportamiento del modelo e intenta prevenir el uso indebido, presumiblemente, mediante filtros de entrada y salida que impiden entradas maliciosas y respuestas no deseadas, ya que Apple no lo ha detallado.

Para abordar el problema que plantaba el filtro de entrada, los investigadores utilizaron lo que se llama 'Neural Exec', un tipo de entrada adversaria generada mediante aprendizaje automático que engaña al LLM para que realice una acción no permitida.

"Los Neural Execs parecen ininteligibles para los humanos, pero funcionan a la perfección en los LLM y son universales", explican en la publicación de la investigación, compartida en el blog de RSAC.

Para eludir los filtros, recurrieron a Unicode, en concreto, a la función de anulación de derecha a izquierda de Unicode, lo que han calificado como un truco "infalible de los hackers". "En esencia, codificamos el texto malicioso/ofensivo en inglés escribiéndolo al revés y usando nuestro truco de Unicode para forzar al LLM a mostrarlo correctamente", han explicado.

Los investigadores aseguran que probaron esta técnica con más de cien indicaciones aleatorias y que lograron una tasa de éxito de ataque promedio de 76 por ciento.

Tras estos hallazgos, Apple reforzó la seguridad de Apple Intelligence en iOS 26.4 y macOS 26.4. aunque desde RSAC no han detectado indicios de que esta vulnerabilidad haya sido explotada, aconsejan a los usuarios de dispositivos de Apple actualizar lo antes posible.

Hackean el LLM local de Apple Intelligence con un ataque de inyección de instrucciones

Contenido patrocinado