Instructions cachées avec IA : rumeur ou réalité ?

Instructions cachées dans l'IA - Typologie des menaces

L'utilisation annoncée comme systématique de l'IA conduit à de nombreuses interrogations. Parmi celles-ci, les instructions cachées. Sous ce terme générique, il y aurait déjà plusieurs attaques à identifier. Avant de dégainer l'arsenal juridique, quelques vérifications à mener sur leur réalité.

En quelques lignes est proposé l'essai d'une typologie qui concerne dans l'immédiat les entreprises confrontées au choix de leurs outils d'IA.

Écartons de notre préoccupation de ce matin, les cookies non essentiels et les lignes masquées intégrées dans le code source des sites web pour transmettre subrepticement des données telles que l'adresse IP, l'identifiant unique d'appareil, le contenu de navigation ou les préférences utilisateurs, signalant ainsi leurs comportements à des plateformes tierces ou à des sociétés de publicité, techniques amplement décrites.

1. Les injections de prompt

1-1. Injection directe de prompt

L'attaquant manipule directement l'entrée utilisateur au point de saisie du prompt, par exemple, en collant une URL contenant des instructions malveillantes dissimulées dans la barre d'adresse d'un navigateur IA.

Mécanisme technique : L'URL malveillante contient des instructions cachées qui sont traitées par le modèle d'IA comme des commandes légitimes de l'utilisateur, permettant l'accès à des données sensibles ou l'exécution d'actions non autorisées.

1-2. Injection indirecte de prompt par les documents à traiter

Cette technique consisterait à dissimuler des instructions malveillantes dans du contenu externe que l'IA va traiter. Les méthodes de dissimulation incluent :

Texte blanc sur fond blanc : Instructions invisibles à l'œil humain mais lisibles par l'IA
Polices de taille microscopique : Texte rendu illisible visuellement mais traitable par le modèle
Commentaires HTML : Instructions cachées dans le code source des pages web
Caractères Unicode non imprimables : Instructions encodées de manière invisible
Balises spoiler ou éléments cachés dans les réseaux sociaux (Reddit, Facebook, etc.)
Instructions dissimulées dans des images : Texte non visible incorporé dans les métadonnées ou le contenu d'images

2. Exfiltration de données via des requêtes masquées

2-1. Technique de l'URL de requête manipulée

L'attaquant injecte des instructions commandant à l'IA de naviguer vers une URL contrôlée par lui, en ajoutant les données sensibles ajoutées par l'utilisateur à sa requête comme paramètres de celle-ci. Il ne s'agit pas seulement de modifier le prompt comme dans l'injection de prompt.

Effets :

L'IA opère avec les privilèges complets de l'utilisateur sur tous les domaines où accède l'utilisateur !
Les restrictions que vous avez pu appliquer, ne s'appliquent pas aux actions initiées par l'IA avec les sessions authentifiées !

2-2. Empoisonnement persistant du contexte

L'instruction malveillante commande à l'assistant d'IA d'ajouter un multiple ou un nombre à tous les calculs mathématiques futurs.

L'altération persiste tant que la session de conversation reste active.

3. Attaques via les navigateurs d'IA

Si un utilisateur visite un site malveillant pendant qu'il est connecté à son IA préférée, le site peut envoyer des commandes au bot comme s'il s'agissait de l'utilisateur authentifié lui-même. Ces commandes peuvent même modifier la "mémoire" de l'assistant, altérant ses préférences de manière persistante à travers tous les appareils et sessions.

Effets : ici ce n'est plus un ou des sites individuels qui sont menacés, mais ces attaques permettent un accès inter-domaines via des instructions en langage naturel.

Ampleur de ce type d'attaques via les navigateurs d'IA :

Comptes bancaires en ligne
Systèmes d'entreprise
Emails privés (Gmail, Outlook)
Stockage cloud (Google Drive, OneDrive)
Toute ressource accessible via une session authentifiée

4. Empoisonnement des données d'entraînement

Il y aurait, le conditionnel est de rigueur, un risque de création de porte dérobée permanente en injectant quelques centaines de documents malveillants dans un corpus d'entraînement qui en compte des milliards.

Comme les IA apprennent sur des documents publiés sur le web, c'est de ce côté-là que la faille serait à rechercher.

Conséquences : Le modèle peut être programmé pour déclencher des actions malveillantes (exfiltration de fichiers, envoi d'emails frauduleux) lorsqu'une phrase déclencheur spécifique est saisie par l'utilisateur.

Cette typologie est à affiner pour répondre aux impératifs de sécurité des entreprises.

Philippe Schmitt Avocats

Avocats en PI, droits de propriété industrielle

Instructions cachées avec IA : rumeur ou réalité ?