Les chercheurs en cybersécurité attirent l’attention sur une nouvelle méthode de jailbreak appelée Chamber Echo qui pourrait être exploitée pour tromper les modèles populaires de grande langue (LLM) pour générer des réponses indésirables, indépendamment des garanties mises en place.
“Contrairement à des jailbreaks traditionnels qui reposent sur un phrasé contradictoire ou une obscurité de caractère, Echo Chamber arme les références indirectes, la direction sémantique et l’inférence en plusieurs étapes”, a déclaré le chercheur de Neuraltrust, Ahmad Alobaid, dans un rapport partagé avec le Hacker News.
“Le résultat est une manipulation subtile mais puissante de l’état interne du modèle, le conduisant progressivement à produire des réponses à violation des politiques.”
Alors que les LLM ont régulièrement incorporé divers garde-corps pour lutter contre les injections et les jailbreaks rapides, les dernières recherches montrent qu’il existe des techniques qui peuvent produire des taux de réussite élevés avec peu ou pas d’expertise technique.
Il sert également à mettre en évidence un défi persistant associé au développement des LLM éthiques qui appliquent une démarcation claire entre les sujets acceptables et non acceptables.
Bien que les LLM largement utilisées soient conçues pour refuser des invites d’utilisateurs qui tournent autour de sujets interdits, ils peuvent être poussés à provoquer des réponses contraires à l’éthique dans le cadre de ce qu’on appelle un jailbreaks multi-tours.
Dans ces attaques, l’attaquant commence par quelque chose d’inoffensive et pose ensuite progressivement à un modèle une série de questions de plus en plus malveillantes qui l’entraînent finalement dans la production de contenu nocif. Cette attaque est appelée crescendo.
Les LLM sont également sensibles aux jailbreaks à plusieurs reprises, qui profitent de leur grande fenêtre de contexte (c’est-à-dire la quantité maximale de texte qui peut s’adapter à une invite) à inonder le système d’IA avec plusieurs questions (et réponses) qui présentent un comportement jailbreaké précédant la question nuisible finale. Ceci, à son tour, fait que le LLM continue le même modèle et produit un contenu nocif.
Echo Chamber, par Neuraltrust, exploite une combinaison d’empoisonnement contextuel et de raisonnement multi-tour pour vaincre les mécanismes de sécurité d’un modèle.
Attaque de la chambre d’écho |
“La principale différence est que Crescendo est celui qui dirige la conversation dès le début tandis que la chambre Echo demande en quelque sorte au LLM de combler les lacunes, puis nous dirigeons le modèle en conséquence en utilisant uniquement les réponses LLM”, a déclaré AloBaid dans un communiqué partagé avec les hacker News.
Plus précisément, cela se déroule comme une technique d’incitation adversaire en plusieurs étapes qui commence par une contribution apparemment inoffensive, tout en le dirigeant progressivement et indirectement vers la génération de contenu dangereux sans donner l’objectif final de l’attaque (par exemple, générer un discours de haine).
“Les premières invites plantées influencent les réponses du modèle, qui sont ensuite exploitées plus tard pour renforcer l’objectif d’origine”, a déclaré Neuraltrust. “Cela crée une boucle de rétroaction où le modèle commence à amplifier le sous-texte nocif intégré dans la conversation, érodant progressivement ses propres résistances de sécurité.”
Dans un environnement d’évaluation contrôlé utilisant les modèles d’OpenAI et Google, l’attaque de la chambre d’écho a atteint un taux de réussite de plus de 90% sur des sujets liés au sexisme, à la violence, aux discours de haine et à la pornographie. Il a également atteint un succès de près de 80% dans les catégories de désinformation et d’automutilation.
“L’attaque d’Echo Chamber révèle un angle mort critique dans les efforts d’alignement LLM”, a déclaré la société. “Alors que les modèles deviennent plus capables d’une inférence soutenue, ils deviennent également plus vulnérables à l’exploitation indirecte.”
La divulgation intervient alors que Cato Networks a démontré une attaque de preuve de concept (POC) qui cible le serveur du protocole de contexte modèle d’Atlassian (MCP) et son intégration avec Jira Service Management (JSM) pour déclencher des attaques d’injection rapides lorsqu’un billet de support malveillant soumis par un acteur de menace externe est traité par un ingénieur de support à l’aide d’outils MCP.
La société de cybersécurité a inventé le terme «vivre de l’IA» pour décrire ces attaques, où un système d’IA qui exécute des contributions non fiables sans garanties d’isolement adéquates peut être abusée par les adversaires pour obtenir un accès privilégié sans avoir à s’authentifier.
“L’acteur de menace n’a jamais accédé directement à l’Atlassian MCP”, a déclaré Shlomo Bamberger. “Au lieu de cela, l’ingénieur de soutien a agi comme un proxy, exécutant sans le savoir les instructions malveillantes via Atlassian MCP.”