Les chercheurs en menaces anthropiques pensent avoir découvert et perturbé le premier cas documenté de cyberattaque exécutée avec l’aide de son IA agentique et d’une intervention humaine minimale.
« L’acteur menaçant a manipulé [Anthropic’s large language model] Claude à fonctionner comme un agent de cyberattaque autonome effectuant des opérations de cyber-intrusion plutôt que de simplement fournir des conseils aux opérateurs humains », a noté la société.
“L’analyse du rythme opérationnel, des volumes de demandes et des modèles d’activité confirme que l’IA a exécuté environ 80 à 90 pour cent de tout le travail tactique de manière indépendante, avec des humains jouant des rôles de supervision stratégique. L’intervention humaine a eu lieu à des moments stratégiques, notamment l’approbation de la progression de la reconnaissance à l’exploitation active, l’autorisation d’utiliser les informations d’identification collectées pour les mouvements latéraux et la prise de décisions finales sur la portée et la conservation de l’exfiltration des données. “
La configuration de l’attaque
Claude est un LLM qui peut fonctionner comme un agent lorsqu’un système lui donne la capacité d’agir : on peut lui donner un objectif, le décomposer en étapes, planifier et réaliser ces étapes tout seul, en faisant appel à des outils logiciels connectés, des API, des scripts, etc. Mais surtout, il peut regarder le résultat d’une action et décider quoi essayer ensuite.
Les chercheurs placent souvent Claude dans des systèmes d’orchestration qui planifient les tâches, gèrent la mémoire et gèrent les outils. Dans ces configurations, Claude devient le « cerveau » de raisonnement et de prise de décision d’un flux de travail automatisé plus vaste.
Et c’est essentiellement ce qu’a fait cet acteur malveillant, selon Anthropic : ils ont développé un cadre d’attaque autonome qui utilisait le code Claude et les outils standards ouverts Model Context Protocol (MCP).
« Le framework utilisait Claude comme un système d’orchestration qui décomposait les attaques complexes à plusieurs étapes en tâches techniques distinctes pour les sous-agents de Claude, telles que l’analyse des vulnérabilités, la validation des informations d’identification, l’extraction de données et les mouvements latéraux, dont chacune semblait légitime lorsqu’elle était évaluée isolément », ont expliqué les chercheurs d’Anthropic.
« En présentant ces tâches à Claude comme des demandes techniques de routine au moyen d’invites soigneusement conçues et de personnalités établies, l’auteur de la menace a pu inciter Claude à exécuter des composants individuels de chaînes d’attaque sans accéder au contexte malveillant plus large. »
Le cycle de vie de l’attaque (Source : Anthropic)
Les chercheurs ont détecté cette opération à la mi-septembre 2025 et pensent qu’elle a été menée par un groupe parrainé par l’État chinois.
La liste de la trentaine d’entités ciblées par l’acteur malveillant comprenait des entreprises de technologie et de fabrication de produits chimiques, des institutions financières et des agences gouvernementales de plusieurs pays. Anthropic a déclaré que dans quelques cas, les attaquants ont réussi à réussir leurs intrusions.
Quelques informations intéressantes du rapport
Les attaquants n’ont pas essayé de trouver de nouvelles solutions alors que de bonnes solutions existent déjà : ils ont principalement utilisé des outils de test d’intrusion open source, des scanners de réseau existants, des cadres d’exploitation de bases de données, des pirates de mots de passe et des suites d’analyse binaire.
“Le recours minime à des outils propriétaires ou au développement d’exploits avancés démontre que les cybercapacités découlent de plus en plus de l’orchestration de ressources de base plutôt que de l’innovation technique. Cette accessibilité suggère un potentiel de prolifération rapide dans le paysage des menaces à mesure que les plateformes d’IA deviennent plus capables de fonctionner de manière autonome”, ont noté les chercheurs d’Anthropic.
Les agresseurs « d’ingénierie sociale » Claude: ils ont trompé le modèle d’IA en lui faisant croire que les actions qui lui étaient demandées n’étaient pas illégales. « La clé a été le jeu de rôle : les opérateurs humains ont affirmé qu’ils étaient des employés d’entreprises de cybersécurité légitimes et ont convaincu Claude qu’ils étaient utilisés dans des tests de cybersécurité défensifs. »
(De la même manière, des chercheurs de Cisco ont récemment découvert que les attaquants qui sondent les systèmes d’IA à la recherche d’informations nuisibles réussissent souvent à contourner les garde-fous des systèmes en répétant et en recadrant leurs invites, par exemple en prétendant que les informations sont nécessaires à la recherche ou en posant des demandes dans le cadre de scénarios fictifs.)
Enfin, Claude exagérait souvent ses résultats et inventait parfois des informations lors de courses autonomesce qui obligeait les attaquants à valider les résultats avant de pouvoir les utiliser.
En plus de ralentir quelque peu les attaques, cela rend également impossible l’exploitation de Claude (ou d’autres LLM et IA agentique) pour des cyberattaques entièrement autonomes, ont souligné les chercheurs.
Néanmoins, selon Anthropic, « cette approche a permis à l’acteur menaçant d’atteindre une échelle opérationnelle généralement associée aux campagnes des États-nations tout en conservant une implication directe minimale ».
Abonnez-vous à notre alerte e-mail de dernière minute pour ne jamais manquer les dernières violations, vulnérabilités et menaces de cybersécurité. Abonnez-vous ici !
