Google dévoile RETVec – la nouvelle défense de Gmail contre le spam et les e-mails malveillants

Google a dévoilé un nouveau vecteur de texte multilingue appelé RETVec (abréviation de Resilient and Efficient Text Vectorizer) pour aider à détecter les contenus potentiellement dangereux tels que le spam et les e-mails malveillants dans Gmail.

“RETVec est formé pour résister aux manipulations au niveau des caractères, notamment l’insertion, la suppression, les fautes de frappe, les homoglyphes, la substitution LEET, etc.”, selon la description du projet sur GitHub.

“Le modèle RETVec est formé sur un nouvel encodeur de caractères capable d’encoder efficacement tous les caractères et mots UTF-8.”

Alors que d’énormes plateformes comme Gmail et YouTube s’appuient sur des modèles de classification de texte pour détecter les attaques de phishing, les commentaires inappropriés et les escroqueries, les acteurs malveillants sont connus pour concevoir des contre-stratégies pour contourner ces mesures de défense.

Ils ont été observés en train de recourir à des manipulations de texte contradictoires, qui vont de l’utilisation d’homoglyphes au bourrage de mots clés en passant par des caractères invisibles.

RETVec, qui fonctionne immédiatement dans plus de 100 langues, vise à aider à créer des classificateurs de texte plus résilients et plus efficaces côté serveur et sur l’appareil, tout en étant plus robustes et efficaces.

La vectorisation est une méthodologie de traitement du langage naturel (NLP) permettant de mapper des mots ou des expressions du vocabulaire à une représentation numérique correspondante afin d’effectuer une analyse plus approfondie, telle que l’analyse des sentiments, la classification de texte et la reconnaissance d’entités nommées.

“Grâce à son architecture novatrice, RETVec fonctionne immédiatement sur toutes les langues et tous les caractères UTF-8 sans nécessiter de prétraitement du texte, ce qui en fait le candidat idéal pour la classification de texte sur appareil, sur le Web et à grande échelle. déploiements”, ont noté Elie Bursztein et Marina Zhang de Google.

Le géant de la technologie a déclaré que l’intégration du vectoriseur à Gmail a amélioré le taux de détection du spam par rapport à la référence de 38 % et réduit le taux de faux positifs de 19,4 %. Il a également réduit l’utilisation de l’unité de traitement Tensor (TPU) du modèle de 83 %.

“Les modèles formés avec RETVec présentent une vitesse d’inférence plus rapide en raison de leur représentation compacte. Avoir des modèles plus petits réduit les coûts de calcul et diminue la latence, ce qui est essentiel pour les applications à grande échelle et les modèles sur appareil”, ont ajouté Bursztein et Zhang.

Partager Cet Article
Quitter la version mobile