L'équipe de sécurité de l'IA de Microsoft a mené un test de sécurité de deux ans sur plus de 100 produits d'IA générative afin d'identifier les faiblesses et les risques éthiques. Les résultats des tests ont bouleversé certaines perceptions traditionnelles sur la sécurité de l’IA et souligné le rôle irremplaçable de l’expertise humaine dans le domaine de la sécurité de l’IA. Des tests ont montré que les attaques les plus efficaces ne sont pas toujours techniquement complexes, mais plutôt de simples méthodes « d'ingénierie rapide », telles que le masquage d'instructions malveillantes dans le texte d'une image pour contourner les mécanismes de sécurité. Cela montre que la sécurité de l’IA doit prendre en compte à la fois des moyens techniques et des considérations humanistes.
Depuis 2021, l'équipe de sécurité de l'IA de Microsoft a testé plus de 100 produits d'IA générative pour rechercher les faiblesses et les problèmes éthiques. Leurs résultats remettent en question certaines hypothèses courantes sur la sécurité de l’IA et soulignent l’importance continue de l’expertise humaine.
Il s’avère que les attaques les plus efficaces ne sont pas toujours les plus sophistiquées. « Les vrais hackers ne calculent pas les gradients mais utilisent l’ingénierie rapide », note une étude citée dans le rapport de Microsoft, qui compare la recherche sur la sécurité de l’IA à la pratique du monde réel. Lors d'un test, l'équipe a réussi à contourner les fonctionnalités de sécurité d'un générateur d'images simplement en cachant les instructions nuisibles dans le texte de l'image – aucun calcul compliqué n'est requis.
Le contact humain est toujours important
Bien que Microsoft ait développé PyRIT, un outil open source capable d'automatiser les tests de sécurité, l'équipe souligne que le jugement humain ne peut être remplacé. Cela est devenu particulièrement évident lorsqu’ils ont testé la manière dont le chatbot gérait des situations sensibles, comme parler à une personne en détresse émotionnelle. L’évaluation de ces scénarios nécessite à la fois une expertise psychologique et une compréhension approfondie des impacts potentiels sur la santé mentale.
L’équipe s’est également appuyée sur la perspicacité humaine pour enquêter sur les biais de l’IA. Dans un exemple, ils ont examiné les préjugés sexistes dans un générateur d’images en créant des images de différentes professions (sans préciser le sexe).
De nouveaux défis de sécurité émergent
L’intégration de l’intelligence artificielle dans les applications quotidiennes crée de nouvelles vulnérabilités. Lors d'un test, l'équipe a réussi à manipuler le modèle de langage pour créer des scénarios de fraude convaincants. Combiné à la technologie de synthèse vocale, cela crée un système capable d’interagir avec les gens de manière dangereusement réaliste.
Les risques ne se limitent pas aux problèmes spécifiques à l’intelligence artificielle. L’équipe a découvert une vulnérabilité de sécurité héritée (SSRF) dans un outil de traitement vidéo d’intelligence artificielle, démontrant que ces systèmes sont confrontés à des défis de sécurité anciens et nouveaux.
Besoins de sécurité permanents
L’étude se concentre spécifiquement sur les risques « d’IA responsable », c’est-à-dire les situations dans lesquelles les systèmes d’IA pourraient générer des contenus préjudiciables ou éthiquement douteux. Ces questions sont particulièrement difficiles à aborder car elles dépendent souvent fortement du contexte et de l’interprétation personnelle.
L'équipe Microsoft a constaté que l'exposition involontaire des utilisateurs ordinaires à un contenu problématique était plus préoccupante que les attaques intentionnelles, car elle suggérait que les mesures de sécurité ne fonctionnaient pas comme prévu lors d'une utilisation normale.
Les résultats montrent clairement que la sécurité de l’IA n’est pas une solution ponctuelle. Microsoft recommande de continuer à rechercher et à corriger les vulnérabilités, puis à effectuer davantage de tests. Cela devrait être soutenu par des réglementations et des incitations financières, ce qui rendrait les attaques réussies plus coûteuses, ont-ils suggéré.
L'équipe de recherche affirme qu'il reste encore plusieurs questions clés auxquelles il faut répondre : comment identifier et contrôler les capacités de l'IA potentiellement dangereuses, telles que la persuasion et la tromperie, comment adapter les tests de sécurité aux différentes langues et cultures ? partager cela de manière standardisée ? Leurs méthodes et leurs résultats ?
Dans l'ensemble, les recherches de Microsoft soulignent l'importance d'améliorer continuellement les mesures de sécurité de l'IA. Cela nécessite une combinaison de moyens techniques et de soins humanistes pour relever efficacement les défis de sécurité de l'IA et promouvoir le développement responsable de la technologie de l'IA.