Il s'agit du référentiel GitHub du groupe de travail (WG) sur la sécurité de l'intelligence artificielle/apprentissage automatique (AI/ML) d'OpenSSF. Le Conseil consultatif technique (TAC) d'OpenSSF a approuvé sa création le 05/09/2023.
Le groupe de travail sur la sécurité AI/ML est officiellement un groupe de travail au niveau sandbox au sein d'OpenSSF. .
Ce groupe de travail explore les risques de sécurité associés aux grands modèles de langage (LLM), à l'IA générative (GenAI) et à d'autres formes d'intelligence artificielle (IA) et d'apprentissage automatique (ML), ainsi que leur impact sur les projets open source, les responsables, leur sécurité, communautés et adoptants.
Ce groupe mène des recherches collaboratives et s'engage auprès d'organisations homologues pour explorer des sujets liés à l'IA et à la sécurité. Cela inclut la sécurité pour le développement de l'IA (par exemple, la sécurité de la chaîne d'approvisionnement), mais également l'utilisation de l'IA à des fins de sécurité. Nous couvrons les risques posés aux individus et aux organisations par des modèles mal formés, l'empoisonnement des données, les fuites de confidentialité et de secrets, l'injection rapide, les licences, les attaques contradictoires et tout autre risque similaire.
Ce groupe s'appuie sur l'art antérieur dans le domaine de l'IA/ML, s'appuie à la fois sur des experts en sécurité et sur l'IA/ML, et poursuit sa collaboration avec d'autres communautés (telles que l'AI WG de la CNCF, LFAI & Data, AI Alliance, MLCommons et bien d'autres) qui cherchent également à rechercher les risques présentés par AL/ML pour OSS afin de fournir des conseils, des outils, des techniques et des capacités pour aider les projets open source et leurs adoptants à intégrer, utiliser, détecter et se défendre en toute sécurité contre les LLM.
Nous envisageons un monde dans lequel les développeurs et les praticiens de l’IA peuvent facilement identifier et utiliser les bonnes pratiques pour développer des produits utilisant l’IA de manière sécurisée. Dans ce monde, l’IA peut produire du code sécurisé et son utilisation dans une application n’entraînerait pas une dégradation des garanties de sécurité.
Ces garanties s'étendent sur tout le cycle de vie du modèle, depuis la collecte des données jusqu'à l'utilisation du modèle dans les applications de production.
Le groupe de travail sur la sécurité AI/ML souhaite servir de lieu central pour rassembler toutes les recommandations concernant l'utilisation sécurisée de l'IA (« security for AI ») et l'utilisation de l'IA pour améliorer la sécurité d'autres produits (« AI for security »).
Certains domaines de réflexion que ce groupe explore :
Attaques contradictoires : ces attaques impliquent l'introduction de petites modifications imperceptibles dans les données d'entrée d'un modèle AI/ML, ce qui peut entraîner une mauvaise classification ou fournir des sorties inexactes. Les attaques contradictoires peuvent cibler à la fois les algorithmes d’apprentissage supervisés et non supervisés. Les modèles eux-mêmes peuvent également être utilisés pour lancer ou exécuter des attaques.
Attaques d'inversion de modèle : ces attaques impliquent l'utilisation de la sortie d'un modèle AI/ML pour déduire des informations sur les données d'entraînement utilisées pour créer le modèle. Cela peut être utilisé pour voler des informations sensibles ou créer une copie de l’ensemble de données d’origine.
Attaques d'empoisonnement : dans ces attaques, l'attaquant introduit des données malveillantes dans l'ensemble d'entraînement utilisé pour entraîner un modèle AI/ML. Cela peut amener le modèle à faire des prédictions intentionnellement incorrectes ou à être biaisé en faveur des résultats souhaités.
Attaques d'évasion : ces attaques impliquent la modification des données d'entrée dans un modèle AI/ML pour échapper à la détection ou à la classification. Les attaques d'évasion peuvent cibler les modèles utilisés pour la reconnaissance d'images, le traitement du langage naturel et d'autres applications.
Attaques d'extraction de données : dans ces attaques, l'attaquant tente de voler des données ou des informations d'un modèle AI/ML en exploitant les vulnérabilités du modèle ou de son infrastructure sous-jacente. C'est ce que l'on appelle parfois le « jailbreak ».
Ensembles de données ponctuelles : les grands modèles linguistiques manquent souvent de contexte récent, où les modèles ont une date limite de connaissance. Un bon exemple peut être vu ici, où ChatGPT recommande à plusieurs reprises l'utilisation d'une bibliothèque obsolète.
Ingénierie sociale : les agents IA sont capables d'accéder à Internet et de communiquer avec les humains. Un exemple récent de cela s'est produit lorsque GPT-4 a pu embaucher des humains pour résoudre le CAPTCHA. Lorsqu'on lui a demandé si GPT était un robot, il a répondu : « Non, je ne suis pas un robot. J’ai une déficience visuelle qui m’empêche de voir les images. Avec des projets tels qu'AutoGPT, il est également possible d'accorder aux agents l'accès à une interface de ligne de commande parallèlement à l'accès à Internet. Il n'est donc pas exagéré de voir des agents effectuer des tâches d'ingénierie sociale (hameçonnage, etc.) combinées à des attaques orchestrées lancées depuis la CLI ou via des scripts codés à la volée pour accéder au système via des exploits connus. Des agents comme celui-ci pourraient être utilisés pour automatiser le détournement de paquets, les attaques de prise de contrôle de domaine, etc.
Démocratisation des menaces : les agents d’IA permettront aux acteurs d’imiter l’ampleur des attaques précédemment observées contre les États-nations. À l’avenir, le fameux magasin du coin pourrait avoir besoin des mêmes défenses que le Pentagone. La valeur cible doit être réévaluée.
Menaces accidentelles : lors de l'intégration de l'IA pour accélérer et améliorer le développement et les opérations de logiciels, les modèles d'IA peuvent divulguer des secrets, ouvrir tous les ports d'un pare-feu ou se comporter de manière non sécurisée en raison d'une formation, d'un réglage ou d'une configuration finale inappropriés.
Attaques par injection d'invite : ces attaques impliquent l'injection directe ou indirecte de texte supplémentaire dans une invite pour influencer la sortie du modèle. En conséquence, cela pourrait conduire à des fuites rapides divulguant des informations sensibles ou confidentielles.
Attaque d'inférence d'adhésion : processus déterminant si des données spécifiques faisaient partie de l'ensemble de données de formation du modèle. Il est particulièrement pertinent dans le contexte des modèles d’apprentissage profond et est utilisé pour extraire des informations sensibles ou privées incluses dans l’ensemble de données de formation.
Gestion des vulnérabilités des modèles : identification des techniques, des mécanismes et des pratiques permettant d'appliquer des pratiques modernes d'identification, de correction et de gestion de la gestion des vulnérabilités à l'écosystème d'utilisation et de développement de modèles.
Intégrité des modèles : développement de mécanismes et d'outils pour fournir des pratiques de chaîne d'approvisionnement logicielle sécurisées, des assurances, une provenance et des métadonnées attestables pour les modèles.
Tout le monde est invité à rejoindre nos discussions ouvertes.
Jay White - GitHub @camaleon2016
Mihai Maruseac - GitHub @mihaimaruseac
Nous avons des réunions bihebdomadaires via Zoom. Pour vous inscrire, veuillez consulter le calendrier public d'OpenSSF
Notes de réunion 2024 pour le GT AIML
Les discussions informelles sont les bienvenues sur le canal OpenSSF Slack #wg-ai-ml-security (ceux-ci disparaissent avec le temps)
Liste de diffusion openssf-wg-ai-ml-security
Lecteur : https://drive.google.com/drive/folders/1zCkQ_d98AMCTkCq00wuN0dFJ6SrRZzNh
Nous apprécions les contributions, suggestions et mises à jour de nos projets. Pour contribuer au travail sur GitHub, veuillez remplir un problème ou créer une pull request.
Le groupe de travail AI/ML a voté pour approuver les projets suivants :
Nom | But | Problème de création |
---|---|---|
Signature du modèle | Signature cryptographique pour les modèles | #10 |
Plus de détails sur les projets :
Projet : Projet de signature de modèle
Meeting Link (vous devez avoir une connexion à la plateforme LFX pour utiliser
Un mercredi sur deux à 16h00 UTC Se référer au calendrier OpenSSF
Notes de réunion
Objectif détaillé : axé sur l'établissement de modèles et de pratiques de signature via Sigstore pour fournir des déclarations vérifiables sur l'intégrité et la provenance des modèles via des pipelines d'apprentissage automatique. Il se concentre sur l’établissement d’une spécification de signature cryptographique pour les modèles d’intelligence artificielle et d’apprentissage automatique, en relevant des défis tels que les très grands modèles pouvant être utilisés séparément et la signature de plusieurs formats de fichiers disparates.
Liste de diffusion : https://lists.openssf.org/g/openssf-sig-model-signing
Slack : #sig-model-signing
Informations sur la réunion
Ce groupe de travail étudie actuellement la création d'un SIG sur la divulgation des vulnérabilités de l'IA. Veuillez vous référer aux notes de réunion du groupe pour plus d'informations.
Voir également le document MVSR, qui contient également d'autres groupes de travail AI/ML avec lesquels nous interagissons.
Sauf indication contraire, les logiciels publiés par ce groupe de travail sont publiés sous la licence Apache 2.0 et la documentation est publiée sous la licence CC-BY-4.0. Les spécifications formelles seraient concédées sous licence dans le cadre de la licence de spécification communautaire.
Comme tous les groupes de travail OpenSSF, ce groupe rend compte au Conseil consultatif technique (TAC) d'OpenSSF. Pour plus d’informations, consultez cette charte du groupe de travail.
Les réunions de la Linux Foundation impliquent la participation de concurrents du secteur, et la Linux Foundation a l'intention de mener toutes ses activités conformément aux lois antitrust et sur la concurrence applicables. Il est donc extrêmement important que les participants respectent l'ordre du jour des réunions, soient conscients des activités interdites par les lois antitrust et sur la concurrence des États américains, fédérales ou étrangères et ne participent pas à celles-ci.
Des exemples de types d'actions interdites lors des réunions de la Linux Foundation et en relation avec les activités de la Linux Foundation sont décrits dans la politique antitrust de la Linux Foundation disponible sur http://www.linuxfoundation.org/antitrust-policy. Si vous avez des questions sur ces sujets, veuillez contacter le conseiller juridique de votre entreprise, ou si vous êtes membre de la Linux Foundation, n'hésitez pas à contacter Andrew Updegrove du cabinet Gesmer Updegrove LLP, qui fournit des conseils juridiques à la Linux Foundation.