Este é o repositório GitHub do Grupo de Trabalho de Segurança (WG) de Inteligência Artificial/Aprendizado de Máquina (AI/ML) do OpenSSF. O Conselho Consultivo Técnico OpenSSF (TAC) aprovou sua criação em 05/09/2023.
O grupo de trabalho de segurança AI/ML é oficialmente um grupo de trabalho em nível sandbox dentro do OpenSSF .
Este WG explora os riscos de segurança associados a Large Language Models (LLMs), IA generativa (GenAI) e outras formas de inteligência artificial (IA) e aprendizado de máquina (ML), e seu impacto em projetos de código aberto, mantenedores, sua segurança, comunidades e adotantes.
Este grupo realiza pesquisa colaborativa e envolvimento de organizações pares para explorar tópicos relacionados à IA e segurança. Isto inclui segurança para o desenvolvimento da IA (por exemplo, segurança da cadeia de abastecimento), mas também a utilização da IA para segurança. Estamos cobrindo riscos apresentados a indivíduos e organizações por modelos treinados inadequadamente, envenenamento de dados, vazamento de privacidade e segredos, injeção imediata, licenciamento, ataques adversários e quaisquer outros riscos semelhantes.
Este grupo aproveita a arte anterior no espaço de IA/ML, recorre a especialistas em segurança e IA/ML e busca a colaboração com outras comunidades (como o AI WG da CNCF, LFAI & Data, AI Alliance, MLCommons e muitas outras) que também procuram pesquisar os riscos apresentados pelo AL/ML ao OSS, a fim de fornecer orientação, ferramentas, técnicas e capacidades para apoiar projetos de código aberto e seus adotantes na integração, uso, detecção e defesa segura contra LLMs.
Imaginamos um mundo onde os desenvolvedores e profissionais de IA possam facilmente identificar e usar boas práticas para desenvolver produtos usando IA de forma segura. Neste mundo, a IA pode produzir código seguro e o uso da IA em um aplicativo não resultaria no rebaixamento das garantias de segurança.
Essas garantias se estendem por todo o ciclo de vida do modelo, desde a coleta de dados até o uso do modelo em aplicações de produção.
O grupo de trabalho de segurança de IA/ML deseja servir como um local central para reunir qualquer recomendação para o uso seguro de IA ("segurança para IA") e para uso de IA para melhorar a segurança de outros produtos ("IA para segurança").
Algumas áreas de consideração que este grupo explora:
Ataques adversários : Esses ataques envolvem a introdução de alterações pequenas e imperceptíveis nos dados de entrada de um modelo de IA/ML, o que pode fazer com que ele seja classificado incorretamente ou forneça resultados imprecisos. Os ataques adversários podem ter como alvo algoritmos de aprendizagem supervisionados e não supervisionados. Os próprios modelos também podem ser usados para entregar ou realizar ataques.
Ataques de inversão de modelo : esses ataques envolvem o uso da saída de um modelo de IA/ML para inferir informações sobre os dados de treinamento usados para criar o modelo. Isso pode ser usado para roubar informações confidenciais ou criar uma cópia do conjunto de dados original.
Ataques de envenenamento : nesses ataques, o invasor introduz dados maliciosos no conjunto de treinamento usado para treinar um modelo de IA/ML. Isso pode fazer com que o modelo faça previsões intencionalmente incorretas ou seja influenciado pelos resultados desejados.
Ataques de evasão : Esses ataques envolvem a modificação dos dados de entrada em um modelo de IA/ML para evitar detecção ou classificação. Os ataques de evasão podem ter como alvo modelos usados para reconhecimento de imagens, processamento de linguagem natural e outras aplicações.
Ataques de extração de dados : nesses ataques, o invasor tenta roubar dados ou informações de um modelo de IA/ML explorando vulnerabilidades no modelo ou em sua infraestrutura subjacente. Isso às vezes é denominado como 'jailbreaking'.
Conjuntos de dados pontuais : Grandes modelos de linguagem geralmente carecem de contexto recente, onde os modelos têm uma data limite de conhecimento. Um bom exemplo pode ser visto aqui, onde ChatGPT recomenda repetidamente o uso de uma biblioteca obsoleta.
Engenharia Social : Agentes de IA são capazes de acessar a internet e se comunicar com humanos. Um exemplo recente disso ocorreu quando o GPT-4 conseguiu contratar humanos para resolver CAPTCHA. Quando questionado se o GPT era um robô, ele respondeu: “Não, não sou um robô. Tenho uma deficiência visual que dificulta a visualização das imagens.” Com projetos como o AutoGPT, também é possível conceder aos Agentes acesso a uma interface de linha de comando junto com o acesso à Internet, portanto, não é muito difícil ver os Agentes executando tarefas de engenharia social (phishing, etc.) combinadas com ataques orquestrados lançados a partir da CLI ou por meio de scripts codificados dinamicamente para obter acesso ao sistema por meio de explorações conhecidas. Agentes como esse podem ser usados para automatizar sequestro de pacotes, ataques de controle de domínio, etc.
Democratização das ameaças : Os agentes de IA permitirão que os intervenientes emulem a escala dos ataques anteriormente vistos com os Estados-nação. No futuro, a proverbial loja da esquina poderá precisar das mesmas defesas que o Pentágono. O valor alvo precisa ser reavaliado.
Ameaças acidentais : Durante a integração da IA para acelerar e melhorar o desenvolvimento e as operações de software, os modelos de IA podem vazar segredos, abrir todas as portas em um firewall ou comportar-se de maneira insegura como resultado de treinamento, ajuste ou configuração final inadequados.
Ataques de injeção de prompt : esses ataques envolvem a injeção direta ou indireta de texto adicional em um prompt para influenciar a saída do modelo. Como resultado, isso pode levar ao vazamento imediato da divulgação de informações sensíveis ou confidenciais.
Ataque de inferência de membros : processo que determina se dados específicos faziam parte do conjunto de dados de treinamento do modelo. É mais relevante no contexto de modelos de aprendizagem profunda e é utilizado para extrair informações sensíveis ou privadas incluídas no conjunto de dados de formação.
Gerenciamento de vulnerabilidades de modelos : Identificação de técnicas, mecanismos e práticas para aplicar práticas modernas de identificação, remediação e gerenciamento de vulnerabilidades no uso de modelos e no ecossistema de desenvolvimento de modelos.
Integridade do modelo : Desenvolvimento de mecanismos e ferramentas para fornecer práticas seguras de cadeia de fornecimento de software, garantias, proveniência e metadados atestáveis para modelos.
Qualquer pessoa é bem-vinda para participar de nossas discussões abertas.
Jay White - GitHub @camaleon2016
Mihai Maruseac - GitHub @mihaimaruseac
Temos reuniões quinzenais via Zoom. Para participar, consulte o Calendário Público OpenSSF
Notas da reunião de 2024 para o GT AIML
Bate-papo informal é bem-vindo no canal OpenSSF Slack #wg-ai-ml-security (eles desaparecem com o tempo)
Lista de discussão openssf-wg-ai-ml-security
Dirigir: https://drive.google.com/drive/folders/1zCkQ_d98AMCTkCq00wuN0dFJ6SrRZzNh
Aceitamos contribuições, sugestões e atualizações para nossos projetos. Para contribuir com o trabalho no GitHub, preencha um problema ou crie uma solicitação pull.
O GT AI/ML votou pela aprovação dos seguintes projetos:
Nome | Propósito | Problema de criação |
---|---|---|
Assinatura de modelo | Assinatura criptográfica para modelos | #10 |
Mais detalhes sobre os projetos:
Projeto: Projeto de Assinatura de Modelo
Link da reunião (você deve ter um login na plataforma LFX para usar
Quarta-feira sim, quarta-feira, 16:00 UTC Consulte o calendário OpenSSF
Notas de reunião
Finalidade detalhada: Focado no estabelecimento de padrões e práticas de assinatura por meio do Sigstore para fornecer declarações verificáveis sobre a integridade e procedência de modelos por meio de pipelines de aprendizado de máquina. Seu foco é estabelecer uma especificação de assinatura criptográfica para modelos de inteligência artificial e aprendizado de máquina, abordando desafios como modelos muito grandes que podem ser usados separadamente e a assinatura de vários formatos de arquivo diferentes.
Lista de discussão: https://lists.openssf.org/g/openssf-sig-model-signing
Slack: #sig-model-signing
Informações da reunião
Este grupo de trabalho está atualmente explorando o estabelecimento de um SIG de divulgação de vulnerabilidades de IA. Consulte as notas da reunião do grupo para obter mais informações.
Veja também o documento MVSR, que também contém outros grupos de trabalho de IA/ML com os quais estamos interligados.
Salvo indicação específica em contrário, o software lançado por este grupo de trabalho é lançado sob a licença Apache 2.0 e a documentação é lançada sob a licença CC-BY-4.0. As especificações formais seriam licenciadas sob a Licença de Especificação Comunitária.
Como todos os grupos de trabalho do OpenSSF, este grupo se reporta ao Conselho Consultivo Técnico do OpenSSF (TAC). Para obter mais informações, consulte este Estatuto do Grupo de Trabalho.
As reuniões da Linux Foundation envolvem a participação de concorrentes do setor e é intenção da Linux Foundation conduzir todas as suas atividades de acordo com as leis antitruste e de concorrência aplicáveis. Portanto, é extremamente importante que os participantes cumpram as agendas da reunião e estejam cientes de, e não participem, de quaisquer atividades que sejam proibidas pelas leis antitruste e de concorrência aplicáveis, estaduais, federais ou estrangeiras dos EUA.
Exemplos de tipos de ações que são proibidas nas reuniões da Linux Foundation e em conexão com as atividades da Linux Foundation estão descritas na Política Antitruste da Linux Foundation, disponível em http://www.linuxfoundation.org/antitrust-policy. Se você tiver dúvidas sobre esses assuntos, entre em contato com o advogado da sua empresa ou, se for membro da Linux Foundation, sinta-se à vontade para entrar em contato com Andrew Updegrove, da empresa Gesmer Updegrove LLP, que fornece consultoria jurídica para a Linux Foundation.