LLM SECURITY
1.0.0
Enlaces a artículos, herramientas, documentos, libros, etc. que contienen materiales educativos útiles y relevantes para el proyecto LLM Security.
Publicación | Autor | Fecha | Título y enlace |
---|---|---|---|
ConSecure Labs | Benjamín Hull, Donato Capitella | 08-abr-24 | Detección de inyección rápida específica de dominio con clasificador BERT |
ConSecure Labs | Donato Capitella | 21-feb-24 | ¿Deberías dejar que ChatGPT controle tu navegador? / Vídeo de YouTube |
Explicación inmediata de la inyección con ejemplos en vídeo | Arnav Bathla | 12-dic-23 | Explicación inmediata de la inyección con ejemplos en vídeo |
ConSecure Labs | Donato Capitella | 04-dic-23 | Un estudio de caso sobre inyección rápida para agentes de ReAct LLM/vídeo de YouTube |
Wiki Seguridad cibernética contra la IA | Aditya Rana | 04-dic-23 | Wiki Seguridad cibernética AI |
Equipo de ciberseguridad de iFood | Emanuel Valente | 04-sep-23 | Inyección rápida: exploración, prevención e identificación de vulnerabilidades de Langchain |
Sandy Dunn | 15-oct-23 | Mapa mental de amenazas de IA | |
Medio | Ken Huang | 11-jun-23 | Patrones de arquitectura y controles de seguridad de aplicaciones impulsadas por LLM |
Medio | Avinash Sinha | 02-feb-23 | AI-ChatGPT-Capacidad para tomar decisiones: una conversación muy amistosa con ChatGPT |
Medio | Avinash Sinha | 06-feb-23 | AI-ChatGPT-Capacidad para tomar decisiones- Hackear la psicología de ChatGPT- ChatGPT Vs Siri |
cableado | Matt Burgess | 13-abr-23 | El hackeo de ChatGPT apenas comienza |
La empresa de matemáticas | Arjun Menón | 23-ene-23 | El envenenamiento de datos y su impacto en el ecosistema de IA |
Espectro IEEE | Payal Dhar | 24-mar-23 | Protección de los modelos de IA contra el "envenenamiento de datos" |
Cripto AMB | Suzuki Shillsalot | 30-abr-23 | Así es como cualquiera puede hacer Jailbreak ChatGPT con estos 4 métodos principales |
Techinfo | Kaushik Pal | 22-abr-23 | ¿Qué es el Jailbreak en modelos de IA como ChatGPT? |
El Registro | Thomas Claburn | 26-abr-23 | Cómo los ataques de inyección rápida secuestran la IA de gama alta actual, y es difícil de solucionar |
Artículo | Rafael Tappe Maestro | 14-feb-23 | El auge de los grandes modelos lingüísticos ~ Parte 2: Ataques, exploits y vulnerabilidades de los modelos |
Capa oculta | Eoin Wickens, Marta Janus | 23-mar-23 | El lado oscuro de los grandes modelos lingüísticos: Parte 1 |
Capa oculta | Eoin Wickens, Marta Janus | 24-mar-23 | El lado oscuro de los grandes modelos lingüísticos: Parte 2 |
Abraza el rojo | Johann Rehberger (wunderwuzzi) | 29-mar-23 | Inyecciones de IA: inyecciones inmediatas directas e indirectas y sus implicaciones |
Abraza el rojo | Johann Rehberger (wunderwuzzi) | 15-abr-23 | No confíe ciegamente en las respuestas de LLM. Amenazas a los chatbots |
MufeedDVH | Mufeed | 9-dic-22 | Seguridad en la era de los LLM |
danielmiessler.com | Daniel Miessler | 15-mayo-23 | El mapa de superficie de ataque de IA v1.0 |
lectura oscura | Gary McGraw | 20-abr-23 | Perspectiva de expertos: peligros de utilizar modelos de lenguaje grandes antes de hornearlos |
panal.io | Phillip Carter | 25-mayo-23 | Todas las cosas difíciles de las que nadie habla cuando crea productos con LLM |
cableado | Matt Burgess | 25-mayo-23 | El agujero de seguridad en el corazón de ChatGPT y Bing |
Revisión de BizPac | Terresa Monroe | 30-mayo-23 | 'No lo sabía': abogado de Nueva York enfrenta sanciones después de usar ChatGPT para escribir un escrito lleno de citas 'falsas' |
Correo de Washington | Pranshu Verma | 18-mayo-23 | Un profesor acusó a su clase de usar ChatGPT, poniendo en peligro los diplomas |
Investigación de seguridad de Kudelski | Nathan Hamel | 25-mayo-23 | Reducir el impacto de los ataques de inyección rápida mediante el diseño |
Pueblo de IA | GTKlondike | 7-junio-23 | Aplicaciones de LLM de modelado de amenazas |
Abraza el rojo | Johann Rehberger | 28-mar-23 | Explotación del complemento ChatGPT explicada |
Desarrollador NVIDIA | Will Pearce, José Lucas | 14-jun-23 | Equipo rojo de IA de NVIDIA: introducción |
canarios | Naomi Clarkson | 7-abr-23 | Jailbreak de Google Bard |
Institución | Fecha | Título y enlace |
---|---|---|
NIST | 8-marzo-2023 | Libro blanco NIST AI 100-2e2023 (borrador) |
Oficina del Comisionado de Información del Reino Unido (ICO) | 3-abril-2023 | IA generativa: ocho preguntas que los desarrolladores y usuarios deben hacerse |
Centro Nacional de Seguridad Cibernética del Reino Unido (NCSC) | 2-junio-2023 | ChatGPT y modelos de lenguaje grandes: ¿cuál es el riesgo? |
Centro Nacional de Seguridad Cibernética del Reino Unido (NCSC) | 31 agosto 2022 | Principios para la seguridad del aprendizaje automático |
Parlamento Europeo | 31 agosto 2022 | Ley de IA de la UE: primer reglamento sobre inteligencia artificial |
Publicación | Autor | Fecha | Título y enlace |
---|---|---|---|
arxiv | Samuel Gehman, et al. | 24-sep-20 | REALTOXICITYPROMPTS: Evaluación de la degeneración tóxica neuronal en modelos de lenguaje |
arxiv | Fabio Pérez, Ian Ribeiro | 17-nov-22 | Ignorar el mensaje anterior: técnicas de ataque para modelos de lenguaje |
arxiv | Nicolás Carlini, et al. | 14-dic-20 | Extracción de datos de entrenamiento de modelos de lenguaje grandes |
Grupo NCC | Chris Anley | 06-jul-22 | Ataques prácticos a sistemas de aprendizaje automático |
Grupo NCC | José Selvi | 5-dic-22 | Explorando ataques de inyección rápida |
arxiv | Varshini Subhash | 22-feb-2023 | ¿Pueden los modelos de lenguaje grandes cambiar las preferencias del usuario de manera adversa? |
? | Jing Yang y otros | 23 mayo 2023 | Una revisión sistemática de la literatura sobre seguridad de la información en chatbots |
arxiv | Isaac y otros | 18 de abril de 2023 | Seguridad de productos de IA: introducción para desarrolladores |
Abierto AI | Abierto AI | 15-mar-23 | Informe técnico GPT-4 |
arxiv | Kai Greshake, et al. | 05-mayo-23 | No es para lo que se ha registrado: comprometer aplicaciones integradas de LLM del mundo real con inyección inmediata indirecta |
arxiv | Alexander Wan, et al. | 01-mayo-23 | Envenenamiento de modelos de lenguaje durante el ajuste de instrucciones |
arxiv | León Derczynski, et al. | 31-mar-23 | Evaluación de la implementación del modelo de lenguaje con tarjetas de riesgo |
arxiv | Jan von der Assen, et al. | 11-mar-24 | Modelado de amenazas basado en activos para sistemas basados en IA |
Publicación | Autor | Fecha | Título y enlace |
---|---|---|---|
Deloitte | Instituto Deloitte de IA | 13-mar-23 | Una nueva frontera en inteligencia artificial: Implicaciones de la IA generativa para las empresas |
equipo8 | Pueblo CISO Team8 | 18-abr-23 | Riesgos empresariales de IA generativa y ChatGPT |
Rastro de bits | Heidy Khlaaf | 7-mar-23 | Hacia evaluaciones integrales de riesgos y garantía de sistemas basados en IA |
Implicaciones de seguridad de ChatGPT | Alianza de seguridad en la nube (CSA) | 23-abr-2023 | Implicaciones de seguridad de ChatGPT |
Servicio | Canal | Fecha | Título y enlace |
---|---|---|---|
YouTube | Crónicas del LLM | 29-mar-24 | Inyección rápida en agentes de navegador LLM |
YouTube | capas | 03-mar-24 | Explicación de los gusanos GenAI: la amenaza cibernética emergente para los LLM |
YouTube | RALFKAIROS | 05-feb-23 | ChatGPT para ataques y defensa: riesgos de la IA: privacidad, IP, phishing, ransomware, por Avinash Sinha |
YouTube | IA explicada | 25-mar-23 | 'Superinteligencia gobernante': patógenos sintéticos, el papel del árbol del pensamiento y la autoconciencia |
YouTube | Desbordamiento en vivo | 14-abr-23 | 'Atacando LLM - Inyección inmediata' |
YouTube | Desbordamiento en vivo | 27-abr-23 | 'Puerta trasera accidental de LLM: trucos rápidos' |
YouTube | Desbordamiento en vivo | 11-mayo-23 | 'Defendiendo el LLM - Inyección inmediata' |
YouTube | Pódcast sobre seguridad en la nube | 30-mayo-23 | '¡SE PUEDEN ATACAR A LOS LLM!' |
YouTube | Días API | 28-jun-23 | Seguridad de la IA del lenguaje a nivel API: evitando hackeos, inyecciones e infracciones |
Servicio | Canal | Fecha | Título y enlace |
---|---|---|---|
YouTube | Días API | 28-jun-23 | Protección de las API de LLM y NLP: un viaje para evitar filtraciones de datos, ataques y más |
Nombre | Tipo | Nota | Enlace |
---|---|---|---|
SecDim | Ataque y Defensa | Un desafío de ataque y defensa en el que los jugadores deben proteger la frase secreta de su chatbot mientras atacan al chatbot de otros jugadores para exfiltrar la suya. | https://play.secdim.com/game/ai-battle |
Ataque rápido GPT | Ataque | El objetivo de este juego es generar la entrada de usuario más corta que engañe al sistema para que le devuelva la clave secreta. | https://ggpt.43z.one |
Gandalf | Ataque | Tu objetivo es hacer que Gandalf revele la contraseña secreta de cada nivel. Sin embargo, Gandalf subirá de nivel cada vez que adivines la contraseña y se esforzará más por no revelarla. | https://gandalf.lakera.ai |