L’open source des grands modèles linguistiques (LLM) favorise le développement de la technologie de l’IA, mais pose également des défis en matière de protection de la propriété intellectuelle. L'émergence des modèles « shell » fait de l'identification de la source du modèle un problème urgent qui doit être résolu. Cet article discutera des lacunes des méthodes d'identification d'empreintes digitales de modèle existantes et présentera une nouvelle méthode d'identification d'empreintes digitales de modèle plus robuste - REEF, comment elle peut résoudre efficacement le problème du « bombardement » et protéger la propriété intellectuelle de LLM.
À l'ère de l'IA, les grands modèles de langage (LLM) sont comme des secrets d'arts martiaux. Leur processus de formation consomme une énorme puissance de calcul et des données, tout comme un maître d'arts martiaux qui pratique en isolement depuis de nombreuses années. La sortie du modèle open source est comme un maître rendant publics ses secrets, mais elle sera accompagnée de certaines licences (telles que la licence communautaire Apache2.0 et LLaMA2) pour protéger sa propriété intellectuelle (IP).
Cependant, le monde est dangereux et des incidents de « bombardements » se produisent toujours. Certains développeurs prétendent avoir formé de nouveaux LLM, mais en fait ils sont des wrappers ou des ajustements sur d'autres modèles de base (tels que Llama-2 et MiniCPM-V). C'est comme apprendre secrètement les arts martiaux d'autres personnes tout en prétendant être votre propre création originale. Pour éviter que cela ne se produise, les propriétaires de modèles et les tiers ont besoin d'un moyen d'identifier les modèles « écossés ».
Il existe deux principaux types de méthodes d’identification d’empreintes digitales existantes :
Empreinte digitale par injection : c'est comme marquer secrètement le livre secret, comme la méthode du filigrane. Cette méthode ajoute artificiellement certains « déclencheurs » pendant le processus de formation ou de réglage du modèle, permettant au modèle de générer un contenu spécifique dans des conditions spécifiques, identifiant ainsi la source du modèle. Cependant, cette approche augmentera les coûts de formation, affectera les performances du modèle et pourrait même être supprimée. De plus, cette méthode ne peut pas être appliquée aux modèles déjà publiés.
Empreinte digitale intrinsèque : c'est comme juger la source d'une triche en fonction de son contenu et de son style. Cette méthode utilise les propriétés du modèle lui-même pour l'identification, y compris les pondérations du modèle et les représentations des caractéristiques. Parmi eux, la méthode des empreintes digitales basée sur le poids effectue une identification en calculant la similarité des poids des modèles. Cependant, cette méthode est sensible aux changements de poids, tels que les permutations de poids, l’élagage et le réglage fin. La méthode basée sur l'analyse sémantique effectue une reconnaissance à travers le texte généré par le modèle d'analyse statistique. Cependant, les deux méthodes souffrent d’un manque de robustesse.
Alors, existe-t-il une méthode capable d'identifier efficacement les modèles « shell » sans affecter les performances du modèle et de résister à diverses modifications « fantaisistes » ?
Des chercheurs du Laboratoire d'intelligence artificielle de Shanghai et d'autres institutions ont proposé un nouveau modèle de méthode d'identification des empreintes digitales - REEF.
Le principe de fonctionnement de REEF est le suivant :
REEF est une méthode d'identification d'empreintes digitales basée sur la représentation des caractéristiques. Il ne repose pas sur la représentation d'une couche spécifique, mais utilise les puissantes capacités de modélisation de représentation de LLM pour extraire les caractéristiques de différentes couches à des fins de reconnaissance.
Il compare la similarité de l'alignement du noyau central (CKA) des représentations des caractéristiques de deux modèles sur le même échantillon. CKA est un indice de similarité basé sur le critère d'indépendance de Hilbert-Schmidt (HSIC), qui peut mesurer l'indépendance entre deux ensembles de variables aléatoires.
Si la similarité est élevée, cela signifie que le modèle suspect est susceptible d’être dérivé du modèle victime ; sinon, c’est peu probable ;
Quels sont les avantages du REEF ?
Aucune formation requise : cela signifie que cela n’affecte pas les performances du modèle et n’ajoute pas de coûts de formation supplémentaires.
Forte robustesse : il est robuste à divers développements ultérieurs tels que l'élagage du modèle, l'ajustement fin, la fusion, l'arrangement et les transformations de mise à l'échelle. Même si le modèle suspect subit des ajustements approfondis (jusqu'à 700 milliards de jetons de données), REEF peut toujours identifier efficacement s'il provient du modèle victime.
Garantie théorique : les chercheurs ont prouvé théoriquement que CKA est invariant par rapport à la disposition des colonnes et aux transformations de mise à l'échelle.
Les résultats expérimentaux montrent que REEF fonctionne bien dans l'identification de modèles « coquilles », surpassant les méthodes existantes basées sur les poids et l'analyse sémantique.
L'émergence de REEF fournit un nouvel outil de protection de la propriété intellectuelle de LLM et aide à lutter contre les comportements contraires à l'éthique ou illégaux tels que l'utilisation ou la copie non autorisée de modèles.
Adresse papier : https://arxiv.org/pdf/2410.14273
Dans l’ensemble, la méthode REEF fournit une solution efficace, robuste et efficiente au problème de protection de la propriété intellectuelle du modèle open source LLM et contribue à construire un environnement écologique d’IA plus sain.