Открытый исходный код больших языковых моделей (LLM) способствует развитию технологий искусственного интеллекта, но также создает проблемы в защите интеллектуальной собственности. Появление моделей «оболочки» делает выявление источника модели актуальной проблемой, требующей решения. В этой статье будут обсуждаться недостатки существующих методов идентификации по отпечаткам пальцев, а также представлен новый, более надежный метод идентификации по отпечаткам пальцев - REEF, как он может эффективно решить проблему «обстрела» и защитить интеллектуальную собственность LLM.
В эпоху искусственного интеллекта большие языковые модели (LLM) подобны секретам боевых искусств. Их тренировочный процесс потребляет огромные вычислительные мощности и данные, как и у мастера боевых искусств, который много лет практиковал в уединении. Выпуск модели с открытым исходным кодом похож на то, как мастер раскрывает свои секреты, но он будет сопровождаться некоторыми лицензиями (такими как лицензия сообщества Apache2.0 и LLaMA2) для защиты его интеллектуальной собственности (IP).
Однако мир коварен, и «обстрелы» случаются всегда. Некоторые разработчики утверждают, что обучили новые LLM, но на самом деле они являются обертками или доработками других базовых моделей (таких как Llama-2 и MiniCPM-V). Это все равно что тайно изучать боевые искусства других людей, но утверждать, что они являются вашим собственным творением. Чтобы этого не произошло, владельцам моделей и третьим лицам необходим способ идентификации «оболочек» моделей.
Существует два основных типа существующих методов идентификации моделей по отпечаткам пальцев:
Инъекционный отпечаток пальца: это похоже на тайную маркировку секретной книги, например, метод водяных знаков. Этот метод искусственно добавляет некоторые «триггеры» во время процесса обучения или тонкой настройки модели, позволяя модели генерировать определенный контент в определенных условиях, тем самым определяя источник модели. Однако этот подход увеличит затраты на обучение, повлияет на производительность модели и может даже быть удален. Более того, этот метод нельзя применить к уже опубликованным моделям.
Внутренний дактилоскопический анализ: это все равно, что судить об источнике мошенничества по его содержанию и стилю. Этот метод использует свойства самой модели для идентификации, включая веса модели и представления функций. Среди них метод отпечатков пальцев на основе веса выполняет идентификацию путем расчета сходства весов моделей. Однако этот метод подвержен изменениям веса, таким как перестановка веса, обрезка и точная настройка. Метод, основанный на семантическом анализе, осуществляет распознавание по тексту, сгенерированному моделью статистического анализа. Однако оба метода страдают недостаточной надежностью.
Итак, существует ли метод, который может эффективно идентифицировать модели «оболочки», не влияя на производительность модели, и противостоять различным «модным» модификациям?
Исследователи из Шанхайской лаборатории искусственного интеллекта и других учреждений предложили новую модель метода идентификации по отпечаткам пальцев – REEF.
Принцип работы РИФ:
REEF — это метод идентификации отпечатков пальцев, основанный на представлении признаков. Он не полагается на представление какого-либо конкретного слоя, а использует мощные возможности моделирования представлений LLM для извлечения функций из различных слоев для распознавания.
Он сравнивает сходство выравнивания центрального ядра (CKA) представлений функций двух моделей в одной выборке. CKA — это индекс сходства, основанный на критерии независимости Гильберта-Шмидта (HSIC), который может измерять независимость между двумя наборами случайных величин.
Если сходство велико, это означает, что подозрительная модель, скорее всего, является производной от модели жертвы; в противном случае это маловероятно;
В чем преимущества РИФ?
Обучение не требуется: это означает, что оно не влияет на производительность модели и не требует дополнительных затрат на обучение.
Высокая надежность: он устойчив к различным последующим изменениям, таким как сокращение модели, точная настройка, слияние, преобразование расположения и масштабирования. Даже если подозрительная модель подвергается тщательной настройке (до 700 миллиардов токенов данных), REEF все равно может эффективно определить, происходит ли она из модели жертвы.
Теоретическая гарантия: исследователи теоретически доказали, что CKA инвариантен к расположению столбцов и преобразованиям масштабирования.
Результаты экспериментов показывают, что REEF хорошо справляется с идентификацией моделей «оболочки», превосходя существующие методы, основанные на весах и семантическом анализе.
Появление REEF предоставляет новый инструмент для защиты интеллектуальной собственности LLM и помогает бороться с неэтичным или незаконным поведением, таким как несанкционированное использование или копирование моделей.
Адрес статьи: https://arxiv.org/pdf/2410.14273.
В целом, метод REEF обеспечивает эффективное, надежное и действенное решение проблемы защиты интеллектуальной собственности модели LLM с открытым исходным кодом и способствует созданию более здоровой экологической среды ИИ.