Генеративная структура, объединяющая модели, управляемые данными, и научные теории в языковой нейробиологии (arXiv 2024).
Объяснение текстовых модулей черного ящика на естественном языке с помощью языковых моделей (arXiv 2023)
Этот репозиторий содержит код для воспроизведения экспериментов из статьи GEM-V и статьи SASC. SASC принимает текстовый модуль и создает для него естественное объяснение, описывающее, какие типы входных данных вызывают наибольший отклик от модуля (см. рис. ниже). Тесты GEM-V подробно проверяют это в условиях фМРТ.
SASC похож на хорошую параллельную статью OpenAI, но упрощает объяснения для описания функции, а не для активации на уровне токена. Это делает его проще/быстрее и делает его более эффективным при описании семантических функций на основе ограниченных данных (например, вокселей фМРТ), но хуже при поиске закономерностей, которые зависят от последовательностей/упорядочения.
Для простого интерфейса scikit-learn для использования SASC используйте библиотеку imodelsX. Установите с помощью pip install imodelsx
, затем ниже показан пример быстрого запуска.
from imodelsx import объяснения_модуль_sasc# игрушечный модуль, который реагирует на длину строкиmod = лямбда str_list: np.array([len(s) for s in str_list])# игрушечный набор данных, где самые длинные строки — животныеtext_str_list = ["red" , "синий", "x", "1", "2", "бегемот", "слон", "носорог"]explanation_dict = объяснения_модуля_sasc(text_str_list,mod,ngrams=1, )
См. соответствующие эксперименты с фМРТ.
Построено по этому шаблону
@misc{antonello2024generativeframeworkbridgedatadriven, title={Генеративная среда для объединения моделей, управляемых данными, и научных теорий в языковой нейробиологии}, автор={Ричард Антонелло, Чандан Сингх, Шейли Джайн, Алия Сюй, Цзяньфэн Гао, Бин Ю и Александр Хут}, год={2024}, eprint={2410.00812}, archivePrefix={arXiv}, PrimaryClass={cs.CL} , URL={https://arxiv.org/abs/2410.00812}, }@misc{singh2023explaining, title={Объяснение текстовых модулей черного ящика на естественном языке с помощью языковых моделей}, автор={Чандан Сингх, Алия Р. Сюй, Ричард Антонелло, Шейли Джайн, Александр Г. Хут, Бин Ю и Цзяньфэн Гао}, год={2023}, eprint={2305.09863}, archivePrefix={arXiv}, PrimaryClass={ cs.AI} }