Vecteurs de pilotage / ingénierie de représentation pour les modèles de langage de transformateur dans Pytorch / Huggingface
Consultez notre exemple de carnet de notes.
Documentation complète : https://steering-vectors.github.io/steering-vectors
Cette bibliothèque fournit des utilitaires pour la formation et l'application de vecteurs de pilotage aux modèles de langage (LM) de Huggingface, comme GPT, LLaMa, Gemma, Mistral, Pythia et bien d'autres !
Cette bibliothèque s'inspire des idées et du code des deux articles suivants. Pour plus d'informations sur les vecteurs de pilotage et l'ingénierie des représentations, consultez ces travaux :
Pilotage de Llama 2 via l'ajout d'activation contrastée Rimsky et al., 2023
Ingénierie des représentations : une approche descendante de la transparence de l'IA Zou et al., 2023
pip install steering-vectors
Consultez la documentation complète pour plus d’informations sur l’utilisation.
Toute contribution pour améliorer ce projet est la bienvenue ! Veuillez ouvrir un problème ou une pull request dans ce dépôt avec toutes les corrections de bugs/modifications/améliorations que vous avez.
Ce projet utilise Ruff pour le formatage et le peluchage du code, MyPy pour la vérification de type et Pytest pour les tests. Assurez-vous que toutes les modifications que vous soumettez réussissent ces vérifications de code dans votre PR. Si vous rencontrez des difficultés pour les faire fonctionner, n'hésitez pas à ouvrir une pull-request malgré tout et nous pourrons en discuter plus en détail dans le PR.
Ce code est publié sous licence MIT.