Vectores de dirección/ingeniería de representación para modelos de lenguaje transformador en Pytorch/Huggingface
Consulte nuestro cuaderno de ejemplo.
Documentos completos: https://steering-vectors.github.io/steering-vectors
Esta biblioteca proporciona utilidades para entrenar y aplicar vectores de dirección a modelos de lenguaje (LM) de Huggingface, como GPT, LLaMa, Gemma, Mistral, Pythia y muchos más.
Esta biblioteca está inspirada en ideas y códigos de los dos artículos siguientes. Para obtener más información sobre vectores de dirección e ingeniería de representación, consulte estos trabajos:
pip install steering-vectors
Consulte la documentación completa para obtener más información de uso.
¡Cualquier contribución para mejorar este proyecto es bienvenida! Abra un problema o una solicitud de extracción en este repositorio con cualquier corrección de errores, cambios o mejoras que tenga.
Este proyecto utiliza Ruff para formatear y linting de código, MyPy para verificación de tipos y Pytest para pruebas. Asegúrese de que cualquier cambio que envíe pase estas comprobaciones de código en su PR. Si tiene problemas para ejecutarlos, no dude en abrir una solicitud de extracción de todos modos y podremos analizarlo más en el PR.
Este código se publica bajo una licencia MIT.