Vetores de direção/engenharia de representação para modelos de linguagem de transformadores em Pytorch/Huggingface
Confira nosso caderno de exemplo.
Documentação completa: https://steering-vectors.github.io/steering-vectors
Esta biblioteca fornece utilitários para treinar e aplicar vetores de direção a modelos de linguagem (LMs) do Huggingface, como GPT, LLaMa, Gemma, Mistral, Pythia e muitos mais!
Esta biblioteca é inspirada em ideias e códigos dos dois artigos a seguir. Para mais informações sobre vetores de direção e engenharia de representação, confira estes trabalhos:
pip install steering-vectors
Confira a documentação completa para mais informações de uso.
Quaisquer contribuições para melhorar este projeto são bem-vindas! Abra um problema ou solicitação pull neste repositório com quaisquer correções de bugs/alterações/melhorias que você tenha.
Este projeto usa Ruff para formatação e linting de código, MyPy para verificação de tipo e Pytest para testes. Certifique-se de que todas as alterações enviadas sejam aprovadas nessas verificações de código em seu PR. Se você tiver problemas para executá-los, sinta-se à vontade para abrir uma solicitação pull de qualquer maneira e podemos discutir mais detalhadamente no PR.
Este código é lançado sob uma licença do MIT.