Este repositório contém todos os itens necessários para construir seu próprio LLM do zero. Basta seguir as instruções. Inspirado no nanoGPT e no gerador Shakespeare de Karpathy, criei este repositório para construir meu próprio LLM. Ele tem tudo, desde coleta de dados para o modelo até arquivo de arquitetura, tokenizer e arquivo de treinamento.
Este repositório contém:
Antes de configurar SmallLanguageModel, certifique-se de ter os seguintes pré-requisitos instalados:
Siga estas etapas para treinar seu próprio tokenizer ou gerar resultados do modelo treinado:
Clone este repositório:
git clone https://github.com/shivendrra/SmallLanguageModel-project
cd SLM-clone
Instalar dependências:
pip install requirements.txt
Trem: Leia o training.md para mais informações. Siga-o.
Solicitações pull são bem-vindas. Para mudanças importantes, abra primeiro uma edição para discutir o que você gostaria de mudar. Certifique-se de atualizar os testes conforme apropriado.
Licença MIT. Confira License.md para mais informações.