Download SmallLanguageModel - Download do código-fonte SmallLanguageModel

SmallLanguageModel

Outro código-fonte

1.0.0

Baixar

Modelo de linguagem pequena

Este repositório contém todos os itens necessários para construir seu próprio LLM do zero. Basta seguir as instruções. Inspirado no nanoGPT e no gerador Shakespeare de Karpathy, criei este repositório para construir meu próprio LLM. Ele tem tudo, desde coleta de dados para o modelo até arquivo de arquitetura, tokenizer e arquivo de treinamento.

Estrutura do repositório

Este repositório contém:

Coletor de dados: diretório contendo Web-Scrapper, caso você queira coletar os dados do zero em vez de baixá-los.
Processamento de dados: diretório que contém código para pré-processar certos tipos de arquivo, como conversão de arquivos parquet em arquivos .txt e .csv e códigos de anexação de arquivos.
Modelos: contém todo o código necessário para treinar seu próprio modelo. Um modelo BERT, modelo GPT e modelo Seq-2-Seq junto com tokenizer e arquivos de execução.

Pré-requisitos

Antes de configurar SmallLanguageModel, certifique-se de ter os seguintes pré-requisitos instalados:

Python 3.8 ou superior
pip (instalador do pacote Python)

Como usar:

Siga estas etapas para treinar seu próprio tokenizer ou gerar resultados do modelo treinado:

Clone este repositório:

git clone https://github.com/shivendrra/SmallLanguageModel-project
cd SLM-clone

Instalar dependências:
```
pip install requirements.txt
```
Trem: Leia o training.md para mais informações. Siga-o.

História das Estrelas

Contribuindo

Solicitações pull são bem-vindas. Para mudanças importantes, abra primeiro uma edição para discutir o que você gostaria de mudar. Certifique-se de atualizar os testes conforme apropriado.