download lad gpt - download do código-fonte lad gpt

lad gpt

Código-Fonte de IA

October 2023 Release

Baixar

Treine um modelo de linguagem em seus bate-papos do WhatsApp

Visão geral

Este repositório facilita o treinamento de um modelo de linguagem em nível de caractere ou palavra baseado exclusivamente em mensagens de bate-papo do WhatsApp. Após o treinamento do modelo, pode-se iniciar uma conversa sintética com o treinado no grupo de chat do Whatsapp.

Mensagens de bate-papo: treinei a modelo em particular em bate-papos do Whatsapp de um grupo com mais de 8 milhões de caracteres. O assets/input/chat.txt é apenas um espaço reservado, a ser substituído pelo corpus real das mensagens de chat.
Modelo de linguagem: O modelo segue de perto a arquitetura apresentada em "Attention Is All You Need" (2017) por Vaswani et. al.. Além disso, a implementação do modelo em pytorch é fortemente inspirada em um vídeo tutorial de Andrew Kaparty.
Resultados: Embora o desempenho geral do meu modelo treinado de forma privada não seja claramente comparável aos modelos de linguagem sota, o texto gerado exibe claramente padrões linguísticos e vocabulário reconhecíveis.

Estrutura de pastas

 |-- assets
|   |-- input
|   |   |-- chat.txt
|   |-- output
|   |   |-- contacts.txt
|   |   |-- vocab.txt
|   |   |-- train.pt
|   |   |-- valid.pt
|   |-- models
|   |   |--model.pt
|-- src
|   |-- chat.py
|   |-- model.py
|   |-- preprocess.py
|   |-- train.py
|   |-- utils.py
|-- config.py
|-- run.py

Descrição dos ativos:

assets/input/chat.txt: O arquivo de entrada precisa ser um bate-papo do WhatsApp exportado (sem mídia).
assets/output/: Os dados codificados de treinamento/validação e o modelo treinado serão gravados neste local.
assets/models/model.pt: Objeto de modelo pytorch treinado.

Descrição do módulo:

src/preprocess.py: converte mensagens de bate-papo em tensores PyTorch codificados. Os dados são divididos em conjuntos de treinamento e validação.
src/model.py: Define a classe do modelo de linguagem.
src/train.py: Contém código para treinar o modelo de linguagem.
src/chat.py: Contém a função para interação conversacional com o modelo.
src/utils.py: Outras funções utilitárias úteis.
run.py: O script principal com um analisador de argumentos para chamar qualquer uma das três ações ("pré-processar", "treinar", "bate-papo").
config.py: parâmetros para pré-processamento e treinamento de modelo são registrados.

Como começar

Instalação:

 git clone https://github.com/bernhard-pfann/lad-gpt.git
cd lad-gpt
pip install -r requirements.txt

Para utilizar este projeto totalmente, você precisará de um arquivo .txt que contenha mensagens de um bate-papo do WhatsApp. Aqui estão as etapas para exportar seu bate-papo em grupo do WhatsApp para um arquivo .txt:

Para usuários do Android:

Abra o WhatsApp e navegue até o bate-papo em grupo: Abra o aplicativo WhatsApp em seu dispositivo Android e vá para o bate-papo em grupo que deseja exportar.
Toque nos três pontos: geralmente ficam no canto superior direito da janela de bate-papo.
Mais -> Exportar bate-papo: Escolha 'Mais' no menu suspenso e selecione 'Exportar bate-papo'.
Escolha Sem mídia: você terá a opção de incluir ou excluir mídia. Escolha ‘Sem mídia’ para exportar apenas as mensagens de texto.
Selecione o método de exportação: você será solicitado a selecionar como deseja exportar o bate-papo. Você pode enviá-lo para seu e-mail e, a partir daí, baixá-lo como um arquivo .txt.

Para usuários de iPhone:

Abra o WhatsApp e navegue até o bate-papo em grupo: Abra o aplicativo WhatsApp no seu iPhone e navegue até o bate-papo em grupo que deseja exportar.
Toque no nome do grupo: fica na parte superior da janela de bate-papo para ir para ‘Informações do grupo’.
Role para baixo e exporte bate-papo: role para baixo e você verá a opção ‘Exportar bate-papo’. Toque nele.
Escolha Sem mídia: um pop-up aparecerá perguntando se você deseja incluir arquivos de mídia. Selecione 'Sem mídia'.
Selecione Método de exportação: escolha uma opção para exportar o bate-papo, por exemplo, por meio do Mail. Você pode então baixar o arquivo de texto do seu e-mail.

Assim que tiver o arquivo .txt, coloque-o no diretório assets/input , chamado chat.txt . Então você está pronto para começar!

Instruções do terminal

Depois que os dados de entrada estiverem disponíveis, os bate-papos precisam ser codificados em tensores numéricos. Os dados codificados também são divididos em conjuntos de treinamento e validação:

 python run.py preprocess

Treinar um modelo de linguagem do zero e exclusivamente com base nos dados codificados do chat. Defina --update caso queira continuar treinando um modelo já existente.