Filtragem automatizada de dados indesejáveis da Web para atualizar o conhecimento do LLM
Criado por Praneeth Vadlapati (@prane-eth)
Observação
Marque o repositório com uma estrela para mostrar seu apoio.
LLMs (Generative AI) como ChatGPT não possuem as informações atualizadas mais recentes. O motivo para não atualizar automaticamente com os dados mais recentes é a grande quantidade de textos inseguros ou indesejados espalhados pela web.
Este projeto visa coletar automaticamente os dados e filtrar textos indesejados usando IA e LLMs. Os dados filtrados automaticamente podem ser usados para atualizar automaticamente o conhecimento dos LLMs.
Idiomas suportados: Apenas inglês por enquanto (mais idiomas serão adicionados quando colaboradores estiverem disponíveis)
Um artigo de pesquisa publicado está disponível em JMCA/2024(3)E121
Para usar meu artigo como referência, cite-o conforme abaixo:
@article { vadlapati2024autopuredata ,
title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
author = { {Praneeth Vadlapati} } ,
journal = { {Journal of Mathematical & Computer Applications} } ,
volume = { 3 } ,
number = { 4 } ,
pages = { 1--4 } ,
year = { 2024 } ,
month = { July } ,
doi = { 10.47363/JMCA/2024(3)E121 } ,
issn = { 2754-6705 }
}
pip install -r requirements.txt
cp .env.example .env
Agora edite o arquivo .env
e adicione suas chaves de API.
Execute o arquivo Data_flaging.ipynb para coletar e filtrar os dados da web mais recentes. Execute o arquivo Analytics_and_Filtering.ipynb para corrigir manualmente a sinalização.
Após o processo de filtragem, os dados podem ser usados com um LLM conforme mencionado em Usage_with_LLMs.ipynb
Para mais projetos, abra o perfil: @Pro-GenAI
Contribuições são bem-vindas! Sinta-se à vontade para criar um problema para quaisquer relatórios de bugs ou sugestões.
Contribua com o código adicionando mais filtros e tornando o código mais eficiente.
Para contribuir, marque o repositório com estrela e crie um Issue. Se eu não conseguir resolver, permitirei que qualquer pessoa crie uma solicitação pull.
Direitos autorais (c) 2024 Praneeth Vadlapati
Consulte o arquivo LICENSE para obter mais informações.
O código não se destina ao uso em ambientes de produção. Este código é apenas para fins educacionais e de pesquisa.
Nenhum autor é responsável por qualquer uso indevido ou dano causado por este código. Use-o por sua conta e risco. O código é fornecido como está, sem quaisquer garantias ou garantias.
Para dúvidas pessoais, encontre meus dados de contato aqui: linktr.ee/prane.eth