Filtrado automatizado de datos web no deseados para actualizar el conocimiento de LLM
Creado por Praneeth Vadlapati (@prane-eth)
Nota
Destaca el repositorio para mostrar tu apoyo.
Los LLM (IA generativa) como ChatGPT no tienen la información actualizada más reciente. El motivo para no actualizar automáticamente con los datos más recientes es una gran cantidad de texto inseguro o no deseado en la web.
Este proyecto consiste en recopilar automáticamente los datos y filtrar el texto no deseado utilizando IA y LLM. Los datos filtrados automáticamente se pueden utilizar para actualizar automáticamente los conocimientos de los LLM.
Idiomas admitidos: solo inglés por ahora (se agregarán más idiomas cuando haya colaboradores disponibles)
Un artículo de investigación publicado está disponible en JMCA/2024(3)E121.
Para utilizar mi artículo como referencia, cítelo de la siguiente manera:
@article { vadlapati2024autopuredata ,
title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
author = { {Praneeth Vadlapati} } ,
journal = { {Journal of Mathematical & Computer Applications} } ,
volume = { 3 } ,
number = { 4 } ,
pages = { 1--4 } ,
year = { 2024 } ,
month = { July } ,
doi = { 10.47363/JMCA/2024(3)E121 } ,
issn = { 2754-6705 }
}
pip install -r requirements.txt
cp .env.example .env
Ahora, edite el archivo .env
y agregue sus claves API.
Ejecute el archivo Data_flagging.ipynb para recopilar y filtrar los datos web más recientes. Ejecute el archivo Analytics_and_Filtering.ipynb para corregir manualmente la marca.
Después del proceso de filtrado, los datos se pueden utilizar con un LLM como se menciona en Usage_with_LLMs.ipynb
Para más proyectos, abra el perfil: @Pro-GenAI
¡Las contribuciones son bienvenidas! No dude en crear un problema para cualquier sugerencia o informe de error.
Contribuya al código agregando más filtros y haciendo que el código sea más eficiente.
Para contribuir, destaca el repositorio y crea un problema. Si no puedo resolverlo, permitiré que cualquiera cree una solicitud de extracción.
Copyright (c) 2024 Praneeth Vadlapati
Consulte el archivo de LICENCIA para obtener más información.
El código no está diseñado para su uso en entornos de producción. Este código es sólo para fines educativos y de investigación.
Ningún autor es responsable del mal uso o daño causado por este código. Úselo bajo su propio riesgo. El código se proporciona tal cual, sin garantías ni garantías.
Para consultas personales, encuentre mis datos de contacto aquí: linktr.ee/prane.eth