Автоматическая фильтрация нежелательных веб-данных для обновления знаний LLM
Создано Пранитом Вадлапати (@prane-eth)
Примечание
Пожалуйста, пометьте репозиторий, чтобы выразить свою поддержку.
LLM (генеративный искусственный интеллект), такие как ChatGPT, не имеют последней обновленной информации. Причиной отсутствия автоматического обновления последних данных является большое количество небезопасного или нежелательного текста в сети.
Этот проект предназначен для автоматического сбора данных и фильтрации нежелательного текста с использованием искусственного интеллекта и LLM. Данные с автоматической фильтрацией можно использовать для автоматического обновления знаний о LLM.
Поддерживаемые языки: на данный момент только английский (больше языков будет добавлено, когда будут доступны участники)
Опубликованная исследовательская статья доступна по адресу JMCA/2024(3)E121.
Чтобы использовать мою статью для справки, пожалуйста, цитируйте ее, как показано ниже:
@article { vadlapati2024autopuredata ,
title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
author = { {Praneeth Vadlapati} } ,
journal = { {Journal of Mathematical & Computer Applications} } ,
volume = { 3 } ,
number = { 4 } ,
pages = { 1--4 } ,
year = { 2024 } ,
month = { July } ,
doi = { 10.47363/JMCA/2024(3)E121 } ,
issn = { 2754-6705 }
}
pip install -r requirements.txt
cp .env.example .env
Теперь отредактируйте файл .env
и добавьте свои ключи API.
Запустите файл Data_flagging.ipynb, чтобы собрать и отфильтровать последние веб-данные. Запустите файл Analytics_and_Filtering.ipynb, чтобы вручную исправить пометку.
После процесса фильтрации данные можно использовать с LLM, как указано в Usage_with_LLMs.ipynb.
Чтобы увидеть больше проектов, откройте профиль: @Pro-GenAI
Вклады приветствуются! Не стесняйтесь создавать проблемы для любых отчетов об ошибках или предложений.
Пожалуйста, внесите свой вклад в код, добавив больше фильтров и сделав код более эффективным.
Чтобы внести свой вклад, пометьте репозиторий и создайте задачу. Если я не смогу решить эту проблему, я позволю любому создать запрос на включение.
Авторские права (c) 2024 г. Пранит Вадлапати
Пожалуйста, обратитесь к файлу ЛИЦЕНЗИИ для получения дополнительной информации.
Код не предназначен для использования в производственных средах. Этот код предназначен только для образовательных и исследовательских целей.
Ни один автор не несет ответственности за любое неправильное использование или ущерб, причиненный этим кодом. Используйте его на свой страх и риск. Код предоставляется как есть, без каких-либо гарантий или гарантий.
По личным вопросам мои контактные данные можно найти здесь: linktr.ee/prane.eth.