LLM の知識を更新するための望ましくない Web データの自動フィルタリング
作成者: Praneeth Vadlapati (@prane-eth)
注記
サポートを示すためにリポジトリにスターを付けてください。
ChatGPT のような LLM (Generative AI) には最新の更新情報がありません。最新のデータで自動更新されない理由は、Web 上に安全でないテキストや不要なテキストが大量に存在するためです。
このプロジェクトは、AI と LLM を使用してデータを自動的に収集し、不要なテキストをフィルタリングすることです。自動フィルタリングされたデータを使用して、LLM の知識を自動的に更新できます。
サポートされている言語: 現時点では英語のみ (寄稿者が利用可能になったら、さらに多くの言語が追加されます)
出版された研究論文は、JMCA/2024(3)E121 で入手できます。
私の論文を参考として使用するには、以下のように引用してください。
@article { vadlapati2024autopuredata ,
title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
author = { {Praneeth Vadlapati} } ,
journal = { {Journal of Mathematical & Computer Applications} } ,
volume = { 3 } ,
number = { 4 } ,
pages = { 1--4 } ,
year = { 2024 } ,
month = { July } ,
doi = { 10.47363/JMCA/2024(3)E121 } ,
issn = { 2754-6705 }
}
pip install -r requirements.txt
cp .env.example .env
次に、 .env
ファイルを編集して API キーを追加します。
ファイル Data_flagging.ipynb を実行して、最新の Web データを収集し、フィルター処理します。ファイル Analytics_and_Filtering.ipynb を実行して、フラグ設定を手動で修正します。
フィルタリング プロセスの後、Usage_with_LLMs.ipynb で説明されているように、データを LLM で使用できます。
その他のプロジェクトについては、プロフィールを開いてください: @Pro-GenAI
貢献は大歓迎です!バグレポートや提案については、お気軽に問題を作成してください。
フィルタを追加してコードをより効率的にすることで、コードに貢献してください。
貢献するには、リポジトリにスターを付けて問題を作成します。解決できない場合は、誰でもプルリクエストを作成できるようにします。
著作権 (c) 2024 プラネス・ヴァドラパティ
詳細については、LICENSE ファイルを参照してください。
このコードは、運用環境での使用を目的としていません。このコードは教育および研究のみを目的としています。
作者は、このコードによって引き起こされた誤用または損害に対して責任を負いません。ご自身の責任でご使用ください。コードは現状のまま提供され、いかなる保証もありません。
個人的な質問については、こちらの連絡先詳細をご覧ください: linktr.ee/prane.eth