Pemfilteran Otomatis Data Web yang Tidak Diinginkan untuk Memperbarui Pengetahuan LLM
Dibuat oleh Praneeth Vadlapati (@prane-eth)
Catatan
Silakan beri bintang pada repositori untuk menunjukkan dukungan Anda.
LLM (Generative AI) seperti ChatGPT tidak memiliki informasi terkini. Alasan tidak melakukan pembaruan otomatis dengan data terbaru adalah banyaknya teks yang tidak aman atau tidak diinginkan di seluruh web.
Proyek ini mengumpulkan data secara otomatis dan memfilter teks yang tidak diinginkan menggunakan AI dan LLM. Data yang difilter otomatis dapat digunakan untuk memperbarui pengetahuan LLM secara otomatis.
Bahasa yang didukung: Saat ini hanya bahasa Inggris (lebih banyak bahasa akan ditambahkan ketika kontributor tersedia)
Makalah penelitian yang diterbitkan tersedia di JMCA/2024(3)E121
Untuk menggunakan makalah saya sebagai referensi, harap kutip seperti di bawah ini:
@article { vadlapati2024autopuredata ,
title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
author = { {Praneeth Vadlapati} } ,
journal = { {Journal of Mathematical & Computer Applications} } ,
volume = { 3 } ,
number = { 4 } ,
pages = { 1--4 } ,
year = { 2024 } ,
month = { July } ,
doi = { 10.47363/JMCA/2024(3)E121 } ,
issn = { 2754-6705 }
}
pip install -r requirements.txt
cp .env.example .env
Sekarang, edit file .env
dan tambahkan kunci API Anda.
Jalankan file Data_flagging.ipynb untuk mengumpulkan dan memfilter data web terbaru. Jalankan file Analytics_and_Filtering.ipynb untuk memperbaiki penandaan secara manual.
Setelah proses pemfilteran, data dapat digunakan dengan LLM seperti yang disebutkan di Usage_with_LLMs.ipynb
Untuk proyek lainnya, buka profil: @Pro-GenAI
Kontribusi dipersilakan! Jangan ragu untuk membuat masalah untuk laporan bug atau saran apa pun.
Harap berkontribusi pada kode dengan menambahkan lebih banyak filter dan membuat kode lebih efisien.
Untuk berkontribusi, beri bintang pada repositori dan buat Masalah. Jika saya tidak bisa menyelesaikannya, saya akan mengizinkan siapa pun membuat permintaan tarik.
Hak Cipta (c) 2024 Praneeth Vadlapati
Silakan merujuk ke file LISENSI untuk informasi lebih lanjut.
Kode ini tidak dimaksudkan untuk digunakan dalam lingkungan produksi. Kode ini hanya untuk tujuan pendidikan dan penelitian.
Tidak ada penulis yang bertanggung jawab atas penyalahgunaan atau kerusakan apa pun yang disebabkan oleh kode ini. Gunakan dengan risiko Anda sendiri. Kode diberikan apa adanya tanpa jaminan atau jaminan apa pun.
Untuk pertanyaan pribadi, silakan temukan detail kontak saya di sini: linktr.ee/prane.eth