Unduhan AutoPureData - Unduhan kode Sumber AutoPureData

AutoPureData

Kode Sumber AI

1.0.0

Unduh

Data Murni Otomatis

Pemfilteran Otomatis Data Web yang Tidak Diinginkan untuk Memperbarui Pengetahuan LLM

Dibuat oleh Praneeth Vadlapati (@prane-eth)

Catatan

Silakan beri bintang pada repositori untuk menunjukkan dukungan Anda.

Mengapa AutoPureData?

LLM (Generative AI) seperti ChatGPT tidak memiliki informasi terkini. Alasan tidak melakukan pembaruan otomatis dengan data terbaru adalah banyaknya teks yang tidak aman atau tidak diinginkan di seluruh web.

Proyek ini mengumpulkan data secara otomatis dan memfilter teks yang tidak diinginkan menggunakan AI dan LLM. Data yang difilter otomatis dapat digunakan untuk memperbarui pengetahuan LLM secara otomatis.

Apa yang difilter:

Konten tidak aman ☣️: Beracun, ancaman, penghinaan, diskriminasi, politik, menyakiti diri sendiri, agama, kekerasan, seksual, kata-kata kotor, rayuan, spam, penipuan, menyesatkan, dan banyak lagi
Konten dari sumber yang tidak dapat dipercaya ?: Situs web tidak aman dan domain yang tidak terindeks (yang tidak dirayapi oleh mesin pencari)
Detail pribadi ?: Telepon, alamat, kartu kredit, SSN, alamat IP, dan lainnya
Serangan ?️: Upaya serangan permusuhan (dengan Keracunan Data)

Bahasa yang didukung: Saat ini hanya bahasa Inggris (lebih banyak bahasa akan ditambahkan ketika kontributor tersedia)

? Makalah Penelitian

Makalah penelitian yang diterbitkan tersedia di JMCA/2024(3)E121

? Kutipan

Untuk menggunakan makalah saya sebagai referensi, harap kutip seperti di bawah ini:

 @article { vadlapati2024autopuredata ,
	title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
	author = { {Praneeth Vadlapati} } ,
	journal = { {Journal of Mathematical & Computer Applications} } ,
	volume = { 3 } ,
	number = { 4 } ,
	pages = { 1--4 } ,
	year = { 2024 } ,
	month = { July } ,
	doi = { 10.47363/JMCA/2024(3)E121 } ,
	issn = { 2754-6705 }
}

Mulai Cepat

pip install -r requirements.txt
cp .env.example .env

Sekarang, edit file .env dan tambahkan kunci API Anda.
Jalankan file Data_flagging.ipynb untuk mengumpulkan dan memfilter data web terbaru. Jalankan file Analytics_and_Filtering.ipynb untuk memperbaiki penandaan secara manual.

Setelah proses pemfilteran, data dapat digunakan dengan LLM seperti yang disebutkan di Usage_with_LLMs.ipynb

File ini mendorong data yang difilter ke Pinecone DB dan menggunakannya dengan LLM.

Proyek Lainnya

Untuk proyek lainnya, buka profil: @Pro-GenAI

Berkontribusi

Kontribusi dipersilakan! Jangan ragu untuk membuat masalah untuk laporan bug atau saran apa pun.
Harap berkontribusi pada kode dengan menambahkan lebih banyak filter dan membuat kode lebih efisien.
Untuk berkontribusi, beri bintang pada repositori dan buat Masalah. Jika saya tidak bisa menyelesaikannya, saya akan mengizinkan siapa pun membuat permintaan tarik.

? Lisensi

Hak Cipta (c) 2024 Praneeth Vadlapati
Silakan merujuk ke file LISENSI untuk informasi lebih lanjut.

️ Penafian

Kode ini tidak dimaksudkan untuk digunakan dalam lingkungan produksi. Kode ini hanya untuk tujuan pendidikan dan penelitian.

Tidak ada penulis yang bertanggung jawab atas penyalahgunaan atau kerusakan apa pun yang disebabkan oleh kode ini. Gunakan dengan risiko Anda sendiri. Kode diberikan apa adanya tanpa jaminan atau jaminan apa pun.

Catatan: Hasilnya tidak diperbarui menggunakan Llama 3.1, karena akurasi yang sama dicapai dengan menggunakan Llama 3.

Ucapan Terima Kasih

Terima kasih khusus kepada Groq (https://groq.com/) untuk mesin inferensi Llama 3 yang cepat
Kumpulan data: HuggingFace FineWeb https://huggingface.co/datasets/HuggingFaceFW/fineweb
Deteksi teks tidak aman: Meta Llama Guard 2 https://github.com/meta-llama/PurpleLlama/blob/main/Llama-Guard2/MODEL_CARD.md
Deteksi teks yang tidak diinginkan menggunakan LLM: Meta Llama 3 (70B) https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md
Halaman analisis: Gradio https://gradio.app/
DB Vektor: Biji Pinus https://www.pinecone.io/