Unduhan SmartLMVocabs - Unduhan kode sumber SmartLMVocabs

SmartLMVocabs

Kode Sumber AI

1.0.0

Unduh

SmartLMVocabs

Meningkatkan Kinerja Model Bahasa melalui Kosakata Cerdas

Proyek ini dirancang untuk mengeksplorasi penggunaan preprocessing Billion Word Corpus dengan label Part-Of-Speech dan Named-Entities untuk menciptakan kosakata yang "lebih cerdas". Dengan menggunakan teknik ini, skor kebingungan yang lebih baik dapat diperoleh dibandingkan menggunakan N kata teratas dalam korpus saja.

Untuk penjelasan lengkap mengenai pemrosesan dan dampaknya terhadap skor kebingungan yang dapat diperoleh, lihat Meningkatkan Kinerja Model Bahasa dengan Kosakata yang Lebih Cerdas.

Proyek ini mencakup skrip untuk

Ekstrak kalimat unik dari Billion Word Corpus
Buat Kosakata Sederhana atau Cerdas berdasarkan parameter yang ditentukan pengguna
Bangun, latih, dan uji model bahasa menggunakan kosakata yang ditentukan

Instalasi dan Pengaturan

Proyek ini dirancang untuk digunakan di tempat dan tidak ada instalasi pip untuk itu. Cukup unduh sumbernya dari GitHub, atur opsi konfigurasi, dan jalankan skrip bernomor secara berurutan. Perhatikan bahwa kode ini dirancang untuk peneliti sehingga diperkirakan perlu meninjau kode dalam skrip yang sedang dijalankan dan memodifikasi opsi sesuai kebutuhan untuk mendapatkan hasil yang spesifik.

Menggunakan skrip

Skrip direktori utama diawali dengan angka untuk menunjukkan urutan menjalankannya. Kebanyakan skrip di direktori utama adalah rangkaian panggilan yang relatif singkat ke fungsi perpustakaan terkait. Sebelum menjalankan setiap skrip, pastikan untuk membukanya dan mengatur parameter konfigurasi apa pun untuk mendapatkan hasil yang Anda inginkan.

Opsi konfigurasi global yang digunakan oleh beberapa skrip diatur di ./configs/config.py. Pastikan untuk masuk ke file ini dan ubah jalur ke data Anda sebelum menjalankan skrip apa pun di bawah.

00_StanfordCoreNLPServer.py : Memulai parser Stanford Core NLP menggunakan file konfigurasi ./configs/snlp_server.py. Skrip memblokir saat server sedang berjalan. Jika Anda mau, server dapat dimulai secara manual. Skrip ini hanya untuk kenyamanan.
10_ExtractUniqueSents.py : Mengekstrak kalimat unik dari Billion Word Corpus sebelum diurai. Di dekat bagian atas file terdapat beberapa petunjuk tentang cara mengunduh dan mengatur korpus mentah.
12_STParseBWCorpus.py : Menjalankan semua kalimat unik melalui Stanford Parser. Perhatikan bahwa langkah ini memerlukan banyak waktu (mungkin sehari penuh) dan memberikan banyak manfaat dari prosesor multi-core. Lihat catatan di file tentang run-time.
14_RemoveDuplications.py : Melakukan sedetik melewati data untuk menghapus kalimat duplikat yang terjadi setelah penguraian/normalisasi.
20_CreateEnglishDictionary.py : Diperlukan untuk pembuatan kosakata yang cerdas.
22_CreateVocab.py : Skrip ini membuat berbagai jenis kosakata. Blok if/elif yang besar dalam file tersedia agar pengguna dapat memilih jenis kosakata yang akan dibuat.
24_IndexVocab.py : Membuat data korpus terindeks yang digunakan untuk melatih model bahasa. Sekali lagi ada blok if/elif besar di sini yang perlu diatur oleh pengguna untuk memilih jenis kosakata yang akan digunakan.
30_TrainBasicLM.py : Menyiapkan dan menjalankan pelatihan model. Sekali lagi ada blok pernyataan di sini yang memungkinkan pengguna memilih kosakata untuk dilatih. Selain itu pengguna perlu memilih file dengan parameter konfigurasi model. Parameter konfigurasi model disimpan di direktori konfigurasi dengan nama file seperti L1_2048_512.py.
32_TestPerplexity : Menjalankan uji kebingungan terhadap model yang dilatih. Pilih model yang akan diuji di bagian bawah skrip.
34_NextWordPrediction.py : Memungkinkan pengguna memasukkan bagian pertama kalimat dan memanggil model untuk memprediksi kata berikutnya. Konfigurasikan model mana yang akan digunakan di bagian utama skrip.

Kesesuaian

Kode ini diuji untuk dijalankan di bawah python 3 dan Linux.
Awalnya diatur menggunakan python 2 jadi kemungkinan hanya perubahan kecil yang perlu dilakukan agar dapat berfungsi di lingkungan tersebut.
Saya tidak mengetahui adanya batasan untuk menjalankan ini di Windows. Jika skrip untuk menjalankan Stanford Parser tidak berfungsi, maka cukup dijalankan secara manual.

Ucapan Terima Kasih

Sebagian kode diadaptasi dari perangkat model bahasa Universitas Saarland. Lihat TF-NNLM-TK .
Kode tersebut sebagian didasarkan pada model contoh TensorflowPTB-LM.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2024-12-30
ukuran 119.17KB
Berasal dari Github

Aplikasi Terkait

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
node telegram bot api

Kode Sumber AI

v0.50.0
typebot.io

Kode Sumber AI

v3.1.2
python wechaty getting started

Kode Sumber AI

1.0.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua