pytorch openai transformer lm Unduh - pytorch openai transformer lm Sumber Code Unduh

pytorch openai transformer lm

Kode sumber lainnya

1.0.0

Unduh

Pytorch Implementasi Model Bahasa Transformer Finetuned Openai

Ini adalah implementasi Pytorch dari kode TensorFlow yang dilengkapi dengan makalah Openai "meningkatkan pemahaman bahasa dengan pra-pelatihan generatif" oleh Alec Radford, Karthik Narasimhan, Tim Salimans dan Ilya Sutskever.

Implementasi ini terdiri dari skrip untuk memuat dalam model pytorch bobot yang telah dilatih oleh penulis dengan implementasi TensorFlow.

Model Bahasa Transformer

Kelas model dan skrip pemuatan terletak di model_pytorch.py.

Nama -nama modul dalam model Pytorch mengikuti nama -nama variabel dalam implementasi TensorFlow. Implementasi ini mencoba mengikuti kode asli sedekat mungkin untuk meminimalkan perbedaan.

Implementasi ini dengan demikian juga terdiri dari algoritma optimasi ADAM yang dimodifikasi seperti yang digunakan dalam makalah Openai dengan:

Memperbaiki bobot pembusukan mengikuti pekerjaan Loshchilov et al., Dan
Tingkat pembelajaran yang dijadwalkan seperti yang biasa digunakan untuk transformator.

Persyaratan

Untuk menggunakan model IT-self dengan mengimpor model_pytorch.py, Anda hanya perlu:

Pytorch (versi> = 0.4)

Untuk menjalankan skrip pelatihan classifier di train.py yang Anda perlukan selain:

TQDM
Sklearn
Spacy
ftfy
panda

Anda dapat mengunduh bobot versi pra-terlatih Openai dengan mengkloning repo Alec Radford dan menempatkan folder model yang berisi bobot terlatih dalam repo ini.

Menggunakan model pra-terlatih sebagai model bahasa transformator

Model ini dapat digunakan sebagai model bahasa transformator dengan bobot pra-terlatih Openai sebagai berikut:

 from model_pytorch import TransformerModel , load_openai_pretrained_model , DEFAULT_CONFIG

args = DEFAULT_CONFIG
model = TransformerModel ( args )
load_openai_pretrained_model ( model )

Model ini menghasilkan status tersembunyi Transformer. Anda dapat menggunakan kelas LMHead di model_pytorch.py untuk menambahkan decoder yang diikat dengan bobot encoder dan mendapatkan model bahasa lengkap. Anda juga dapat menggunakan kelas ClfHead di model_pytorch.py untuk menambahkan classifier di atas transformator dan mendapatkan classifier seperti yang dijelaskan dalam publikasi OpenAI. (Lihat contoh keduanya dalam fungsi __main__ dari train.py)

Untuk menggunakan encoder posisi transformator, Anda harus menyandikan dataset menggunakan fungsi encode_dataset() dari utils.py. Silakan merujuk ke awal fungsi __main__ di train.py untuk melihat bagaimana mendefinisikan dengan benar kosa kata dan menyandikan dataset Anda.

Menyempurnakan model pra-terlatih pada tugas klasifikasi

Model ini juga dapat diintegrasikan dalam classifier sebagaimana dirinci dalam makalah Openai. Contoh penyesuaian pada tugas rocstories cloze disertakan dengan kode pelatihan di train.py

Dataset Rocstories dapat diunduh dari situs web terkait.

Seperti halnya kode TensorFlow, kode ini mengimplementasikan hasil uji cloze rocstories yang dilaporkan dalam makalah yang dapat direproduksi dengan menjalankan:

python -m spacy download en
python train.py --dataset rocstories --desc rocstories --submit --analysis --data_dir [path to data here]

Eksperimen pertama pada set tes Rocstories

Finetuning Model Pytorch untuk 3 zaman pada rocstories membutuhkan waktu 10 menit untuk dijalankan pada NVIDIA K-80 tunggal.

Akurasi pengujian lari tunggal dari versi Pytorch ini adalah 85,84%, sementara penulis melaporkan akurasi median dengan kode TensorFlow 85,8%dan kertas melaporkan akurasi lari tunggal terbaik sebesar 86,5%.

Implementasi penulis menggunakan 8 GPU dan dengan demikian dapat mengakomodasi batch 64 sampel sementara implementasi saat ini adalah GPU tunggal dan akibatnya terbatas pada 20 contoh pada K80 karena alasan memori. Dalam pengujian kami, meningkatkan ukuran batch dari 8 menjadi 20 sampel meningkatkan akurasi pengujian sebesar 2,5 poin. Akurasi yang lebih baik dapat diperoleh dengan menggunakan pengaturan multi-GPU (belum dicoba).

SOTA sebelumnya pada dataset Rocstories adalah 77,6% ("model koherensi tersembunyi" dari Chaturvedi et al. Diterbitkan dalam "Cerita Pemahaman untuk Memprediksi Apa yang terjadi selanjutnya" EMNLP 2017, yang merupakan makalah yang sangat bagus juga!)

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-02
ukuran 213.06KB
Berasal dari Github

Aplikasi Terkait

openai realtime console

2024-11-05
pytorch image models

2024-11-03
terbuka

2024-05-24
Versi domestik OpenAI

2024-05-22
Versi seluler Monster Transformer

2023-09-07
Halaman web pengakuan online LM memproduksi kode sumber PHP versi yang dipercantik versi resmi

2022-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
chat.petals.dev

Kode sumber lainnya

1.0.0
Sunamu

Kode sumber lainnya

Release 2.2.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua