Repositori ini bertujuan untuk mengimplementasikan berbagai bentuk model transformator, termasuk seq2seq (arsitektur asli dalam makalah All You Need is Attention), hanya encoder, hanya decoder, dan model transformator terpadu.
Model-model ini tidak dimaksudkan untuk menjadi yang tercanggih dalam tugas apa pun. Sebaliknya, mereka datang dengan tujuan untuk melatih diri saya dengan keterampilan pemrograman tingkat lanjut dan juga memberikan referensi kepada orang-orang yang memiliki kecintaan yang sama terhadap pembelajaran mendalam dan kecerdasan mesin.
Karya ini terinspirasi oleh, dan tidak akan mungkin terjadi tanpa repo sumber terbuka NanoGPT, ViT, MAE, CLIP, dan OpenCLIP. Terima kasih sebesar-besarnya kepada mereka karena telah melakukan open source pada model mereka!
Repositori ini juga menyimpan daftar kemajuan terkini dalam model transformator.
Repositori ini menampilkan daftar desain:
Saat ini sedang berupaya menerapkan DINO, varian ViT yang dilatih dengan pengawasan mandiri
Model | Diimplementasikan | Terlatih | Dievaluasi |
---|---|---|---|
Transformator | ✅ | TIDAK | TIDAK |
GPT | ✅ | TIDAK | TIDAK |
BERT | ✅ | Ya | TIDAK |
ViT | ✅ | TIDAK | TIDAK |
MAE | TIDAK | TIDAK | TIDAK |
KLIP | TIDAK | TIDAK | TIDAK |
DISCLAIMER : Karena popularitas dan keserbagunaan Transformers, akan ada banyak tugas kursus yang berkaitan dengan penerapan sebagian atau keseluruhan model Transformer. Repositori ini dikembangkan semata-mata untuk tujuan pelatihan mandiri, dan dapat berfungsi sebagai referensi untuk mengimplementasikan model Transformer. Namun menyalin langsung dari repo ini sangat dilarang dan merupakan pelanggaran kode etik bagi sebagian besar lembaga akademik.
Bagi mereka yang membutuhkan penyegaran tentang apa itu Transformer atau seperti apa detail arsitektur Transformer, silakan merujuk ke blog yang diilustrasikan dengan baik: http://nlp.seas.harvard.edu/annotated-transformer/#background
Berikut adalah puisi yang dihasilkan oleh LLaMA2, LLm sumber terbuka yang dirilis oleh Meta AI: Hanya perhatian yang Anda butuhkan,
Untuk memahami apa yang dikatakan dan dibaca.
Transformer mempelajari hubungan,
Melalui perhatian multi-kepala.
Encoder, arsitektur decoder,
Mempelajari fitur untuk citra yang bagus.
Pelatihan tentang kumpulan data besar,
Kecepatan kinerjanya meningkat.
Dibangun di atas urutan ke urutan,
Komputasi paralelnya menghemat waktu untuk melakukan fleksibilitas.
Memahami bahasa, teks dan suara,
Dengan pembelajaran mendalam yang memberinya ketenangan.
Tugas agnostik, kegunaan luas,
Mendorong kemajuan dalam ketangkasan AI.
Mendorong NLP ke level baru,
Transformers menunjukkan kekuatan mereka.