Selamat datang di repo saya! Saya mengimplementasikan arsitektur transformator dari awal menggunakan PyTorch. Saya mencoba membahas semua subkomponen utama, menambahkan catatan ekstensif dan klarifikasi. Tujuan utama repositori ini adalah untuk memberikan pengetahuan dan penjelasan yang tepat untuk setiap komponen.
Anda akan membahas semua komponen yang dijelaskan di makalah asli. Selain membangun arsitektur, catatan tersebut memberikan wawasan untuk memahami alasan di balik semua blok arsitektur ini. Saya juga mencoba mendefinisikan parameter dan variabel yang menurut saya membingungkan saat mempelajarinya (misalnya d_v vs d_k).
Ini adalah blok yang akan Anda pelajari untuk dibangun dengan repositori ini. Semua ini dibuat dari awal, yang akan memberi Anda pemahaman yang baik tentang apa yang ada di baliknya.
Arsitektur transformator adalah arsitektur SOTA di balik kemajuan paling relevan dalam AI. Penting untuk memahami apa yang terjadi dalam implementasi asli dari monster ini. Ini juga merupakan keterampilan yang baik untuk dimiliki jika Anda ingin menempuh jalur penelitian; Anda perlu memahami asal-usulnya agar dapat mengetahui apa yang harus ditingkatkan!
Jawaban atas pertanyaan ini adalah ya. Biar saya jelaskan.
Saya berbohong jika saya memberi tahu Anda bahwa Anda baik-baik saja tanpa latar belakang alur kerja PyTorch. Anda perlu mengetahui dasar-dasarnya, seperti cara menginisialisasi objek nn.Module, bermain-main dengan tensor, atau memahami mengapa transformasi perlu diterapkan. Selain itu, Anda juga memerlukan pengetahuan dasar pembelajaran mendalam/pembelajaran mesin (misalnya, apa itu lapisan linier? Apa itu dimensi? Apa itu embedding?).