AI generatif mengalami pertumbuhan pesat, dan repositori ini berfungsi sebagai pusat komprehensif untuk pembaruan penelitian AI generatif, materi wawancara, buku catatan, dan banyak lagi!
Jelajahi sumber daya berikut:
Kami akan memperbarui repositori ini secara berkala, jadi pantau terus untuk penambahan terbaru!
Selamat Belajar!
*Diperbarui setiap akhir bulan
Tanggal | Judul | Abstrak | Topik |
---|---|---|---|
31 Mei 2024 | LLM mencapai kinerja manusia dewasa pada tugas teori pikiran tingkat tinggi | Makalah ini mengkaji sejauh mana model bahasa besar (LLM) telah mengembangkan teori pikiran tingkat tinggi (ToM); kemampuan manusia untuk berpikir tentang berbagai keadaan mental dan emosional secara rekursif (misalnya menurut saya Anda yakin dia mengetahuinya). Makalah ini dibangun berdasarkan penelitian sebelumnya dengan memperkenalkan rangkaian tes tulisan tangan – Multi-Order Theory of Mind Q&A – dan menggunakannya untuk membandingkan kinerja lima LLM dengan tolok ukur manusia dewasa yang baru dikumpulkan. Kami menemukan bahwa GPT-4 dan Flan-PaLM mencapai performa tingkat dewasa dan mendekati tingkat dewasa pada tugas-tugas ToM secara keseluruhan, dan bahwa GPT-4 melampaui performa orang dewasa pada inferensi urutan ke-6. Hasil kami menunjukkan bahwa terdapat interaksi antara ukuran model dan penyesuaian untuk realisasi kemampuan ToM, dan bahwa LLM dengan kinerja terbaik telah mengembangkan kapasitas umum untuk ToM. Mengingat peran ToM tingkat tinggi dalam berbagai perilaku manusia yang kooperatif dan kompetitif, temuan ini memiliki implikasi signifikan terhadap aplikasi LLM yang dihadapi pengguna. | Teori Pikiran |
30 Mei 2024 | JINA CLIP: Model CLIP Anda Juga Merupakan Pengambil Teks Anda | Pelatihan Pra-Gambar-Bahasa Kontrastif (CLIP) banyak digunakan untuk melatih model guna menyelaraskan gambar dan teks dalam ruang penyematan umum dengan memetakannya ke vektor berukuran tetap. Model-model ini adalah kunci untuk pengambilan informasi multimodal dan tugas-tugas terkait. Namun, model CLIP umumnya berperforma buruk dalam tugas teks saja dibandingkan dengan model teks khusus. Hal ini menciptakan inefisiensi untuk sistem pengambilan informasi yang memisahkan embeddings dan model untuk tugas teks saja dan multimodal. Kami mengusulkan metode pelatihan kontrastif multi-tugas yang baru untuk mengatasi masalah ini, yang kami gunakan untuk melatih model jina-clip-v1 guna mencapai kinerja canggih pada tugas pengambilan teks-gambar dan teks-teks . | Model Multimoda |
30 Mei 2024 | Parrot: Penyajian Aplikasi Berbasis LLM yang Efisien dengan Variabel Semantik | Munculnya model bahasa besar (LLM) telah memungkinkan aplikasi berbasis LLM (alias agen AI atau co-pilot), sebuah paradigma perangkat lunak baru yang menggabungkan kekuatan LLM dan perangkat lunak konvensional. Aplikasi LLM yang beragam dari penyewa yang berbeda dapat merancang alur kerja yang kompleks menggunakan beberapa permintaan LLM untuk menyelesaikan satu tugas. Namun, mereka harus menggunakan API tingkat permintaan yang terlalu disederhanakan yang disediakan oleh layanan LLM publik saat ini, sehingga kehilangan informasi penting di tingkat aplikasi. Layanan LLM publik harus mengoptimalkan permintaan LLM individual secara membabi buta, yang menyebabkan kinerja aplikasi LLM end-to-end menjadi kurang optimal. Makalah ini memperkenalkan Parrot, sebuah sistem layanan LLM yang berfokus pada pengalaman end-to-end aplikasi berbasis LLM. Parrot mengusulkan Variabel Semantik, sebuah abstraksi terpadu untuk mengekspos pengetahuan tingkat aplikasi ke layanan LLM publik. Variabel Semantik memberi anotasi pada variabel input/output saat diminta, dan membuat saluran data saat menghubungkan beberapa permintaan LLM, menyediakan cara alami untuk memprogram aplikasi LLM. Mengekspos Variabel Semantik ke layanan LLM publik memungkinkannya melakukan analisis aliran data konvensional untuk mengungkap korelasi di beberapa permintaan LLM. Korelasi ini membuka ruang optimasi baru untuk kinerja end-to-end aplikasi berbasis LLM. Evaluasi ekstensif menunjukkan bahwa Parrot dapat mencapai peningkatan yang sangat besar untuk kasus penggunaan aplikasi LLM yang populer dan praktis | Agen LLM |
30 Mei 2024 | Bingung dengan Kebingungan: Pemangkasan Data Berbasis Kebingungan Dengan Model Referensi Kecil | Dalam karya ini, kami menyelidiki apakah model bahasa kecil dapat menentukan subset berkualitas tinggi dari kumpulan data teks berskala besar yang meningkatkan performa model bahasa yang lebih besar. Meskipun penelitian yang ada menunjukkan bahwa pemangkasan berdasarkan kompleksitas model yang lebih besar dapat menghasilkan data berkualitas tinggi, kami menyelidiki apakah model yang lebih kecil dapat digunakan untuk pemangkasan berbasis kebingungan dan bagaimana pemangkasan dipengaruhi oleh komposisi domain dari data yang dipangkas. Kami menunjukkan bahwa untuk beberapa komposisi kumpulan data, pemangkasan data pra-pelatihan berbasis kebingungan dapat meningkatkan kinerja tugas hilir secara signifikan: pemangkasan berdasarkan kebingungan yang dihitung dengan model parameter 125 juta meningkatkan kinerja rata-rata pada tugas hilir model parameter 3 miliar hingga 2,04 dan mencapai pengurangan langkah pra-pelatihan hingga 1,45× untuk mencapai kinerja dasar yang sepadan. Selain itu, kami menunjukkan bahwa pemangkasan data berbasis kebingungan juga menghasilkan peningkatan kinerja hilir pada sistem yang terlalu terlatih dan terbatas data. | Model Bahasa Kecil |
30 Mei 2024 | GNN-RAG: Pengambilan Neural Grafik untuk Penalaran Model Bahasa Besar | Grafik Pengetahuan (KG) mewakili pengetahuan faktual buatan manusia dalam bentuk kembar tiga (kepala, relasi, ekor), yang secara kolektif membentuk grafik. Question Answering over KGs (KGQA) adalah tugas menjawab pertanyaan-pertanyaan alami yang mendasarkan penalaran pada informasi yang diberikan oleh KG. Model Bahasa Besar (LLM) adalah model tercanggih untuk tugas QA karena kemampuannya yang luar biasa dalam memahami bahasa alami. Di sisi lain, Graph Neural Networks (GNNs) telah banyak digunakan untuk KGQA karena dapat menangani informasi grafik kompleks yang disimpan di KG. Dalam karya ini, kami memperkenalkan GNN-RAG, sebuah metode baru untuk menggabungkan kemampuan pemahaman bahasa LLM dengan kemampuan penalaran GNN dalam gaya retrieval-augmented generation (RAG). Pertama, GNN menggunakan subgraf KG yang padat untuk mengambil kandidat jawaban untuk pertanyaan tertentu. Kedua, jalur terpendek dalam KG yang menghubungkan entitas pertanyaan dan kandidat jawaban diekstraksi untuk mewakili jalur penalaran KG. Jalur yang diekstraksi diverbalkan dan diberikan sebagai masukan untuk penalaran LLM dengan RAG. Dalam kerangka kerja GNN-RAG kami, GNN bertindak sebagai pemikir subgraf yang padat untuk mengekstrak informasi grafik yang berguna, sementara LLM memanfaatkan kemampuan pemrosesan bahasa alaminya untuk KGQA terbaik. Selanjutnya, kami mengembangkan teknik retrieval augmentation (RA) untuk lebih meningkatkan kinerja KGQA dengan GNN-RAG. Hasil eksperimen menunjukkan bahwa GNN-RAG mencapai performa canggih dalam dua tolok ukur KGQA yang banyak digunakan (WebQSP dan CWQ), mengungguli atau menyamai performa GPT-4 dengan LLM yang disetel 7B. Selain itu, GNN-RAG unggul dalam pertanyaan multi-hop dan multi-entitas, mengungguli pendekatan pesaing dengan poin 8,9–15,5% pada jawaban F1. Kami menyediakan kode dan hasil KGQA di https://github.com/cmavro/GNN-RAG. | RAG tentang Grafik Pengetahuan |
29 Mei 2024 | Model Bahasa Eksplorasi Mandiri: Permohonan Preferensi Aktif untuk Penyelarasan Online | Pengoptimalan preferensi, khususnya melalui Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF), telah mencapai keberhasilan yang signifikan dalam menyelaraskan Model Bahasa Besar (LLM) agar sesuai dengan niat manusia. Tidak seperti penyelarasan offline dengan kumpulan data tetap, pengumpulan umpan balik online dari manusia atau AI pada pembuatan model biasanya menghasilkan model penghargaan yang lebih mumpuni dan LLM yang lebih selaras melalui proses berulang. Namun, untuk mencapai model penghargaan yang akurat secara global memerlukan eksplorasi sistematis untuk menghasilkan beragam respons yang mencakup ruang bahasa alami yang luas. Pengambilan sampel acak dari LLM standar yang memaksimalkan imbalan saja tidak cukup untuk memenuhi persyaratan ini. Untuk mengatasi masalah ini, kami mengusulkan tujuan bilevel yang secara optimis bias terhadap respons yang berpotensi memberikan imbalan tinggi untuk secara aktif mengeksplorasi wilayah-wilayah di luar distribusi. Dengan memecahkan masalah tingkat dalam dengan fungsi imbalan yang diparameterisasi ulang, algoritme yang dihasilkan, bernama Self-Exploring Language Models (SELM), menghilangkan kebutuhan akan RM terpisah dan memperbarui LLM secara berulang dengan tujuan langsung. Dibandingkan dengan Direct Preference Optimization (DPO), tujuan SELM mengurangi penggunaan ekstrapolasi yang tidak pandang bulu dan meningkatkan efisiensi eksplorasi. Hasil eksperimen kami menunjukkan bahwa ketika disempurnakan pada model Zephyr-7B-SFT dan Llama-3-8B-Instruct, SELM secara signifikan meningkatkan kinerja pada tolok ukur mengikuti instruksi seperti MT-Bench dan AlpacaEval 2.0, serta berbagai tolok ukur akademik standar dalam pengaturan yang berbeda. . Kode dan model kami tersedia di https://github.com/shenao-zhang/SELM. | Penyelarasan, Optimasi Preferensi |
28 Mei 2024 | OpenRLHF: Kerangka RLHF yang Mudah Digunakan, Dapat Diskalakan, dan Berkinerja Tinggi | Ketika model bahasa besar (LLM) terus berkembang dengan menskalakan undang-undang, pembelajaran penguatan dari umpan balik manusia (RLHF) telah mendapatkan perhatian yang signifikan karena kinerjanya yang luar biasa. Namun, tidak seperti pra-pelatihan atau penyempurnaan satu model, penskalaan pembelajaran penguatan dari umpan balik manusia (RLHF) untuk melatih model bahasa besar menimbulkan tantangan koordinasi di empat model. Kami menghadirkan OpenRLHF, kerangka kerja sumber terbuka yang memungkinkan penskalaan RLHF yang efisien. Tidak seperti kerangka kerja RLHF yang sudah ada yang menempatkan empat model pada GPU yang sama, OpenRLHF mendesain ulang penjadwalan untuk model di luar parameter 70B menggunakan Ray, vLLM, dan DeepSpeed, memanfaatkan peningkatan pemanfaatan sumber daya dan pendekatan pelatihan yang beragam. Terintegrasi secara mulus dengan Hugging Face, OpenRLHF memberikan solusi out-of-the-box dengan algoritma yang dioptimalkan dan skrip peluncuran, yang menjamin kemudahan penggunaan. OpenRLHF mengimplementasikan RLHF, DPO, pengambilan sampel penolakan, dan teknik penyelarasan lainnya. Memberdayakan pengembangan LLM yang canggih, kode OpenRLHF tersedia di https://github.com/OpenLLMAI/OpenRLHF. | RLHF, Perangkat |
28 Mei 2024 | LLAMA-NAS: PENCARIAN ARSITEKTUR SARAF YANG EFISIEN UNTUK MODEL BAHASA BESAR | Kemampuan model bahasa besar (LLM) modern dalam menyelesaikan pemrosesan bahasa alami, penalaran kompleks, analisis sentimen, dan tugas-tugas lainnya sangat luar biasa sehingga mendorong penerapannya secara luas. Sayangnya, kemampuan ini memerlukan memori dan biaya komputasi yang sangat tinggi sehingga menghalangi penggunaan LLM pada sebagian besar platform perangkat keras. Untuk memitigasi hal ini, kami mengusulkan metode efektif untuk menemukan arsitektur jaringan Pareto-optimal berdasarkan LLaMA2-7B menggunakan one-shot NAS. Secara khusus, kami menyempurnakan LLaMA2-7B hanya sekali dan kemudian menerapkan pencarian berbasis algoritma genetika untuk menemukan arsitektur jaringan yang lebih kecil dan tidak terlalu rumit secara komputasi. Kami menunjukkan bahwa, untuk tugas benchmark standar tertentu, jaringan LLaMA2-7B yang telah dilatih sebelumnya berukuran besar dan kompleks. Lebih khusus lagi, kami mendemonstrasikan pengurangan ukuran model sebesar 1,5x dan peningkatan throughput sebesar 1,3x untuk tugas-tugas tertentu dengan penurunan akurasi yang dapat diabaikan. Selain menemukan arsitektur jaringan yang lebih kecil dan berkinerja lebih tinggi, metode kami melakukannya dengan lebih efektif dan efisien dibandingkan teknik pemangkasan atau sparsifikasi tertentu. Terakhir, kami mendemonstrasikan bagaimana kuantisasi melengkapi metode kami dan bahwa ukuran serta kompleksitas jaringan yang kami temukan dapat dikurangi lebih lanjut dengan menggunakan kuantisasi. Kami percaya bahwa pekerjaan kami menyediakan cara untuk secara otomatis membuat LLM yang dapat digunakan pada platform perangkat keras yang lebih murah dan lebih mudah tersedia. | Pencarian Arsitektur Neural, Pengurangan Ukuran Model |
28 Mei 2024 | Jangan Lupa Terhubung! Meningkatkan RAG dengan Reranking Berbasis Grafik | Retrieval Augmented Generation (RAG) telah sangat meningkatkan kinerja respons Model Bahasa Besar (LLM) dengan mendasarkan pembuatan pada konteks dari dokumen yang ada. Sistem ini bekerja dengan baik ketika dokumen jelas relevan dengan konteks pertanyaan. Namun bagaimana jika sebuah dokumen memiliki informasi parsial, atau hubungan yang kurang jelas dengan konteksnya? Dan bagaimana seharusnya kita mempertimbangkan hubungan antar dokumen? Dalam karya ini, kami berupaya menjawab dua pertanyaan inti tentang pembuatan RAG. Kami memperkenalkan G-RAG, reranker berdasarkan jaringan saraf grafik (GNN) antara retriever dan pembaca di RAG. Metode kami menggabungkan hubungan antara dokumen dan informasi semantik (melalui grafik Representasi Makna Abstrak) untuk memberikan pemeringkat berdasarkan konteks untuk RAG. G-RAG mengungguli pendekatan canggih sekaligus memiliki jejak komputasi yang lebih kecil. Selain itu, kami menilai kinerja PaLM 2 sebagai reranker dan menemukan bahwa kinerjanya jauh di bawah G-RAG. Hasil ini menekankan pentingnya pemeringkatan ulang RAG bahkan ketika menggunakan Model Bahasa Besar. | RAG untuk Penalaran |
27 Mei 2024 | Meteor: Traversal of Rationale untuk Model Bahasa dan Visi Berbasis Mamba | Pesatnya perkembangan model bahasa dan visi besar (LLVM) didorong oleh kemajuan dalam penyetelan instruksi visual. Baru-baru ini, LLVM sumber terbuka telah menyusun kumpulan data penyetelan instruksi visual berkualitas tinggi dan menggunakan encoder vision tambahan atau beberapa model visi komputer untuk mempersempit kesenjangan kinerja dengan LLVM sumber tertutup yang kuat. Kemajuan ini disebabkan oleh informasi multifaset yang diperlukan untuk beragam kemampuan, termasuk pemahaman gambar mendasar, pengetahuan dunia nyata tentang konsep yang masuk akal dan non-objek (misalnya, bagan, diagram, simbol, tanda, dan soal matematika), dan langkah demi langkah. -prosedur langkah untuk memecahkan pertanyaan kompleks. Berdasarkan informasi yang beraneka segi, kami menghadirkan LLVM baru yang efisien, traversal rasional berbasis Mamba (Meteor), yang memanfaatkan pemikiran multifaset untuk meningkatkan kemampuan pemahaman dan menjawab. Untuk menanamkan alasan panjang yang berisi banyak informasi, kami menggunakan arsitektur Mamba, yang mampu memproses data berurutan dengan kompleksitas waktu linier. Kami memperkenalkan konsep baru traversal rasionalitas yang memfasilitasi penanaman rasionalitas secara efisien. Selanjutnya, model bahasa multimodal (MLM) tulang punggung dilatih untuk menghasilkan jawaban dengan bantuan pemikiran. Melalui langkah-langkah ini, Meteor mencapai peningkatan signifikan dalam performa bahasa visi di berbagai tolok ukur evaluasi yang memerlukan beragam kemampuan, tanpa meningkatkan ukuran model atau menggunakan encoder vision tambahan dan model visi komputer. Kode tersedia di https://github.com/ByungKwanLee/Meteor. | Model Ruang Negara, Model Multimoda |
27 Mei 2024 | Pengantar Pemodelan Bahasa Visi | Menyusul popularitas Model Bahasa Besar (LLM) baru-baru ini, beberapa upaya telah dilakukan untuk memperluasnya ke domain visual. Dari memiliki asisten visual yang dapat memandu kita melewati lingkungan asing hingga model generatif yang menghasilkan gambar hanya dengan menggunakan deskripsi teks tingkat tinggi, penerapan model bahasa visi (VLM) akan berdampak signifikan pada hubungan kita dengan teknologi. Namun, ada banyak tantangan yang perlu diatasi untuk meningkatkan keandalan model tersebut. Meskipun bahasa bersifat diskrit, penglihatan berkembang dalam ruang dimensi yang jauh lebih tinggi di mana konsep tidak selalu dapat didiskritisasi dengan mudah. Untuk lebih memahami mekanisme di balik pemetaan visi ke bahasa, kami menyajikan pengenalan VLM yang kami harap dapat membantu siapa saja yang ingin terjun ke bidang ini. Pertama, kami memperkenalkan apa itu VLM, cara kerjanya, dan cara melatihnya. Kemudian, kami menyajikan dan mendiskusikan pendekatan untuk mengevaluasi VLM. Meskipun pekerjaan ini terutama berfokus pada pemetaan gambar ke bahasa, kami juga mendiskusikan perluasan VLM ke video. | Model Multimodal, Survei |
27 Mei 2024 | Model Multimodal Matryoshka | Model Multimodal Besar (LMM) seperti LLaVA telah menunjukkan kinerja yang kuat dalam penalaran visual-linguistik. Model ini pertama-tama menyematkan gambar ke dalam sejumlah besar token visual dan kemudian memasukkannya ke dalam Model Bahasa Besar (LLM). Namun, desain ini menyebabkan jumlah token yang berlebihan untuk skenario visual yang padat seperti gambar dan video beresolusi tinggi, sehingga menyebabkan inefisiensi yang besar. Meskipun ada metode pemangkasan dan penggabungan token, metode tersebut menghasilkan output dengan panjang tunggal untuk setiap gambar dan tidak memberikan fleksibilitas dalam memperdagangkan kepadatan informasi vs efisiensi. Terinspirasi oleh konsep Boneka Matryoshka, kami mengusulkan M3: Model Multimodal Matryoshka, yang belajar merepresentasikan konten visual sebagai kumpulan token visual bersarang yang menangkap informasi di berbagai perincian kasar hingga halus. Pendekatan kami menawarkan beberapa manfaat unik untuk LMM: (1) Seseorang dapat secara eksplisit mengontrol granularitas visual per contoh pengujian selama inferensi, misalnya, menyesuaikan jumlah token yang digunakan untuk mewakili gambar berdasarkan kompleksitas atau kesederhanaan konten yang diantisipasi; (2) M3 menyediakan kerangka kerja untuk menganalisis granularitas yang diperlukan untuk kumpulan data yang ada, di mana kami menemukan bahwa tolok ukur gaya COCO hanya memerlukan sekitar 9 token visual untuk mendapatkan akurasi yang serupa dengan penggunaan seluruh 576 token; (3) Pendekatan kami memberikan landasan untuk mengeksplorasi trade-off terbaik antara kinerja dan panjang token visual pada tingkat sampel, di mana penyelidikan kami mengungkapkan bahwa terdapat kesenjangan besar antara batas atas oracle dan representasi skala tetap saat ini. | Model Multimoda |
27 Mei 2024 | Trans-LoRA: menuju Penyempurnaan Efisien Parameter yang Dapat Dipindahtangankan dan bebas data | Adaptor tingkat rendah (LoRA) dan variannya adalah teknik penyempurnaan efisien parameter (PEFT) populer yang sangat cocok dengan performa penyempurnaan model penuh dan hanya memerlukan sejumlah kecil parameter tambahan. Parameter LoRA tambahan ini khusus untuk model dasar yang diadaptasi. Ketika model dasar tidak digunakan lagi dan diganti dengan yang baru, semua modul LoRA terkait perlu dilatih ulang. Pelatihan ulang tersebut memerlukan akses ke data yang digunakan untuk melatih LoRA untuk model dasar asli. Hal ini khususnya menjadi masalah untuk aplikasi cloud komersial di mana modul LoRA dan model dasar dihosting oleh penyedia layanan yang mungkin tidak diizinkan untuk menghosting data tugas klien berpemilik. Untuk mengatasi tantangan ini, kami mengusulkan Trans-LoRA— metode baru untuk transfer LoRA tanpa kehilangan data dan hampir bebas data di seluruh model dasar. Pendekatan kami bergantung pada data sintetis untuk mentransfer modul LoRA. Dengan menggunakan model bahasa besar, kami merancang generator data sintetik untuk memperkirakan proses pembuatan data dari subset data tugas yang diamati. Pelatihan pada kumpulan data sintetik yang dihasilkan mentransfer modul LoRA ke model baru. Kami menunjukkan efektivitas pendekatan kami dengan menggunakan keluarga model LLama dan Gemma. Pendekatan kami mencapai transfer LoRA yang lossless (sebagian besar ditingkatkan) antar model di dalam dan di seluruh kelompok model dasar yang berbeda, dan bahkan antar metode PEFT yang berbeda, pada berbagai macam tugas. | Metode PEFT, Penyempurnaan |
26 Mei 2024 | Optimasi Preferensi Putar Mandiri untuk Penyelarasan Model Bahasa | Pendekatan pembelajaran penguatan tradisional dari umpan balik manusia (RLHF) yang mengandalkan model parametrik seperti model Bradley-Terry gagal dalam menangkap sifat intransitivitas dan irasionalitas dalam preferensi manusia. Kemajuan terkini menunjukkan bahwa bekerja secara langsung dengan probabilitas preferensi dapat menghasilkan refleksi preferensi manusia yang lebih akurat, memungkinkan penyelarasan model bahasa yang lebih fleksibel dan akurat. Dalam makalah ini, kami mengusulkan metode permainan mandiri untuk penyelarasan model bahasa, yang memperlakukan masalah sebagai permainan dua pemain dengan jumlah konstan yang bertujuan untuk mengidentifikasi kebijakan ekuilibrium Nash. Pendekatan kami, yang disebut Self-Play Preference Optimization (SPPO), mendekati keseimbangan Nash melalui pembaruan kebijakan berulang dan memiliki jaminan konvergensi teoritis. Metode kami dapat secara efektif meningkatkan kemungkinan log dari respons yang dipilih dan mengurangi respons yang ditolak, yang tidak dapat dicapai dengan mudah dengan kehilangan berpasangan simetris seperti Direct Preference Optimization (DPO) dan Identity Preference Optimization (IPO). Dalam eksperimen kami, hanya dengan menggunakan 60 ribu perintah (tanpa respons) dari kumpulan data UltraFeedback dan tanpa penambahan cepat apa pun, dengan memanfaatkan model preferensi terlatih PairRM dengan hanya parameter 0,4B, SPPO dapat memperoleh model dari penyempurnaan Mistral-7B- Instruct-v0.2 yang mencapai tingkat kemenangan yang dikontrol lama dan canggih sebesar 28,53% melawan GPT-4-Turbo di AlpacaEval 2.0. Ini juga mengungguli DPO dan IPO (berulang) di MT-Bench dan Open LLM Leaderboard. Khususnya, kinerja SPPO yang kuat dicapai tanpa pengawasan eksternal tambahan (misalnya tanggapan, preferensi, dll.) dari GPT-4 atau model bahasa lain yang lebih kuat. | Penyelarasan, Optimasi |
23 Mei 2024 | Tidak Semua Fitur Model Bahasa Bersifat Linier | Karya terbaru telah mengajukan hipotesis representasi linier: bahwa model bahasa melakukan komputasi dengan memanipulasi representasi konsep satu dimensi (“fitur”) dalam ruang aktivasi. Sebaliknya, kami mengeksplorasi apakah beberapa representasi model bahasa mungkin bersifat multidimensi. Kita mulai dengan mengembangkan definisi yang ketat tentang fitur multidimensi yang tidak dapat direduksi berdasarkan apakah fitur tersebut dapat didekomposisi menjadi fitur dimensi rendah yang independen atau tidak terjadi bersamaan. Termotivasi oleh definisi ini, kami merancang metode skalabel yang menggunakan autoencoder renggang untuk secara otomatis menemukan fitur multidimensi di GPT-2 dan Mistral 7B. Fitur-fitur yang ditemukan secara otomatis ini mencakup contoh-contoh yang mudah diinterpretasikan, misalnya fitur-fitur melingkar yang mewakili hari-hari dalam seminggu dan bulan-bulan dalam setahun. Kami mengidentifikasi tugas-tugas yang menggunakan lingkaran persis ini untuk memecahkan masalah komputasi yang melibatkan aritmatika modular dalam hari dalam seminggu dan bulan dalam setahun. Terakhir, kami memberikan bukti bahwa fitur melingkar ini memang merupakan unit dasar komputasi dalam tugas-tugas ini dengan eksperimen intervensi pada Mistral 7B dan Llama 3 8B, dan kami menemukan representasi melingkar lebih lanjut dengan memecah status tersembunyi untuk tugas-tugas ini menjadi komponen yang dapat diinterpretasikan. | Analisis Representasi Linier |
23 Mei 2024 | AlignGPT: Model Bahasa Besar Multi-modal dengan Kemampuan Penyelarasan Adaptif | Model Bahasa Besar Multimodal (MLLM) secara luas dianggap penting dalam eksplorasi Kecerdasan Umum Buatan (AGI). Inti dari MLLM terletak pada kemampuannya untuk mencapai keselarasan lintas modal. Untuk mencapai tujuan ini, MLLM saat ini biasanya mengikuti paradigma pelatihan dua fase: fase pra-pelatihan dan fase penyesuaian instruksi. Meskipun sukses, terdapat kekurangan dalam pemodelan kemampuan penyelarasan dalam model ini. Pertama, selama fase pra-pelatihan, model biasanya mengasumsikan bahwa semua pasangan gambar-teks disejajarkan secara seragam, namun kenyataannya tingkat keselarasan antara pasangan teks gambar yang berbeda tidak konsisten. Kedua, instruksi yang saat ini digunakan untuk penyempurnaan menggabungkan berbagai tugas, instruksi tugas yang berbeda biasanya memerlukan tingkat kemampuan penyelarasan yang berbeda, namun MLLM sebelumnya mengabaikan kebutuhan penyelarasan yang berbeda ini. Untuk mengatasi masalah ini, kami mengusulkan model bahasa besar multimodal baru, AlignGPT. Pada tahap pra-pelatihan, alih-alih memperlakukan semua pasangan teks gambar secara setara, kami menetapkan tingkat kemampuan penyelarasan yang berbeda untuk pasangan teks gambar yang berbeda. Kemudian, dalam fase penyetelan instruksi, kami secara adaptif menggabungkan berbagai tingkat kemampuan penyelarasan ini untuk memenuhi kebutuhan penyelarasan dinamis dari berbagai instruksi. Hasil eksperimen ekstensif menunjukkan bahwa model kami mencapai performa kompetitif pada 12 tolok ukur. | Penyelarasan, Model Multimodal |
23 Mei 2024 | HippoRAG: Memori Jangka Panjang yang Terinspirasi Secara Neurobiologis untuk Model Bahasa Besar | Agar dapat berkembang di lingkungan alam yang tidak bersahabat dan selalu berubah, otak mamalia berevolusi untuk menyimpan sejumlah besar pengetahuan tentang dunia dan terus mengintegrasikan informasi baru sambil menghindari bencana lupa. Terlepas dari pencapaian yang mengesankan, model bahasa besar (LLM), bahkan dengan generasi yang diambil kembali (RAG), masih kesulitan untuk mengintegrasikan sejumlah besar pengalaman baru secara efisien dan efektif setelah pra-pelatihan. Dalam karya ini, kami memperkenalkan HippoRAG, kerangka pengambilan baru yang terinspirasi oleh teori pengindeksan hippocampal dari memori jangka panjang manusia untuk memungkinkan integrasi pengetahuan yang lebih dalam dan efisien melalui pengalaman baru. HippoRAG secara sinergis mengatur LLM, grafik pengetahuan, dan algoritme Personalized PageRank untuk meniru berbagai peran neokorteks dan hipokampus dalam memori manusia. Kami membandingkan HippoRAG dengan metode RAG yang ada dalam menjawab pertanyaan multi-hop dan menunjukkan bahwa metode kami mengungguli metode canggih, hingga 20%. Pengambilan satu langkah dengan HippoRAG mencapai kinerja yang sebanding atau lebih baik daripada pengambilan berulang seperti IRCoT, sekaligus 10-30 kali lebih murah dan 6-13 kali lebih cepat, dan mengintegrasikan HippoRAG ke dalam IRCoT memberikan keuntungan besar lebih lanjut. Terakhir, kami menunjukkan bahwa metode kami dapat mengatasi skenario jenis baru yang berada di luar jangkauan metode yang ada. | Optimasi RAG |
21 Mei 2024 | OmniGlue: Pencocokan Fitur yang Dapat Digeneralisasikan dengan Panduan Model Fondasi | Bidang pencocokan gambar telah menyaksikan munculnya teknik pencocokan fitur baru yang dapat dipelajari secara terus-menerus, dengan kinerja yang terus meningkat pada tolok ukur konvensional. Namun, penyelidikan kami menunjukkan bahwa meskipun ada kemajuan, potensi penerapannya di dunia nyata dibatasi oleh terbatasnya kemampuan generalisasi pada domain gambar baru. Dalam makalah ini, kami memperkenalkan OmniGlue, pencocokan gambar pertama yang dapat dipelajari dan dirancang dengan generalisasi sebagai prinsip inti. OmniGlue memanfaatkan pengetahuan luas dari model landasan visi untuk memandu proses pencocokan fitur, meningkatkan generalisasi ke domain yang tidak terlihat pada waktu pelatihan. Selain itu, kami mengusulkan mekanisme perhatian baru yang dipandu posisi titik kunci yang menguraikan informasi spasial dan tampilan, yang mengarah pada peningkatan pencocokan deskriptor. Kami melakukan eksperimen komprehensif pada rangkaian 7 kumpulan data dengan domain gambar yang bervariasi, termasuk gambar tingkat pemandangan, berpusat pada objek, dan foto udara. Komponen baru OmniGlue menghasilkan keuntungan relatif pada domain tak terlihat sebesar 20,9% dibandingkan dengan model referensi yang dapat dibandingkan secara langsung, sekaligus mengungguli metode LightGlue terbaru sebesar 9,5%. Kode dan model dapat ditemukan di https://hwjiang1510.github.io/OmniGlue. | Model Multimoda |
20 Mei 2024 | Kemenag: Pemutakhiran Tingkat Tinggi untuk Penyempurnaan Parameter yang Efisien | Adaptasi peringkat rendah (LoRA) adalah metode penyesuaian efisien parameter (PEFT) yang populer untuk model bahasa besar (LLM). Dalam makalah ini, kami menganalisis dampak pemutakhiran peringkat rendah, seperti yang diterapkan di LoRA. Temuan kami menunjukkan bahwa mekanisme pembaruan tingkat rendah dapat membatasi kemampuan LLM untuk mempelajari dan menghafal pengetahuan baru secara efektif. Terinspirasi oleh pengamatan ini, kami mengusulkan metode baru yang disebut Kemenag, yang menggunakan matriks persegi untuk mencapai pemutakhiran peringkat tinggi sambil mempertahankan jumlah parameter yang dapat dilatih. Untuk mencapainya, kami memperkenalkan operator non-parameter yang sesuai untuk mengurangi dimensi masukan dan meningkatkan dimensi keluaran untuk matriks persegi. Selain itu, operator ini memastikan bahwa bobot dapat digabungkan kembali ke dalam LLM, sehingga metode kami dapat diterapkan seperti LoRA. Kami melakukan evaluasi komprehensif terhadap metode kami dalam lima tugas: penyetelan instruksi, penalaran matematis, pra-pelatihan berkelanjutan, memori, dan pra-pelatihan. Metode kami mengungguli LoRA pada tugas-tugas intensif memori dan mencapai kinerja yang sebanding pada tugas-tugas lainnya. Kode kami akan tersedia di https://github.com/kongds/MoRA. | Pendekatan PEFT, Penyempurnaan |
19 Mei 2024 | Transformator Anda Diam-diam Linear | Makalah ini mengungkap karakteristik linier baru yang eksklusif untuk dekoder transformator, termasuk model seperti GPT, LLaMA, OPT, BLOOM, dan lainnya. Kami menganalisis transformasi penyematan antara lapisan berurutan, mengungkap hubungan linier yang hampir sempurna (skor kesamaan Procrustes 0,99). Namun, linearitas menurun ketika komponen sisa dihilangkan karena norma keluaran lapisan transformator yang rendah secara konsisten. Eksperimen kami menunjukkan bahwa menghilangkan atau memperkirakan secara linier beberapa blok transformator yang paling linier tidak mempengaruhi kerugian atau kinerja model secara signifikan. Selain itu, dalam eksperimen pra-pelatihan kami pada model yang lebih kecil, kami memperkenalkan regularisasi berbasis kesamaan kosinus, yang bertujuan untuk mengurangi linearitas lapisan. Regularisasi ini meningkatkan metrik kinerja pada tolok ukur seperti Tiny Stories dan SuperGLUE serta berhasil menurunkan linearitas model. Studi ini menantang pemahaman yang ada tentang arsitektur transformator, yang menunjukkan bahwa operasinya mungkin lebih linier dari asumsi sebelumnya.1 | Analisis Transformator |
18 Mei 2024 | Menuju LLM Modular dengan Membangun dan Menggunakan Kembali Perpustakaan LoRA | Meningkatnya jumlah adaptasi parameter-efisien dari model bahasa besar dasar (LLM) memerlukan studi apakah kita dapat menggunakan kembali adaptor terlatih tersebut untuk meningkatkan kinerja tugas-tugas baru. Kami mempelajari cara terbaik membangun perpustakaan adaptor dengan data multitugas dan merancang teknik untuk generalisasi tugas zero-shot dan diawasi melalui perutean di perpustakaan tersebut. Kami membandingkan pendekatan yang ada untuk membangun pustaka ini dan memperkenalkan pengelompokan berbasis model, MBC, sebuah metode yang mengelompokkan tugas berdasarkan kesamaan parameter adaptornya, yang secara tidak langsung mengoptimalkan transfer di seluruh kumpulan data multitugas. Untuk menggunakan kembali perpustakaan, kami menghadirkan mekanisme perutean zero-shot baru, Arrow, yang memungkinkan pemilihan dinamis adaptor paling relevan untuk masukan baru tanpa perlu pelatihan ulang. Kami bereksperimen dengan beberapa LLM, seperti Phi-2 dan Mistral, pada beragam tugas yang tertunda, memverifikasi bahwa adaptor berbasis MBC dan perutean Arrow menghasilkan generalisasi yang unggul untuk tugas-tugas baru. Kami mengambil langkah-langkah untuk menciptakan LLM yang modular dan mudah beradaptasi yang dapat menandingi atau mengungguli pelatihan gabungan tradisional. | Pendekatan PEFT, Penyempurnaan, Toolkit |
16 Mei 2024 | Bunglon: Model Yayasan Penggabungan Awal Modal Campuran | Kami menghadirkan Chameleon, keluarga model modal campuran berbasis token fusi awal yang mampu memahami dan menghasilkan gambar dan teks dalam urutan apa pun. Kami menguraikan pendekatan pelatihan yang stabil sejak awal, resep penyelarasan, dan parameterisasi arsitektur yang disesuaikan untuk pengaturan modal campuran, berbasis token, dan fusi awal. Model-model tersebut dievaluasi berdasarkan serangkaian tugas yang komprehensif, termasuk menjawab pertanyaan visual, pembuatan teks gambar, pembuatan teks, pembuatan gambar, dan pembuatan modal campuran bentuk panjang. Chameleon menunjukkan kemampuan yang luas dan umum, termasuk performa canggih dalam tugas pembuatan teks gambar, mengungguli Llama-2 dalam tugas hanya teks sekaligus bersaing dengan model seperti Mixtral 8x7B dan Gemini-Pro, dan menampilkan gambar yang tidak sepele. generasi, semuanya dalam satu model. Ini juga menyamai atau melampaui kinerja model yang jauh lebih besar, termasuk Gemini Pro dan GPT-4V, menurut penilaian manusia pada evaluasi generasi modal campuran jangka panjang yang baru, di mana perintah atau keluaran berisi rangkaian campuran gambar dan teks. . Chameleon menandai langkah maju yang signifikan dalam pemodelan terpadu dokumen multimoda lengkap. | Model Multimodal, Model Fondasi |
16 Mei 2024 | Pembelajaran Dalam Konteks Banyak-Shot dalam Model Landasan Multimodal | Model bahasa besar terkenal efektif pada beberapa shot in-context learning (ICL). Kemajuan terbaru dalam model yayasan multimodal telah memungkinkan jendela konteks yang belum pernah terjadi sebelumnya, menghadirkan peluang untuk mengeksplorasi kemampuan mereka untuk melakukan ICL dengan lebih banyak contoh yang menunjukkan lebih banyak. Dalam karya ini, kami mengevaluasi kinerja model fondasi multimodal yang menskalakan dari beberapa-shot ke banyak-shot ICL. Kami membandingkan GPT-4O dan Gemini 1.5 Pro di 10 dataset yang mencakup banyak domain (citra alami, citra medis, penginderaan jauh, dan citra molekuler) dan tugas (multi-kelas, multi-label, dan klasifikasi berbutir halus). Kami mengamati bahwa banyak-tembakan ICL, termasuk hingga hampir 2.000 contoh demonstrasi multimodal, mengarah pada peningkatan substansial dibandingkan dengan beberapa-shot (<100 contoh) ICL di semua dataset. Lebih lanjut, kinerja Gemini 1.5 Pro terus meningkatkan log-linear hingga jumlah maksimum contoh yang diuji pada banyak set data. Mengingat tingginya biaya inferensi yang terkait dengan permintaan panjang yang diperlukan untuk banyak-shot ICL, kami juga mengeksplorasi dampak batching beberapa kueri dalam satu panggilan API. Kami menunjukkan bahwa batching hingga 50 kueri dapat menyebabkan peningkatan kinerja di bawah zero-shot dan banyak-shot ICL, dengan keuntungan substansial dalam pengaturan nol-shot pada beberapa dataset, sementara secara drastis mengurangi biaya per-kuery dan latensi. Akhirnya, kami mengukur efisiensi data ICL dari model, atau tingkat di mana model belajar dari contoh yang lebih menunjukkan. Kami menemukan bahwa sementara GPT-4O dan Gemini 1.5 Pro mencapai kinerja nol-shot yang serupa di seluruh dataset, Gemini 1.5 Pro menunjukkan efisiensi data ICL yang lebih tinggi daripada GPT-4O pada sebagian besar set data. Hasil kami menunjukkan bahwa banyak-shot ICL dapat memungkinkan pengguna untuk secara efisien mengadaptasi model yayasan multimodal dengan aplikasi dan domain baru. Basis kode kami tersedia untuk umum di https://github.com/stanfordmlgroup/manyicl. | ICL, model multimodal |
15 Mei 2024 | Lora belajar lebih sedikit dan lebih sedikit lupa | Adaptasi rendah (LORA) adalah metode finetuning yang efisien parameter yang banyak digunakan untuk model bahasa besar. Lora menghemat memori dengan hanya melatih gangguan peringkat rendah untuk matriks berat yang dipilih. Dalam karya ini, kami membandingkan kinerja Lora dan finetuning penuh pada dua domain target, pemrograman dan matematika. Kami mempertimbangkan kedua instruksi finetuning (≈100k pasangan respons cepat) dan rezim data pretraining (≈10b tidak terstruktur). Hasil kami menunjukkan bahwa, di sebagian besar pengaturan, Lora secara substansial berkinerja buruk di finetuning penuh. Namun demikian, Lora menunjukkan bentuk regularisasi yang diinginkan: lebih baik mempertahankan kinerja model dasar pada tugas di luar domain target. Kami menunjukkan bahwa Lora memberikan regularisasi yang lebih kuat dibandingkan dengan teknik umum seperti pembusukan berat badan dan putus sekolah; Ini juga membantu mempertahankan generasi yang lebih beragam. Kami menunjukkan bahwa finetuning penuh mempelajari gangguan dengan peringkat yang 10-100x lebih besar dari konfigurasi LORA yang khas, mungkin menjelaskan beberapa celah yang dilaporkan. Kami menyimpulkan dengan mengusulkan praktik terbaik untuk finetuning dengan Lora. | Mendekati peft, fine-tuning |
14 Mei 2024 | Memahami kesenjangan kinerja antara algoritma penyelarasan online dan offline | Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF) adalah kerangka kerja kanonik untuk penyelarasan model bahasa besar. Namun, meningkatnya popularitas dalam algoritma penyelarasan offline menantang perlunya pengambilan sampel dalam kebijakan di RLHF. Dalam konteks optimisasi berlebihan hadiah, kami mulai dengan serangkaian eksperimen pembuka yang menunjukkan keuntungan yang jelas dari metode online dibandingkan metode offline. Ini mendorong kami untuk menyelidiki penyebab perbedaan kinerja melalui serangkaian ablasi eksperimental yang dirancang dengan cermat. Kami menunjukkan secara empiris bahwa hipotesis seperti cakupan data offline dan kualitas data dengan sendirinya tidak dapat secara meyakinkan menjelaskan perbedaan kinerja. Kami juga menemukan bahwa sementara algoritma offline melatih kebijakan untuk menjadi pandai dalam klasifikasi berpasangan, itu lebih buruk pada generasi ke generasi; Sementara itu kebijakan yang dilatih oleh algoritma online bagus pada generasi generasi sementara lebih buruk pada klasifikasi berpasangan. Ini mengisyaratkan interaksi yang unik antara kemampuan diskriminatif dan generatif, yang sangat dipengaruhi oleh proses pengambilan sampel. Terakhir, kami mengamati bahwa perbedaan kinerja berlanjut untuk fungsi kerugian yang kontras dan tidak kontras, dan tampaknya tidak ditangani dengan sekadar meningkatkan jaringan kebijakan. Secara keseluruhan, penelitian kami menjelaskan peran penting dari pengambilan sampel kebijakan dalam penyelarasan AI, dan mengisyaratkan tantangan mendasar tertentu dari algoritma penyelarasan offline. | Penyelarasan |
13 Mei 2024 | Alur kerja RLHF: Dari pemodelan hadiah ke RLHF online | Kami menyajikan alur kerja pembelajaran penguatan iteratif online dari Umpan Balik Manusia (RLHF) dalam laporan teknis ini, yang secara luas dilaporkan mengungguli mitra offline dengan margin besar dalam literatur Model Bahasa Besar (LLM) baru -baru ini. Namun, proyek RLHF open-source yang ada sebagian besar masih terbatas pada pengaturan pembelajaran offline. Dalam laporan teknis ini, kami bertujuan untuk mengisi kesenjangan ini dan memberikan resep terperinci yang mudah direproduksi untuk RLHF iteratif online. Secara khusus, karena umpan balik manusia online biasanya tidak layak untuk komunitas open-source dengan sumber daya yang terbatas, kami mulai dengan membangun model preferensi menggunakan beragam set data sumber terbuka dan menggunakan model preferensi proxy yang dibangun untuk memperkirakan umpan balik manusia. Kemudian, kami membahas wawasan teoretis dan prinsip -prinsip algoritmik di balik RLHF iteratif online, diikuti oleh implementasi praktis yang terperinci. LLM kami yang terlatih, SFR-ATERATIF-DPO-LLAMA-3-8B-R, mencapai kinerja yang mengesankan pada tolok ukur chatbot LLM, termasuk Alpacaeval-2, arena-hard, dan MT-Bench, serta tolok ukur akademik lainnya seperti humaneval dan MT-Bench, serta tolok ukur akademik lainnya seperti humaneval dan MT Sejujurnya. Kami telah menunjukkan bahwa Fine-tuning (SFT) yang diawasi dan RLHF iteratif dapat memperoleh kinerja canggih dengan kumpulan data sumber terbuka sepenuhnya. Lebih lanjut, kami telah membuat model, kumpulan data yang dikuratori, dan buku panduan kode langkah demi langkah yang komprehensif tersedia untuk umum. Silakan merujuk ke https://github.com/rlhflow/rlhf-reward-modeling dan https://github.com/rlhflow/online-rlhf untuk informasi lebih rinci. | Optimalisasi Preferensi, RLHF |
2 Mei 2024 | Prometheus 2: Model Bahasa Sumber Terbuka Khusus dalam Mengevaluasi Model Bahasa Lainnya | LM kepemilikan seperti GPT-4 sering digunakan untuk menilai kualitas tanggapan dari berbagai LM. Namun, kekhawatiran termasuk transparansi, kemampuan kontrol, dan keterjangkauan sangat memotivasi pengembangan OpenSource LMS yang berspesialisasi dalam evaluasi. Di sisi lain, LMS evaluator terbuka yang ada menunjukkan kekurangan kritis: 1) Mereka mengeluarkan skor yang secara signifikan berbeda dari yang ditugaskan oleh manusia, dan 2) mereka tidak memiliki fleksibilitas untuk melakukan penilaian langsung dan peringkat berpasangan, dua bentuk penilaian yang paling umum umum . Selain itu, mereka tidak memiliki kemampuan untuk mengevaluasi berdasarkan kriteria evaluasi khusus, sebagai gantinya berfokus pada atribut umum seperti bantuan dan tidak berbahaya. Untuk mengatasi masalah ini, kami memperkenalkan Prometheus 2, evaluator LM yang lebih kuat daripada pendahulunya yang secara dekat mencerminkan penilaian manusia dan GPT-4. Selain itu, ia mampu memproses penilaian langsung dan format peringkat pasangan yang dikelompokkan dengan kriteria evaluasi yang ditentukan pengguna. Pada empat tolok ukur penilaian langsung dan empat tolok ukur peringkat berpasangan, Prometheus 2 mencetak korelasi dan kesepakatan tertinggi dengan manusia dan hakim LM yang berpemilik di antara semua LM evaluator terbuka yang diuji. Model, kode, dan data kami semuanya tersedia untuk umum 1. | Evaluasi, Agen |
2 Mei 2024 | Wildchat: 1M Log Interaksi ChatGPT di alam liar | Chatbots seperti GPT-4 dan ChatGPT sekarang melayani jutaan pengguna. Terlepas dari penggunaannya secara luas, masih ada kekurangan kumpulan data publik yang menunjukkan bagaimana alat -alat ini digunakan oleh populasi pengguna dalam praktiknya. Untuk menjembatani kesenjangan ini, kami menawarkan akses gratis ke chatgpt untuk pengguna online dengan imbalan opt-in konsensual mereka yang afirmatif untuk secara anonim mengumpulkan transkrip obrolan dan meminta header. Dari ini, kami menyusun Wildchat, sebuah korpus dari 1 juta percakapan pengguna-chatgpt, yang terdiri dari lebih dari 2,5 juta putaran interaksi. Kami membandingkan Wildchat dengan dataset interaksi pengguna-chatbot populer lainnya, dan menemukan bahwa dataset kami menawarkan petunjuk pengguna yang paling beragam, berisi jumlah bahasa terbesar, dan menyajikan variasi terkaya dari kasus penggunaan yang berpotensi beracun untuk dipelajari oleh para peneliti. Selain transkrip obrolan waktu, kami memperkaya dataset dengan data demografis, termasuk alamat IP negara bagian, negara, dan hash, di samping header permintaan. Augmentasi ini memungkinkan analisis perilaku pengguna yang lebih rinci di berbagai wilayah geografis dan dimensi temporal. Akhirnya, karena menangkap sejumlah besar kasus penggunaan, kami menunjukkan utilitas potensial dataset dalam model mengikuti instruksi-tuning. Wildchat dirilis di https://wildchat.allen.ai di bawah lisensi benturan AI21. | Benchmark, Evaluasi |
2 Mei 2024 | StoryDiffusion: Perhatian diri yang konsisten untuk gambar jarak jauh dan pembuatan video | Untuk model generatif berbasis difusi terbaru, mempertahankan konten yang konsisten di serangkaian gambar yang dihasilkan, terutama yang mengandung subjek dan detail kompleks, menghadirkan tantangan yang signifikan. Dalam makalah ini, kami mengusulkan cara baru perhitungan perhatian diri, disebut perhatian diri yang konsisten, yang secara signifikan meningkatkan konsistensi antara gambar yang dihasilkan dan menambah model teks-ke-gambar berbasis difusi pretrain yang lazim secara nol. Untuk memperluas metode kami ke generasi video jarak jauh, kami selanjutnya memperkenalkan modul prediksi gerak temporal ruang semantik baru, bernama Semantic Motion Pred prediktor. Dilatih untuk memperkirakan kondisi gerak antara dua gambar yang disediakan di ruang semantik. Modul ini mengubah urutan gambar yang dihasilkan menjadi video dengan transisi yang halus dan subjek yang konsisten yang secara signifikan lebih stabil daripada modul hanya berdasarkan ruang laten, terutama dalam konteks pembuatan video yang panjang. Dengan menggabungkan dua komponen baru ini, kerangka kerja kami, yang disebut sebagai StoryDiffusion, dapat menggambarkan cerita berbasis teks dengan gambar atau video yang konsisten yang mencakup beragam konten. StoryDiffusion yang diusulkan mencakup eksplorasi perintis dalam pembuatan cerita visual dengan presentasi gambar dan video, yang kami harap dapat menginspirasi lebih banyak penelitian dari aspek modifikasi arsitektur. | Model multimodal, difusi |
2 Mei 2024 | Api: Penyelarasan Faktualitas-Sehat untuk Model Bahasa Besar | Alignment adalah prosedur standar untuk menyempurnakan model bahasa besar (LLM) pra-terlatih untuk mengikuti instruksi bahasa alami dan berfungsi sebagai asisten AI yang membantu. Kami telah mengamati, bagaimanapun, bahwa proses penyelarasan konvensional gagal untuk meningkatkan akurasi faktual LLM, dan sering mengarah pada generasi lebih banyak fakta yang salah (yaitu halusinasi). Dalam makalah ini, kami mempelajari cara membuat proses penyelarasan LLM lebih faktual, dengan terlebih dahulu mengidentifikasi faktor-faktor yang mengarah pada halusinasi dalam kedua langkah penyelarasan: Fine-tuning (SFT) dan Penguatan Pembelajaran (RL) yang diawasi. Secara khusus, kami menemukan bahwa melatih LLM tentang pengetahuan baru atau teks yang tidak dikenal dapat mendorong halusinasi. Ini membuat SFT kurang faktual karena melatih data berlabel manusia yang mungkin menjadi novel bagi LLM. Selain itu, fungsi hadiah yang digunakan dalam RL standar juga dapat mendorong halusinasi, karena memandu LLM untuk memberikan tanggapan yang lebih bermanfaat pada beragam instruksi, seringkali lebih memilih tanggapan yang lebih lama dan lebih rinci. Berdasarkan pengamatan ini, kami mengusulkan penyelarasan yang sadar-faktualitas (api), yang terdiri dari SFT yang sadar-faktualitas dan faktalitas-sadar RL melalui optimasi preferensi langsung. Eksperimen menunjukkan bahwa pemandu penyelarasan faktualitas yang kami usulkan memandu LLMS untuk menghasilkan respons faktual yang lebih banyak sambil mempertahankan kemampuan mengikuti instruksi | Alignment, Faktualitas |
2 Mei 2024 | Nemo-Aligner: Toolkit yang dapat diskalakan untuk penyelarasan model yang efisien | Menyelaraskan model bahasa besar (LLM) dengan nilai -nilai dan preferensi manusia sangat penting untuk membuatnya bermanfaat dan aman. Namun, membangun alat yang efisien untuk melakukan penyelarasan dapat menjadi tantangan, terutama untuk LLM terbesar dan paling kompeten yang sering mengandung puluhan atau ratusan miliar parameter. Kami membuat Nemo-Aligner, toolkit untuk penyelarasan model yang dapat secara efisien skala untuk menggunakan ratusan GPU untuk pelatihan. Nemo-Aligner hadir dengan implementasi yang sangat dioptimalkan dan dapat diskalakan untuk paradigma utama penyelarasan model seperti: pembelajaran penguatan dari umpan balik manusia (RLHF), optimasi preferensi langsung (DPO), steerlm, dan fine-tuning mandiri (spin). Selain itu, toolkit kami mendukung menjalankan sebagian besar teknik penyelarasan dalam pengaturan parameter efisien fine-tuning (PEFT). Nemo-Aligner dirancang untuk ekstensibilitas, memungkinkan dukungan untuk teknik perataan lainnya dengan upaya minimal. Ini bersumber terbuka dengan lisensi Apache 2.0 dan kami mengundang kontribusi komunitas di https://github.com/nvidia/nemo-ligner. | Alignment, toolkit |
1 Mei 2024 | Apakah ukuran edit yang lebih besar selalu lebih baik? - Studi empiris tentang pengeditan model dengan LLAMA-3 | Studi ini menyajikan analisis pengeditan model yang ditargetkan yang berfokus pada model bahasa besar terbaru, LLAMA-3. Kami mengeksplorasi kemanjuran teknik pengeditan model populer - Roma, Memit, dan Emmet, yang dirancang untuk intervensi lapisan yang tepat. Kami mengidentifikasi lapisan yang paling efektif untuk pengeditan yang ditargetkan melalui evaluasi yang mencakup hingga 4096 suntingan di tiga strategi berbeda: pengeditan berurutan, pengeditan batch, dan pendekatan hybrid yang kami sebut sebagai pengeditan sekuensial-batch. Temuan kami menunjukkan bahwa peningkatan edit ukuran batch dapat menurunkan kinerja model secara lebih signifikan daripada menggunakan batch edit yang lebih kecil secara berurutan untuk jumlah edit yang sama. Dengan ini, kami berpendapat bahwa pengeditan model berurutan adalah komponen penting untuk skala metode pengeditan model dan penelitian di masa depan harus fokus pada metode yang menggabungkan pengeditan batch dan berurutan. Pengamatan ini menunjukkan batasan potensial dalam metode pengeditan model saat ini yang mendorong menuju ukuran batch edit yang lebih besar, dan kami berharap ini membuka jalan untuk investigasi di masa depan ke dalam mengoptimalkan ukuran batch dan kinerja pengeditan model. | Pengeditan model |
1 Mei 2024 | Lora Land: 310 LLMS yang disesuaikan yang menyaingi GPT-4, sebuah laporan teknis | Adaptasi peringkat rendah (LORA) telah muncul sebagai salah satu metode yang paling banyak diadopsi untuk parameter efisien fine-tuning (PEFT) dari model bahasa besar (LLM). Lora mengurangi jumlah parameter yang dapat dilatih dan penggunaan memori sambil mencapai kinerja yang sebanding dengan penyesuaian penuh. Kami bertujuan untuk menilai kelayakan pelatihan dan melayani LLMS disesuaikan dengan Lora dalam aplikasi dunia nyata. Pertama, kami mengukur kualitas LLMS yang disesuaikan dengan adaptor peringkat rendah terkuantisasi di 10 model dasar dan 31 tugas dengan total 310 model. Kami menemukan bahwa model fine-tuned Lora 4-bit mengungguli model basis dengan 34 poin dan rata-rata GPT-4 dengan 10 poin. Kedua, kami menyelidiki model dasar yang paling efektif untuk menyempurnakan dan menilai kapasitas korelatif dan prediktif heuristik kompleksitas tugas dalam memperkirakan hasil penyempurnaan. Akhirnya, kami mengevaluasi kemampuan latensi dan konkurensi Lorax, server inferensi multi-lora open-source yang memfasilitasi penyebaran beberapa model fine-tuned LORA pada satu GPU tunggal menggunakan bobot model dasar bersama dan pemuatan adaptor dinamis. Lorax Powers Lora Land, aplikasi web yang meng-host 25 lora fine-tuned mistral-7b llms pada satu NVIDIA A100 GPU tunggal dengan memori 80GB. Lora Land menyoroti kualitas dan efektivitas biaya menggunakan beberapa LLM khusus pada satu, LLM tujuan umum. | Mendekati peft, fine-tuning |
Bergabunglah dengan 1000+ siswa dalam petualangan 10 minggu ini saat kami mempelajari penerapan LLM di berbagai kasus penggunaan
? ️ *Minggu 1 [15 Jan 2024] *: Pengantar Praktis ke LLMS
? ️ *Minggu 2 [22 Jan 2024] *: Meminta dan Prompt Engineering
? ️ *minggu 3 [29 Jan 2024] *: fine-tuning llm
? ️ *Minggu 4 [5 Feb 2024] *: RAG (Generasi Pengambilan-Retrieval)
? ️ *Minggu 5 [12 Feb 2024] *: Alat untuk Membangun Aplikasi LLM
? ️ *Minggu 6 [Feb 19 2024] *: Teknik Evaluasi
? ️ *Minggu 7 [Feb 26 2024] *: Membangun Aplikasi LLM Anda Sendiri
? ️ *Minggu 8 [4 Maret 2024] *: Fitur dan Penempatan Lanjutan
? ️ *Minggu 9 [11 Maret 2024] *: Tantangan dengan LLMS
? ️ *Minggu 10 [18 Maret 2024] *: Tren penelitian yang muncul
? ️ *Minggu 11 *Bonus *[25 Maret 2024] *: Yayasan
Model bahasa besar oleh et zurich
Memahami model bahasa besar oleh Princeton
Kursus Transformers dengan Huggingface
Kursus NLP oleh Huggingface
CS324 - Model Bahasa Besar oleh Stanford
AI generatif dengan model bahasa besar oleh Coursera
Pengantar AI Generatif oleh Coursera
Fundamental AI Generatif oleh Google Cloud
Pengantar model bahasa besar oleh Google Cloud
Pengantar AI Generatif oleh Google Cloud
Konsep AI Generatif oleh DataCamp (DATA DATA DANIEL TEDESCO @ Google)
1 jam Pengantar LLM (Model Bahasa Besar) oleh Weclouddata
LLM Foundation Models From the Ground Up | Primer oleh databricks
AI generatif dijelaskan oleh nvidia
Model Transformer dan Model Bert oleh Google Cloud
Rencana Pembelajaran AI Generatif untuk Pengambil Keputusan oleh AWS
Pengantar AI yang bertanggung jawab oleh Google Cloud
Dasar -dasar AI Generatif oleh Microsoft Azure
AI generatif untuk pemula oleh Microsoft
Chatgpt untuk Pemula: Kasus Penggunaan Tertinggi untuk Semua Orang oleh Udemy
[1 jam pembicaraan] Intro ke model bahasa besar oleh Andrej Karpathy
Chatgpt untuk semua orang dengan belajar meminta
Model Bahasa Besar (LLMS) (dalam bahasa Inggris) oleh Kshitiz Verma (Universitas JK Lakshmipat, Jaipur, India)
LLMOPS: Membangun Aplikasi Dunia Nyata dengan Model Bahasa Besar oleh Udacity
Full Stack LLM Bootcamp oleh FSDL
AI generatif untuk pemula oleh Microsoft
Model Bahasa Besar: Aplikasi Melalui Produksi oleh Databricks
Yayasan AI Generatif oleh AWS
Pengantar Kursus Komunitas AI Generatif oleh Ineuron
Llm university by cohere
LLM Learning Lab oleh Lightning AI
Langchain untuk Pengembangan Aplikasi LLM oleh Deeplearning.AI
Llmops oleh deeplearning.ai
Pengujian Otomatis untuk LLMOPS dengan deeplearning.ai
Membangun Aplikasi AI Generatif Menggunakan Amazon Bedrock oleh AWS
Secara efisien melayani llms dengan deeplearning.ai
Sistem Membangun dengan API ChatGPT oleh Deeplearning.ai
Aplikasi LLM Serverless dengan Amazon Bedrock oleh Deeplearning.ai
Membangun aplikasi dengan database vektor dengan deeplearning.ai
Pengujian Otomatis untuk LLMOPS dengan deeplearning.ai
Llmops oleh deeplearning.ai
Bangun aplikasi LLM dengan langchain.js dengan deeplearning.ai
Pengambilan Lanjutan untuk AI dengan Chroma oleh Deeplearning.AI
Mengoperasionalkan LLMS di Azure oleh Coursera
Kursus Lengkap AI Generatif - Gemini Pro, Openai, Llama, Langchain, Pinecone, Vektor Database & Lainnya oleh freecodecamp.org
Pelatihan & Fine-tuning LLMS untuk produksi oleh ActiveLoop
Database Langchain & Vektor dalam Produksi oleh ActiveLoop
Pembelajaran Penguatan dari Umpan Balik Manusia dengan DEEPEEDEARNING.AI
Membangun aplikasi dengan database vektor dengan deeplearning.ai
Finetuning Model Bahasa Besar dengan DEEPEEDEARNING.AI
Langchain: mengobrol dengan data Anda dengan deeplearning.ai
Sistem Membangun dengan API ChatGPT oleh Deeplearning.ai
Teknik cepat dengan llama 2 oleh deeplearning.ai
Membangun aplikasi dengan database vektor dengan deeplearning.ai
CHATGPT Prompt Engineering untuk pengembang dengan deeplearning.ai
Seri Orkestrasi Rag Lanjutan oleh Llamaindex
Spesialisasi Teknik yang Segera oleh Coursera
Menambah llm Anda menggunakan pengambilan generasi augmented oleh nvidia
Grafik Pengetahuan untuk Rag oleh Deeplearning.AI
Model Sumber Terbuka dengan Wajah Memeluk dengan DEEPEEDEARNING.AI
Database Vektor: Dari Embeddings ke Aplikasi oleh Deeplearning.AI
Memahami dan Menerapkan Embeddings Teks dengan DEEPEEDEARNING.AI
Aplikasi Web Javascript Rag dengan LlamAinDex oleh Deeplearning.ai
Fundamental kuantisasi dengan wajah peluk dengan deeplearning.ai
Preprocessing data tidak terstruktur untuk aplikasi LLM dengan deeplearning.ai
Retrieval Augmented Generasi untuk Produksi dengan Langchain & Llamaindex oleh Activeloop
Kuantisasi secara mendalam oleh deeplearning.ai
Jika Anda ingin menambahkan ke repositori atau menemukan masalah apa pun, silakan angkat PR dan pastikan penempatan yang benar di dalam bagian atau kategori yang relevan.
Untuk mengutip panduan ini, gunakan format di bawah ini:
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[Lisensi MIT]