Cina Sederhana |
Jalan menuju implementasi dan transendensi model ChatGPT open source
Sejak kebocoran bobot LLaMA yang tidak disengaja dan kinerja yang mengesankan dari instruksi penyempurnaan LLaMA oleh Stanford Alpaca menggunakan data yang dibangun dari api gpt-3 dengan cara yang diinstruksikan sendiri, komunitas sumber terbuka menjadi semakin tertarik untuk mewujudkan hal yang besar. model bahasa di tingkat ChatGPT.
Repo ini untuk merekam proses reproduksi dan transendensi tersebut, serta memberikan gambaran kepada masyarakat.
Termasuk: kemajuan teknologi terkait, model dasar, model domain, pelatihan, penalaran, teknologi, data, multibahasa, multimodalitas, dll.
penyumbang | model/proyek | lisensi | bahasa | fitur utama |
---|---|---|---|---|
Meta | LLaMA/LLaMA2 | multi | LLaMA-13B mengungguli GPT-3(175B) dan LLaMA-65B bersaing dengan PaLM-540M. Model dasar untuk sebagian besar pekerjaan tindak lanjut. | |
MemelukWajah-Ilmu Besar | BUNGA | multi | Model Bahasa Besar (LLM) autoregresif yang dilatih oleh HuggingFace BigScience. | |
MemelukWajah-Ilmu Besar | BLOOMZ | multi | versi model bahasa multibahasa terlatih BLOOM & mT5 yang telah disempurnakan instruksinya pada campuran tugas lintas bahasa. | |
EleutherAI | GPT-J | en | model trafo dilatih menggunakan Mesh Transformer JAX milik Ben Wang. | |
Meta | MEMILIH | en | Buka Model Bahasa Transformer yang telah dilatih sebelumnya, tujuan pengembangan rangkaian model OPT ini adalah agar dapat direproduksi dan penelitian yang bertanggung jawab dalam skala besar, dan untuk menghadirkan lebih banyak suara dalam mempelajari dampak LLM ini. | |
Sistem Otak | Otak-GPT | en | LLM yang telah dilatih sebelumnya, seperti GPT-3, Tersedia secara komersial, dilatih secara efisien pada superkomputer AI Andromeda, dilatih sesuai dengan hukum penskalaan Chinchilla (20 token per parameter model) yang komputasinya optimal. | |
EleutherAI | ular piton | en | menggabungkan analisis interpretabilitas dan hukum penskalaan untuk memahami bagaimana pengetahuan berkembang dan berkembang selama pelatihan transformator autoregresif. | |
Stabilitas-AI | StabilLM | en | Model Bahasa AI Stabilitas | |
FDU | LUMUT | id/zh | Model bahasa percakapan yang dilengkapi alat sumber terbuka dari Universitas Fudan. | |
simetri & FDU | BBT-2 | zh | LM sumber terbuka 12B. | |
@mlfoundations | Buka Flamingo | en | Kerangka kerja sumber terbuka untuk melatih model multimoda besar. | |
EleutherAI | GPT-NeoX-20B | en | Arsitekturnya sengaja menyerupai GPT-3, dan hampir identik dengan GPT-J-6B. | |
UCB | BukaLLaMA | Apache-2.0 | en | Reproduksi Terbuka LLaMA. |
MosaikML | MPT | Apache-2.0 | en | MPT-7B adalah model bergaya GPT, dan yang pertama dalam model Seri Dasar MosaikML. Dilatih dengan token 1T dari kumpulan data yang dikurasi MosesML, MPT-7B adalah sumber terbuka, dapat digunakan secara komersial, dan setara dengan LLaMa 7B dalam metrik evaluasi. |
Bersama Komputer | RedPajama-INCITE-Base-3B-v1 | Apache-2.0 | en | Model bahasa terlatih parameter 2,8B, dilatih sebelumnya padaRedPajama-Data-1T, bersama dengan Versi yang Diselaraskan dengan Instruksi dan Versi Obrolan. |
Petir-AI | Lit-LLaMA | Apache-2.0 | - | Implementasi independen LLaMA yang sepenuhnya open source di bawah lisensi Apache 2.0. |
@conceptofmind | PLM | Lisensi MIT | en | Implementasi sumber terbuka model Google PaLM. |
TII | Elang-7B | Lisensi TII Falcon LLM | en | model khusus decoder kausal parameter 7 miliar yang dibuat oleh TII dan dilatih pada 1.500 miliar token RefinedWeb yang ditingkatkan dengan corpora yang dikurasi. |
TII | Elang-40B | Lisensi TII Falcon LLM | multi | model khusus decoder kausal parameter 40 miliar yang dibuat oleh TII dan dilatih pada 1.000 miliar token RefinedWeb yang ditingkatkan dengan corpora yang dikurasi. |
Penelitian Harimau | Bot Harimau | Apache-2.0 | id/zh | LLM multi-bahasa dan multitugas. |
BAAI | Akuila/Aquila2 | BAAI_Aquila_Model_Lisensi | id/zh | Model bahasa Aquila mewarisi keunggulan desain arsitektur GPT-3 dan LLaMA, menggantikan sejumlah model bahasa dasar yang lebih efisien implementasi operator dan mendesain ulang tokenizer untuk dukungan bilingual Cina-Inggris. |
BukaBMB | CPM-Lebah | Perjanjian Lisensi Model Universal-Pernyataan Sumber-Pembatasan Publisitas-Otorisasi Komersial | id/zh | CPM-Bee adalah model dasar bilingual Cina-Inggris yang sepenuhnya open-source dan dapat digunakan secara komersial dengan kapasitas sepuluh miliar parameter. Dan telah dilatih sebelumnya pada kumpulan besar token berskala triliun. |
Baichuan | baichuan-7B | Apache-2.0 | id/zh | Ini telah mencapai kinerja terbaik di antara model dengan ukuran yang sama pada standar Tolok ukur resmi berbahasa Mandarin dan Inggris (C-EVAL, MMLU, dll). |
Tencent | lyraChatGLM | Lisensi MIT | id/zh | Sejauh pengetahuan kami, ini adalah versi akselerasi pertama dari ChatGLM-6B . Kecepatan inferensi lyraChatGLM telah mencapai akselerasi 300x dibandingkan versi aslinya. Kami masih bekerja keras untuk lebih meningkatkan kinerja. |
Tenaga Penjualan | XGen | Apache-2.0 | multi | LLM sumber terbuka Salesforce dengan panjang urutan 8k |
Laboratorium AI Shanghai | MagangLM | Apache-2.0 | id/zh | InternLM memiliki model dasar 7 miliar parameter dan model obrolan yang dirancang untuk skenario praktis. Model ini memiliki karakteristik sebagai berikut: Ini memanfaatkan triliunan token berkualitas tinggi untuk pelatihan guna membangun basis pengetahuan yang kuat. Ini mendukung panjang jendela konteks 8k, memungkinkan urutan masukan yang lebih panjang dan kemampuan penalaran yang lebih kuat. Ini menyediakan seperangkat alat serbaguna bagi pengguna untuk secara fleksibel membangun alur kerja mereka sendiri. |
xverse-ai | XVERSE | Apache-2.0 | multi | LLM multibahasa yang dikembangkan oleh XVERSE Technology Inc. |
Penulis | lontar | Apache-2.0 | en | sangat kuat sekaligus sangat cepat. Model ini unggul dalam banyak tugas berbeda seperti klasifikasi sentimen dan ringkasan. |
AI Mistral | Mistral | Apache-2.0 | en | Mistral 7B adalah model parameter 7.3B yang: 1. Mengungguli Llama 2 13B di semua benchmark 2. Mengungguli Llama 1 34B pada banyak benchmark 3. Mendekati kinerja CodeLlama 7B pada kode, namun tetap bagus dalam tugas-tugas bahasa Inggris 4. Menggunakan Perhatian Kueri yang Dikelompokkan (GQA) untuk inferensi yang lebih cepat 5. Menggunakan Sliding Window Attention (SWA) untuk menangani urutan yang lebih panjang dengan biaya lebih kecil |
SkyworkAI | pekerjaan langit | - | id/zh | Dalam tolok ukur evaluasi utama, Skywork-13B berada di garis depan model open source Tiongkok dan merupakan level optimal pada skala parameter yang sama; dapat digunakan secara komersial tanpa aplikasi; ia juga memiliki kumpulan data Tiongkok sebesar 600G (150 miliar token) yang bersifat open source. |
01.AI | Yi | - | id/zh | Model seri Yi adalah model bahasa besar yang dilatih dari awal oleh pengembang di 01.AI. |
Sistem IEIT | Yuan-2.0 | - | id/zh | Dalam karya ini, Perhatian Berbasis Penyaringan Lokal (LFA) diperkenalkan untuk menggabungkan pengetahuan sebelumnya tentang ketergantungan lokal bahasa alami ke dalam Perhatian. Berdasarkan LFA, kami mengembangkan dan merilis Yuan 2.0, model bahasa besar dengan parameter berkisar antara 2,1 miliar hingga 102,6 miliar metode pemfilteran dan pembuatan data disajikan untuk membangun kumpulan data pra-pelatihan dan penyempurnaan dalam kualitas tinggi. Metode pelatihan terdistribusi dengan paralel pipa yang tidak seragam, paralel data, dan paralel pengoptimal diusulkan, yang sangat mengurangi kebutuhan bandwidth komunikasi intra-node, dan mencapai kinerja yang baik dalam pelatihan terdistribusi skala besar. Model Yuan 2.0 menampilkan kemampuan mengesankan dalam pembuatan kode, pemecahan masalah matematika, dan obrolan dibandingkan dengan model yang sudah ada. |
Nanbeige | Nanbeige | Apache-2.0 | id/zh | Nanbeige-16B adalah model bahasa 16 miliar parameter yang dikembangkan oleh Nanbeige LLM Lab. Ia menggunakan Token 2,5T untuk pra-pelatihan. Data pelatihan mencakup sejumlah besar korpus internet berkualitas tinggi, berbagai buku, kode, dll hasil yang baik pada berbagai kumpulan data evaluasi otoritatif. Rilis ini mencakup Base, Chat, Base-32k, dan Chat-32k. |
pencarian mendalam-ai | pencarian mendalam-LLM | Lisensi MIT | id/zh | model bahasa tingkat lanjut yang terdiri dari 67 miliar parameter. Model ini telah dilatih dari awal pada kumpulan data besar yang terdiri dari 2 triliun token dalam bahasa Inggris dan Mandarin. |
LLM360 | LLM360 | - | - | Sebagian besar rilis LLM sumber terbuka menyertakan bobot model dan hasil evaluasi. Namun, informasi tambahan sering kali diperlukan untuk benar-benar memahami perilaku model—dan informasi ini biasanya tidak tersedia bagi sebagian besar peneliti. hingga 360!) yang dikumpulkan selama pelatihan, semua data pelatihan (dan pemetaannya ke pos pemeriksaan), semua metrik yang dikumpulkan (misalnya, kerugian, norma gradien, hasil evaluasi), dan semua kode sumber untuk data pra-pemrosesan dan pelatihan model tambahan ini artefak dapat membantu peneliti dan praktisi untuk melihat lebih dalam proses konstruksi LLM dan melakukan penelitian seperti menganalisis dinamika model. Kami berharap LLM360 dapat membantu membuat LLM tingkat lanjut menjadi lebih transparan, mendorong penelitian di laboratorium skala kecil, dan meningkatkan reproduktifitas dalam penelitian AI. |
FDU, dll. | CT-LLM | - | zh/en | berfokus pada bahasa Tiongkok. Mulai dari awal, CT-LLM terutama menggunakan data Tiongkok dari 1.200 miliar token corpus, termasuk 800 miliar Tiongkok, 300 miliar Inggris, dan 100 miliar token kode. Dengan proses pelatihan CT-LLM yang bersumber terbuka, termasuk pemrosesan data dan Massive Appropriate Pretraining Chinese Corpus (MAP-CC), dan memperkenalkan Chinese Hard Case Benchmark (CHC-Bench), kami mendorong penelitian dan inovasi lebih lanjut, dengan tujuan untuk model bahasa yang lebih inklusif dan mudah beradaptasi. |
laboratorium harimau | PETA-NEO | - | zh/en | Model besar pertama yang bersifat open source untuk seluruh proses mulai dari pemrosesan data hingga pelatihan model dan bobot model. |
Kamp Data | DCLM | - | - | Menyediakan alat dan panduan untuk memproses data mentah, tokenisasi, pengocokan data, pelatihan model, dan evaluasi kinerja. Model dasar dasar 7B memiliki kinerja yang sangat baik. |
penyumbang | model | domain | bahasa | model dasar | fitur utama |
---|---|---|---|---|---|
UT Barat Daya/ UIUC/OSU/HDU | ObrolanDokter | medis | en | LAMA | Mungkin model obrolan khusus domain pertama yang disetel di LLaMA. |
Cambridge | Visual Med-Alpaca | biomedis | en | LLaMA-7B | model landasan multi-modal yang dirancang khusus untuk domain biomedis. |
MEMUKUL | BenTsao/ChatGLM-Med | medis | zh | LLaMA/ObrolanGLM | disesuaikan dengan kumpulan data pengetahuan medis Tiongkok, yang dihasilkan dengan menggunakan api gpt3.5. |
ShanghaiTech, dll. | DokterGLM | medis | id/zh | ObrolanGLM-6B | Model konsultasi medis Tiongkok disempurnakan pada ChatGLM-6B. |
KAMI UDARA | BioMedGPT-1.6B | biomedis | id/zh | - | model landasan molekul multi-modal terlatih dengan parameter 1,6B yang mengaitkan grafik molekul 2D dengan teks. |
@LiuHC0428 | HukumGPT_en | legal | zh | ObrolanGLM-6B | model umum dalam domain hukum Tiongkok, dilatih berdasarkan data yang dihasilkan melalui Instruksi Mandiri yang Andal. |
SJTU | MedisGPT-zh | medis | zh | ObrolanGLM-6B | model umum dalam domain medis Tiongkok, beragam data yang dihasilkan melalui instruksi mandiri. |
SJTU | PMC-LLaMA | medis | zh | LAMA | Lanjutkan Pelatihan LLaMA tentang Makalah Medis. |
Memeluk Wajah | Kode Bintang | pembuatan kode | en | - | model bahasa (LM) yang dilatih tentang kode sumber dan teks bahasa alami 80 bahasa pemrograman yang berbeda serta teks yang diekstraksi dari masalah dan komitmen GitHub dan dari buku catatan. |
@CogStack | NHS-LLM | medis | en | tidak jelas | Model percakapan untuk layanan kesehatan yang dilatih menggunakan OpenGPT. |
@pengxiao-lagu | HukumWGPT | legal | zh | LLaMA/ObrolanGLM | memperluas kosakata dengan terminologi hukum Tiongkok, menyempurnakan instruksi pada data yang dihasilkan menggunakan instruksi mandiri. |
Duxiaoman | Xuan Yuan | keuangan | zh | MEKAR-176B | Model Obrolan Keuangan Tiongkok Besar dengan Ratusan Miliar Parameter. |
CUHK | HuatuoGPT | medis | zh | tidak jelas | HuatuoGPT, model bahasa besar (LLM) yang dilatih pada korpus medis Tiongkok yang luas. Tujuan kami dengan HuatuoGPT adalah untuk membangun 'ChatGPT' yang lebih profesional untuk skenario konsultasi medis. |
PKU | Pengacara LLaMA | legal | zh | LAMA | lanjutkan pelatihan awal tentang data hukum Tiongkok, pelatihan yang disesuaikan dengan ujian hukum dan konsultasi hukum pasangan qa. |
KAMIS | Hukum Lexi | legal | zh | ObrolanGLM-6B | dilatih tentang campuran data umum (BELLE 1.5M) dan data hukum |
KAMIS, dll. | taoli | pendidikan | zh | LAMA | Sebuah model besar untuk pendidikan internasional Tiongkok. Ini memperluas kosakata khusus pada model dasar, dan menggunakan kumpulan data milik domain untuk penyesuaian instruksi. |
NU | Kambing | hitung | en | LAMA | model LLaMA yang disempurnakan dan secara signifikan mengungguli GPT-4 dalam berbagai tugas aritmatika. Diselaraskan dengan baik pada kumpulan data yang dihasilkan secara sintetis, Goat mencapai performa tercanggih pada subtugas aritmatika BIG-bench. |
CU/NYU | FinGPT | keuangan | en | - | kerangka kerja sumber terbuka ujung ke ujung untuk model bahasa besar keuangan (FinLLMs). |
microsoft | Pembuat Kode Penyihir | pembuatan kode | en | Kode Bintang | dilatih dengan 78k instruksi kode yang berevolusi melampaui Claude-Plus (+6.8) , Bard (+15.3) dan InstructCodeT5+ (+22.3) pada HumanEval Benchmarks. |
UCAS | Tumpah ruah | keuangan | zh | LAMA | menyempurnakan LLaMA tentang pengetahuan keuangan Tiongkok, |
PKU | ObrolanHukum | legal | zh | Ziya/Anima | Model domain hukum Tiongkok. |
@ michael-wzhu | ObrolanMed | medis | zh | LAMA | LLM medis Tiongkok berdasarkan LLaMA-7B. |
BANGSAT | Obrolan Jiwa | kesehatan mental | zh | ObrolanGLM-6B | Dialog Tiongkok LLM dalam domain kesehatan mental, berdasarkan ChatGLM-6B. |
@shibing624 | MedisGPT | medis | zh | ObrolanGLM-6B | Latih Model GPT Medis Anda Sendiri dengan Saluran Pelatihan ChatGPT. |
BJTU | TransGPT | angkutan | zh | LLaMA-7B | Model transportasi Cina. |
BAAI | Kode Aquila | pembuatan kode | multi | Akuila | AquilaCode-multi adalah model multi-bahasa yang mendukung pembuatan kode dengan akurasi tinggi untuk berbagai bahasa pemrograman, termasuk Python/C++/Java/Javascript/Go, dll. Ini telah mencapai hasil yang mengesankan dalam evaluasi HumanEval (Python), dengan skor Pass@1, Pass@10, dan Pass@100 masing-masing sebesar 26/45.7/71.6 evaluasi pembuatan kode multi-bahasa, kinerjanya secara signifikan mengungguli model sumber terbuka lainnya dengan parameter serupa (per 19 Juli 2023). AquilaCode-py, di sisi lain, adalah model versi Python satu bahasa yang berfokus pada pembuatan kode Python. Ini juga menunjukkan kinerja luar biasa dalam evaluasi HumanEval, dengan skor Pass@1, Pass@10, dan Pass@100 sebesar 28,8/50.6/76.9 (per 19 Juli 2023). |
Meta | KodeLLaMA | pembuatan kode | multi | LLaMA-2 | keluarga model bahasa besar untuk kode berdasarkan Llama 2 yang memberikan kinerja canggih di antara model terbuka, kemampuan pengisian, dukungan untuk konteks masukan yang besar, dan kemampuan mengikuti instruksi zero-shot untuk tugas-tugas pemrograman. |
UNSW, dll. | Darwin | ilmu alam | en | LLaMA-7B | LLM sumber terbuka pertama untuk ilmu alam, terutama di bidang fisika, kimia, dan ilmu material. |
alibaba | EcoGPT | perdagangan elektronik | id/zh | BLOOMZ | Model Bahasa Besar yang disesuaikan dengan instruksi untuk E-niaga. |
TIGER-AI-Lab | MAMMOTH | matematika | en | LLaMA2/KodeLLaMA | serangkaian model bahasa besar (LLM) sumber terbuka yang dirancang khusus untuk pemecahan masalah matematika umum. Model MAmmoTH dilatih di MathInstruct, kumpulan data penyetelan instruksi yang dikurasi dengan cermat dan ringan namun dapat digeneralisasikan. MathInstruct dikompilasi dari 13 kumpulan data dasar pemikiran matematika, enam di antaranya baru dikurasi oleh karya ini. Karya ini secara unik berfokus pada penggunaan gabungan dasar pemikiran rantai pemikiran (CoT) dan program pemikiran (PoT), dan memastikan cakupan luas dari beragam bidang matematika. |
SJTU | abel | matematika | en | LLaMA2 | Kami mengusulkan Pengawasan Orang Tua *, Strategi Pengasuhan Anak untuk Penyempurnaan yang Diawasi, Parental Oversight tidak terbatas pada metode pemrosesan data tertentu, melainkan mendefinisikan filosofi pemrosesan data yang harus memandu penyesuaian yang diawasi di era AI Generatif GAI) . |
FDU | DISC-HukumLLM | legal | zh | Baichuan-13B | FudanDISC telah merilis DISC-LawLLM, sistem hukum cerdas Tiongkok yang digerakkan oleh model bahasa besar. Sistem ini dapat menyediakan berbagai layanan hukum untuk kelompok pengguna yang berbeda. Selain itu, DISC-Law-Eval dibangun untuk mengevaluasi model bahasa hukum yang besar baik dari aspek obyektif maupun subyektif. Model ini jelas mempunyai keunggulan dibandingkan dengan model hukum besar yang sudah ada. Tim juga menyediakan kumpulan data Supervised fine-tuning (SFT) berkualitas tinggi sebanyak 300.000, DISC-Law-SFT. |
HKU, dll. | ObrolanPsikiater | kesehatan mental | en | LLaMA-7B | Repo ini menjadi sumber terbuka model LLaMA-7B yang disesuaikan dengan Instruct yang telah disesuaikan dengan data instruksi domian konseling. Untuk membuat kumpulan data penyesuaian instruksi berukuran 8K, kami mengumpulkan contoh dialog konseling dunia nyata dan menggunakan GPT-4 sebagai ekstraktor dan filter. Selain itu, kami telah memperkenalkan serangkaian metrik yang komprehensif, yang secara khusus disesuaikan dengan domain LLM+Konseling, dengan memasukkan kriteria evaluasi konseling domain. Metrik ini memungkinkan penilaian kinerja dalam menghasilkan konten bahasa yang melibatkan keterampilan konseling multidimensi. |
KAS | Bisikan Bintang | astronomis | zh | - | StarWhisper, model astronomi besar, secara signifikan meningkatkan logika penalaran dan integritas model melalui penyesuaian korpus astrofisika yang diberi label oleh para ahli, pelatihan teks panjang yang logis, dan optimalisasi preferensi langsung. Dalam CG-Eval yang diterbitkan bersama oleh Keguei AI Research Institute dan LanguageX AI Lab, ia mencapai posisi kedua secara keseluruhan, tepat di bawah GPT-4, dan penalaran matematis serta kemampuan astronominya mendekati atau melampaui GPT 3.5 Turbo. |
ZhiPuAI | FinGLM | keuangan | zh | ObrolanGLM | solusi SMP2023-ELMFT (Evaluasi Model Besar Teknologi Keuangan). |
PKU, dll. | CodeShell | pembuatan kode | id/zh | - | CodeShell adalah model bahasa kode besar (LLM) yang dikembangkan bersama oleh Knowledge Computing Lab di Universitas Peking dan tim AI dari Sichuan Tianfu Bank. dilatih pada 500 miliar token, dan memiliki panjang jendela konteks 8192. Pada tolok ukur evaluasi kode otoritatif (HumanEval dan MBPP), CodeShell mencapai kinerja terbaik untuk model skalanya. |
FDU | DISC-FinLLM | keuangan | zh | Baichuan-13B-Obrolan | DISC-FinLLM adalah model bahasa besar di bidang keuangan. Ini adalah sistem keuangan cerdas multi-ahli yang terdiri dari empat modul untuk skenario keuangan berbeda: konsultasi keuangan, analisis teks keuangan, perhitungan keuangan, dan pengambilan pengetahuan keuangan serta menjawab pertanyaan. |
Pencarian mendalam | Pencarian mendalam Koder | pembuatan kode | id/zh | - | Deepseek Coder terdiri dari serangkaian model bahasa kode yang dilatih pada 87% kode dan 13% bahasa alami dalam bahasa Inggris dan Mandarin, dengan masing-masing model telah dilatih sebelumnya pada token 2T. Untuk kemampuan pengkodean, Deepseek Coder mencapai kinerja tercanggih di antara model kode sumber terbuka pada berbagai bahasa pemrograman dan berbagai tolok ukur. |
microsoft | MatematikaOctopus | matematika | multi | LLaMA2 | Pekerjaan ini memelopori eksplorasi dan membangun LLM Multilingual Math Reasoning (xMR) yang kuat. Untuk mencapai hal ini, kami membuat karya berikut: 1. MGSM8KInstruct , kumpulan data instruksi penalaran matematika multibahasa pertama, yang mencakup sepuluh bahasa berbeda, sehingga mengatasi masalah kelangkaan data pelatihan dalam tugas xMR. 2. MSVAMP , kumpulan data pengujian xMR di luar domain, untuk melakukan evaluasi yang lebih mendalam dan komprehensif terhadap kemampuan matematika multibahasa model. 3. MathOctopus , LLM Penalaran Matematika Multibahasa kami yang efektif, berlatih dengan strategi berbeda, yang secara khusus mengungguli LLM sumber terbuka konvensional dan menunjukkan keunggulan dibandingkan ChatGPT dalam beberapa skenario. |
ITREC | Zh-MT-LLM | maritim | id/zh | ObrolanGLM3-6b | Data pelatihan menggunakan data domain maritim Zh-mt-sft yang disusun untuk tiga segmen utama, dan data percakapan umum 30w Zh-mt-sft secara khusus Berisi CrimeKgAssitant-1.8w, Zh-law-qa, dan. Zh-law-court terkait hukum dan peraturan maritim Tanya Jawab, Zh-edu-qa dan Zh-edu-qb terkait dengan pendidikan dan pelatihan maritim, dan Zh-mt-qa terkait dengan Tanya Jawab pengetahuan khusus maritim. |
@SmartFlowAI | EmoLLM | kesehatan mental | zh | - | EmoLLM adalah serangkaian model kesehatan mental besar yang dapat mendukung pemahaman pengguna - mendukung pengguna - membantu pengguna tautan konseling kesehatan mental, disesuaikan dari instruksi LLM . |
beberapa model medis: di sini
beberapa domain llms: Awesome-Domain-LLM
model penyembuhan: Model-Yayasan-Perawatan-Kesehatan yang Luar Biasa
penyumbang | model/proyek | bahasa | model dasar | fitur utama |
---|---|---|---|---|
Stanford | alpaka | en | LLaMA/OPT | menggunakan 52 ribu data mengikuti instruksi yang dihasilkan oleh teknik Self-Instructt untuk menyempurnakan 7B LLaMA, model yang dihasilkan, Alpaca, berperilaku serupa dengan model text-davinci-003 pada rangkaian evaluasi mengikuti instruksi Self-Instruct.Alpaca telah menginspirasi banyak model lanjutan. |
LianJiaTech | BELLE | id/zh | BLOOMZ-7B1-mt | mungkin model Tiongkok pertama yang mengikuti Alpaca. |
KAMIS | ObrolanGLM-6B | id/zh | - | model Cina yang terkenal. |
Databricks | Boneka | en | GPT-J 6B | menggunakan data Alpaca untuk menyempurnakan model berusia 2 tahun: GPT-J, yang menunjukkan kualitas sangat tinggi perilaku mengikuti instruksi yang bukan merupakan karakteristik model dasar yang mendasarinya. |
@tloen | Alpaka-LoRA | en | LLaMA-7B | dilatih dalam beberapa jam pada satu RTX 4090, mereproduksi hasil Stanford Alpaca menggunakan adaptasi peringkat rendah (LoRA), dan dapat berjalan di Raspberry pi. |
AI Kolosal | Lapisan7B | id/zh | LLaMA-7B | model bahasa besar yang dikembangkan oleh proyek ColossalChat |
Laboratorium AI Shanghai | Adaptor LLaMA | en | LLaMA-7B | Menyempurnakan LLaMA untuk mengikuti instruksi dalam 1 Jam dan 1,2 Juta Parameter |
AetherCortex | Llama-X | en | LAMA | Penelitian Akademik Terbuka tentang Peningkatan LLaMA menjadi SOTA LLM. |
Bersama Komputer | BukaChatKit | en | GPT-NeoX-20B | OpenChatKit menyediakan basis sumber terbuka yang kuat untuk membuat chatbot khusus dan tujuan umum untuk berbagai aplikasi. Kit ini mencakup model bahasa yang disesuaikan dengan instruksi, model moderasi, dan sistem pengambilan yang dapat diperluas untuk disertakan tanggapan terkini dari repositori khusus. |
nomik-ai | GPT4Semua | en | LAMA | dilatih tentang kumpulan besar data asisten bersih termasuk kode, cerita, dan dialog |
@ymcui | Cina-LLaMA-Alpaca | id/zh | LLaMA-7B/13B | memperluas kosakata bahasa Mandarin berdasarkan LLaMA asli dan menggunakan data bahasa Mandarin untuk pra-pelatihan sekunder, lebih meningkatkan pemahaman semantik dasar bahasa Mandarin. Selain itu, proyek ini menggunakan data instruksi bahasa Mandarin untuk penyempurnaan berdasarkan LLaMA Tiongkok, yang secara signifikan meningkatkan pemahaman model dan pelaksanaan instruksi. |
UC Berkeley Stanford CMU | Vicuna | en | LLaMA-13B | GPT-4 yang mengesankan dengan Kualitas ChatGPT 90%. |
UCSD/SYSU | kain tebal dr wol kasar | id/zh | LAMA | disempurnakan dengan LoRA. Ia menggunakan 100 ribu dialog yang dihasilkan dengan membiarkan ChatGPT mengobrol sendiri. Data Alpaca juga digunakan untuk meningkatkan kinerjanya. |
UC Berkeley | Koala | en | LAMA | Daripada memaksimalkan kuantitas dengan mengumpulkan data web sebanyak mungkin, tim fokus pada pengumpulan kumpulan data kecil berkualitas tinggi . |
@imClumsyPanda | langchain-ChatGLM | id/zh | ObrolanGLM-6B | ChatGLM berbasis pengetahuan lokal dengan langchain. |
@yangjianxin1 | Kunang-kunang | zh | mekar-1b4-zh mekar-2b6-zh | Penyetelan Instruksi pada kumpulan data bahasa Mandarin. Pemangkasan kosakata, ZeRO, dan paralelisme tensor digunakan untuk secara efektif mengurangi konsumsi memori dan meningkatkan efisiensi pelatihan. |
microsoft | GPT-4-LLM | id/zh | LAMA | bertujuan untuk berbagi data yang dihasilkan oleh GPT-4 untuk membangun LLM yang mengikuti instruksi dengan pembelajaran yang diawasi dan pembelajaran penguatan. |
Memeluk Wajah | TumpukanLLaMA | en | LAMA | dilatih tentang data StackExchange dan tujuan utamanya adalah sebagai tutorial dan panduan cara melatih model dengan RLHF dan bukan performa model utama. |
Nebula | ObrolanLLaMA | en | - | perpustakaan yang memungkinkan Anda membuat asisten mirip ChatGPT yang sangat dipersonalisasi menggunakan data Anda sendiri dan jumlah komputasi sesedikit mungkin. |
@juncongmoo | ObrolanLLaMA | en | LAMA | Model RLHF berbasis LLaMA, dapat dijalankan dalam satu GPU. |
@juncongmoo | minichatgpt | en | GPT/PISAH... | Untuk Melatih ChatGPT Dalam 5 Menit dengan ColossalAI. |
@LC1332 | Luotuo-Cina-LLM | zh | LLaMA/ObrolanGLM | Instruksi Model Bahasa Mandarin yang disempurnakan, dengan colab disediakan! |
@Facico | Cina-Vicuna | zh | LAMA | Model berbasis LLaMA yang mengikuti Instruksi Tiongkok, disempurnakan dengan Lora, didukung inferensi cpp, disediakan colab. |
@yanqiangmiffy | InstruksikanGLM | id/zh | ObrolanGLM-6B | Model mengikuti instruksi berbasis ChatGLM, disesuaikan pada berbagai sumber data, mendukung akselerasi kecepatan dalam dan LoRA. |
alibaba | Wombat | en | LAMA | sebuah paradigma pembelajaran baru yang disebut RRHF, sebagai alternatif dari RLHF, diusulkan, yang menilai respons yang dihasilkan oleh kebijakan pengambilan sampel yang berbeda dan belajar menyelaraskannya dengan preferensi manusia melalui penurunan peringkat dan kinerja sebanding dengan RLHF, dengan lebih sedikit model yang digunakan dalam prosesnya. |
@WuJunde | alpaca-glassoff | en | LAMA | Chat AI mini yang dapat diterima gambar dapat berjalan di laptop Anda sendiri, berdasarkan stanford-alpaca dan alpaca-lora. |
@JosephusCheung | guanaco | multi | LLaMA-7B | Model Bahasa Mengikuti Instruksi Multibahasa. |
@FreedomIntelligence | Kebun Binatang LLM | multi | BLOOMZ/LLaMA | sebuah proyek yang menyediakan data, model, dan tolok ukur evaluasi untuk model bahasa besar. model yang dirilis: Phoenix, Chimera |
SZU | Linly | id/zh | LAMA | memperluas kosa kata bahasa Mandarin , model yang disempurnakan sepenuhnya, model bahasa Mandarin berbasis LLaMA terbesar, agregasi data instruksi bahasa Mandarin, detail yang dapat direproduksi.. |
@lamini-ai | lamini | multi | - | generator data untuk menghasilkan instruksi untuk melatih LLM yang mengikuti instruksi. |
Stabilitas-AI | StabilVicuna | en | LAMA | instruksi lebih lanjut versi Vicuna v0 13b yang disetel dengan baik dan dilatih RLHF, dengan kinerja lebih baik daripada Vicuna. |
Memeluk Wajah | MemelukObrolan | en | LAMA | tampaknya menjadi yang pertama tersedia untuk diakses sebagai platform yang tampak mirip dengan ChatGPT. |
microsoft | PenyihirLM | en | LAMA | dilatih dengan 70 ribu instruksi yang berevolusi, Evol-Instruct adalah metode baru yang menggunakan LLM alih-alih manusia untuk memproduksi secara massal secara otomatis instruksi domain terbuka dari berbagai tingkat kesulitan dan rentang keterampilan, untuk meningkatkan kinerja LLM. |
FDU | BukaCinaLLaMA | id/zh | LLaMA-7B | lebih lanjut melatih LLaMA pada data Tiongkok, meningkatkan kinerja LLaMA pada tugas-tugas Tiongkok. |
@chenfeng357 | terbuka-Cina-ObrolanLLaMA | id/zh | LAMA | Kode pelatihan lengkap model Chinese-Llama sumber terbuka, termasuk proses lengkap dari instruksi pra-pelatihan dan RLHF. |
@FSoft-AI4Code | KodeCapybara | en | LAMA | Model LLaMA Sumber Terbuka yang Mengikuti Penyetelan Instruksi untuk Pembuatan Kode. |
@mbzuai-nlp | LaMini-LM | en | LLaMA/Flan-T5... | Beragam Model Sulingan dari Instruksi Skala Besar. |
NTU | Panda | id/zh | LAMA | pelatihan awal lebih lanjut tentang data Tiongkok, model LLaMA ukuran penuh. |
IBM/CMU/MIT | Dromedaris | en | LLaMA-65B | Penyelarasan Diri Berbasis Prinsip Model Bahasa dari Awal dengan Pengawasan Manusia yang Minimal. |
@melodysdreamj | PenyihirVicunaLM | multi | Vicuna | Kumpulan data Wizard + ekstensi percakapan ChatGPT + metode penyetelan Vicuna, mencapai peningkatan kinerja sekitar 7% dibandingkan Vicuna. |
sistem sambanova | Obrolan BLOOM | multi | BUNGA | BLOOMChat adalah model obrolan multibahasa dengan 176 miliar parameter. Ini adalah instruksi yang disetel dari BLOOM (176B). kumpulan data percakapan bergaya asisten dan mendukung percakapan, menjawab pertanyaan, dan jawaban generatif dalam berbagai bahasa. |
TII | Falcon-7B-Instruksikan | en | Elang-7B | model khusus dekoder kausal parameter 7B yang dibuat oleh TII berdasarkan Falcon-7B dan disempurnakan pada campuran kumpulan data obrolan/instruksi. |
TII | Falcon-40B-Instruksikan | multi | Elang-40B | model khusus dekoder kausal parameter 40B yang dibuat oleh TII berdasarkan Falcon-40B dan disempurnakan pada campuran Baize. |
USTC, dll. | AhliLLaMA | en | LAMA | gunakan Pembelajaran Dalam Konteks untuk secara otomatis menulis identitas ahli yang disesuaikan dan menemukan kualitasnya cukup memuaskan. Kami kemudian menambahkan identitas ahli yang sesuai ke setiap instruksi untuk menghasilkan data tambahan setelah instruksi. Kami menyebut kerangka keseluruhan sebagai ExpertPrompting , temukan detail lebih lanjut di makalah kami. |
ZJU | CaMA | id/zh | LAMA | dilatih lebih lanjut dalam kursus bahasa Mandarin tanpa perluasan kosa kata yang dioptimalkan pada tugas-tugas Ekstraksi Informasi (IE). skrip pra-pelatihan tersedia, yang mencakup transformasi, konstruksi, dan pemuatan corpora skala besar, serta skrip penyempurnaan instruksi LoRA. |
KAMIS | Obrolan Ultra | en | LAMA | Pertama, kumpulan data UltraChat menyediakan sumber daya yang kaya untuk pelatihan chatbot. Kedua, dengan menyempurnakan model LLaMA, para peneliti berhasil menciptakan model dialog UltraLLaMA dengan kinerja yang unggul. |
RUC | YuLan-Obrolan | id/zh | LAMA | dikembangkan berdasarkan penyempurnaan LLaMA dengan instruksi bahasa Inggris dan Cina berkualitas tinggi. |
AI2 | Tulu | en | LLaMA/Pythia/OPT | serangkaian model LLaMa yang sepenuhnya disempurnakan berdasarkan kumpulan data yang kuat. |
KAIST | Biaya Mandiri | en | LAMA | LLM Revisi Mandiri Berulang Diberdayakan oleh Generasi Umpan Balik Mandiri. |
@lyogavin | animasi | id/zh | LAMA | dilatih berdasarkan guanaco 33B QLoRA, disempurnakan untuk 10.000 langkah. |
KAMIS | ObrolanGLM2-6B | id/zh | - | ChatGLM 2 -6B adalah versi generasi kedua dari model obrolan bilingual sumber terbuka (Cina-Inggris) ChatGLM-6B. Ini mempertahankan alur percakapan yang lancar dan ambang penerapan yang rendah dari model generasi pertama, sekaligus memperkenalkan fitur-fitur baru berikut: -Kinerja Lebih Kuat - Konteks yang Lebih Panjang - Inferensi Lebih Efisien - Lisensi Lebih Terbuka |
Obrolan Terbuka | Obrolan Terbuka | en | LLaMA, dll. | serangkaian model bahasa sumber terbuka yang disesuaikan dengan kumpulan data percakapan multi-putaran yang kecil, namun beragam, dan berkualitas tinggi. Secara khusus, kami hanya menggunakan ~6K percakapan GPT-4 yang difilter langsung dari ~90K percakapan ShareGPT. Meskipun ukuran datasetnya kecil, OpenLLM telah menunjukkan kinerja yang luar biasa. |
KAS | BayLing | multi | LAMA | BayLing adalah LLM Inggris/Cina yang dilengkapi dengan penyelarasan bahasa tingkat lanjut, menunjukkan kemampuan unggul dalam generasi bahasa Inggris/Cina, mengikuti instruksi dan interaksi multi-putaran. |
stabilitasai | BebasWilly/BebasWilly2 | en | LLaMA/LLaMA2 | FreeWilly adalah model Llama65B yang disempurnakan pada Kumpulan Data gaya Orca.FreeWilly2 adalah model Llama2 70B yang disempurnakan pada Kumpulan Data gaya Orca.FreeWilly2 mengungguli Llama2 70B di papan peringkat LLM Terbuka berpelukan. |
alibaba | Qwen-7B | id/zh | - | Versi parameter 7B dari seri model bahasa besar, Qwen (disingkat Tongyi Qianwen), diusulkan oleh Alibaba Cloud. |
ZJU | TahuLM | id/zh | LAMA | Dengan pesatnya perkembangan teknologi pembelajaran mendalam, model bahasa besar seperti ChatGPT telah membuat kemajuan besar dalam bidang pemrosesan bahasa alami. Namun model ekspansif tersebut masih menemui beberapa tantangan dalam memperoleh dan memahami pengetahuan, antara lain sulitnya memperbarui pengetahuan dan potensi pengetahuan perbedaan dan bias, yang secara kolektif dikenal sebagai kekeliruan pengetahuan . Proyek KnowLM berupaya untuk mengatasi masalah ini dengan meluncurkan kerangka kerja model bahasa berpengetahuan berskala besar yang bersifat sumber terbuka dan merilis model yang sesuai. |
BARU | TeknologiGPT | id/zh | LAMA | TechGPT terutama memperkuat tiga jenis tugas berikut: - Berbagai tugas ekstraksi informasi seperti ekstraksi triplet relasi dengan "konstruksi grafik pengetahuan" sebagai intinya - Berbagai tugas tanya jawab cerdas yang berpusat pada "pemahaman bacaan". - Berbagai tugas pembuatan urutan seperti pembuatan kata kunci dengan "pemahaman teks" sebagai intinya. |
@MiuLab | Taiwan-LLaMa | id/zh | LLaMA2 | LLM Cina Tradisional untuk Taiwan. |
Xwin-LM | Xwin-LM | en | LLaMA2 | Xwin-LM bertujuan untuk mengembangkan dan teknologi penyelarasan sumber terbuka untuk model bahasa besar, termasuk penyempurnaan yang diawasi (SFT), model penghargaan (RM), pengambilan sampel penolakan, pembelajaran penguatan dari umpan balik manusia (RLHF), dll. Rilis pertama kami, dibangun berdasarkan Model dasar Llama2, menduduki peringkat TOP-1 di AlpacaEval. Khususnya, ini adalah model pertama yang melampaui GPT-4 pada benchmark ini. |
penelitian wenge | Yayi | id/zh | LLaMA/LLaMA2 | YaYi telah menyempurnakan jutaan data domain berkualitas tinggi yang dibuat secara artifisial. Data pelatihan ini mencakup lima domain utama: publisitas media, analisis opini publik, keselamatan publik, pengendalian risiko keuangan, dan tata kelola kota, yang mencakup lebih dari seratus tugas pengajaran bahasa alami. |
Memeluk Wajah | angin barat | en | Mistral | Zephyr adalah serangkaian model bahasa yang dilatih untuk bertindak sebagai asisten yang berguna. Zephyr-7B-α adalah model pertama dalam seri ini, dan merupakan versi yang telah disempurnakan mistralai/Mistral-7B-v0.1 yang dilatih tentang campuran kumpulan data sintetis yang tersedia untuk umum menggunakan Direct Preference Optimization (DPO). |
Berpadu | Perintah-R / Perintah R+ | multi | - | Command-R memiliki kemampuan generasi multibahasa yang dievaluasi dalam 10 bahasa dan kemampuan RAG yang berkinerja tinggi. |
XAI | grok | en | - | 314B MoE; panjang konteks: 8192 |
databricks | dbrx-instruksikan | - | - | arsitektur campuran ahli (MoE) yang terperinci dengan total parameter 132B dan 36B parameter aktif pada input apa pun. Ini telah dilatih sebelumnya pada 12T token data teks dan kode Dibandingkan dengan model MoE terbuka lainnya seperti Mixtral- 8x7B dan Grok-1, DBRX berbutir halus, artinya menggunakan lebih banyak pakar yang lebih kecil. DBRX memiliki 16 pakar dan memilih 4, sementara Mixtral-8x7B dan Grok-1 memiliki 8 ahli dan memilih 2. |
penyumbang | model/metode | fitur utama | fitur utama |
---|---|---|---|
FuseAI | Obrolan Fuse | Pertama, ia melakukan fusi pengetahuan berpasangan untuk LLM sumber untuk mendapatkan beberapa LLM target dengan struktur dan ukuran yang identik melalui penyesuaian ringan. Kemudian, LLM target ini digabungkan dalam ruang parameter, di mana kami mengusulkan metode baru VaRM untuk menentukan bobot penggabungan. berdasarkan rasio variasi matriks parameter sebelum dan sesudah fine-tuning. | perpaduan tiga LLM chat terkemuka dengan arsitektur dan skala beragam, yaitu NH2-Mixtral-8x7B, NH2-Solar-10.7B, dan OpenChat-3.5-7B. FuseChat-7B-VaRM mencapai kinerja rata-rata 8,22 di MT-Bench, mengungguli berbagai LLM obrolan canggih pada skala 7B dan 34B seperti Starling-7B dan Yi-34B-Chat, bahkan melampaui GPT-3.5 (Maret), Claude-2.1, dan mendekati Mixtral-8x7B-Instruct. |
arcee-ai | penggabungan | Alat untuk menggabungkan model bahasa besar yang telah dilatih sebelumnya. | |
SakanaAI | EvoLLM | Optimasi Evolusioner dari Resep Penggabungan Model. |
(mungkin penerusnya?)
penyumbang | metode | fitur utama |
---|---|---|
BerkedipDL | RWKV-LM | RWKV adalah RNN dengan performa LLM tingkat transformator. Dapat langsung dilatih seperti GPT (dapat diparalelkan). Jadi ini menggabungkan yang terbaik dari RNN dan transformator - kinerja hebat, inferensi cepat, hemat VRAM, pelatihan cepat, ctx_len "tak terbatas", dan penyematan kalimat gratis. |
msra | RetNet | Secara bersamaan mencapai paralelisme pelatihan, inferensi berbiaya rendah, dan kinerja yang baik. Kemudian kami mengusulkan mekanisme retensi untuk pemodelan urutan, yang mendukung tiga paradigma perhitungan, yaitu, paralel, berulang, dan berulang. Secara khusus, representasi paralel memungkinkan untuk pelatihan paralelisme . Latensi, dan memori GPU tanpa mengorbankan kinerja. di mana setiap chunk disandikan parallelly sementara secara berulang merangkum potongan. Pelatihan paralel, penyebaran berbiaya rendah, dan inferensi yang efisien. |
Stanford | Bapcpack | Abackpack adalah pengganti drop-in untuk transformator yang menyediakan alat baru untuk interpretability-through-control sambil tetap memungkinkan model bahasa yang kuat. Ransel menguraikan makna prediktif dari kata-kata menjadi komponen non-kontekstual, dan menggabungkannya dengan jumlah tertimbang, memungkinkan intervensi yang tepat dan dapat diprediksi. |
Stanford, dll. | Monarch Mixer (M2) | Ide dasarnya adalah untuk mengganti elemen utama transformator dengan matriks monarch-yang merupakan kelas matriks terstruktur yang menggeneralisasi FFT dan sub-kuadratik, Hardware-efisien, dan ekspresif. |
CMU, dll. | Mamba | Mamba adalah arsitektur model ruang negara baru yang menunjukkan kinerja yang menjanjikan pada data padat informasi seperti pemodelan bahasa, di mana model subquadratic sebelumnya gagal dari transformator. dan implementasi dalam semangat flashattention. |
Bersama Computer | Stripedhyena | Stripedhyena adalah model alternatif pertama yang kompetitif dengan transformator open-source terbaik dengan ukuran yang sama dalam evaluasi pendek dan konteks panjang. Stripedhyena adalah arsitektur hibrida yang terdiri dari perhatian multi-head, dikelompokkan dan berkumpulnya konvolusi yang disusun di inhyena blok, berbeda dari transformer khusus dekoder tradisional. 1. Dekoding memori costant dalam blok hyena melalui representasi konvolusi sebagai model ruang negara (modal atau bentuk kanonik), atau sebagai filter terpotong. 2. Latensi rendah, decoding lebih cepat dan throughput yang lebih tinggi daripada transformer. 3. Peningkatan undang-undang penskalaan pelatihan dan inferensi-open, dibandingkan dengan arsitektur transformator yang dioptimalkan seperti LLAMA-2. 4. Dilatih pada urutan hingga 32k, memungkinkannya untuk memproses permintaan yang lebih lama. |
microsoft | BGPT | BGPT mendukung pemodelan generatif melalui prediksi byte berikutnya pada semua jenis data dan dapat melakukan tugas apa pun yang dapat dieksekusi pada komputer, menunjukkan kemampuan untuk mensimulasikan semua kegiatan dalam dunia digital, dengan potensi hanya dibatasi oleh sumber daya komputasi dan imajinasi kami. |
DeepMind | Griffin-jax | Implementasi Jax + Flax dari TheGriffin: mencampur kekambuhan linier yang terjaga keamanannya dengan perhatian lokal untuk model bahasa yang efisien, bukan kode resmi (kode resmi belum dirilis); Lapisan RG-LRU, lapisan berulang linier yang berpagar baru, di mana kami merancang blok berulang baru untuk menggantikan MQA. model hibrida yang menyela MLP dengan campuran blok berulang dan perhatian lokal Griffin-3b mengungguli Mamba-3b, dan Griffin-7b dan Griffin-14b mencapai kompetitif kinerja dengan LLAMA-2, meskipun dilatih pada hampir 7 kali lebih sedikit token; |
AI21 | Jamba | Jamba adalah implementasi Mamba skala produksi pertama. hingga 140k token pada GPU 80GB tunggal. |
Meta | Megalodon | Megalodon mewarisi arsitektur mega (eksponensial bergerak rata-rata dengan perhatian terjaga keamanannya), dan selanjutnya memperkenalkan beberapa komponen teknis untuk meningkatkan kemampuan dan stabilitasnya, termasuk rata-rata bergerak eksponensial kompleks (CEMA), lapisan normalisasi waktu, mekanisme perhatian yang dinormalisasi dan pra-norma dengan dua -Hop Konfigurasi Residual. |
penyumbang | model/proyek | fitur utama |
---|---|---|
Mistralai | Mixtral-8x7b | Model Bahasa Besar Mixtral-8x7b (LLM) adalah campuran generatif pretrained dari para ahli. |
Shanghai Ai Lab, dll. | Llama-moe | Model MOE yang kecil dan terjangkau berdasarkan Llama dan Slimpajama. |
Nus, dll. | OpenMoe | Keluarga model bahasa besar campuran (MOE) yang bersumber dari (MOE). |
Kepingan salju | Arktik | Arctic menggunakan arsitektur transformator hibrida yang unik. |
penyumbang | proyek | bahasa | model dasar | fitur utama |
---|---|---|---|---|
Baihaaiien | IDPChat | en/zh | LLaMA-13B Difusi Stabil | Model multi-modal Cina terbuka, GPU tunggal yang dapat digunakan, mudah digunakan, disediakan UI. |
Kaust | MiniGPT-4 | en/zh | LAMA | Minigpt-4 menyelaraskan encoder visual beku dari blip-2 dengan llm beku, vicuna, hanya menggunakan satu lapisan proyeksi, dan menghasilkan banyak kemampuan bahasa penglihatan yang muncul mirip dengan yang ditunjukkan dalam GPT-4. |
MSR, dll. | Llava | en | LAMA | Tuning instruksi visual diusulkan, untuk membangun model bahasa dan visi yang besar dengan kemampuan level GPT-4. |
Nus/thu | VPGTRAN | en | Llama/opt/ Flan-T5/Blip-2 ... | Mentransfer VPG melintasi LLMS untuk membangun VL-LLM dengan biaya yang jauh lebih rendah Dapat dikurangi lebih dari 10 kali dan data pelatihan dapat dikurangi menjadi sekitar 10%. Dua novel VL-LLM dirilis melalui VPGTRAN, termasuk VL-Llama dan VL-Vicuna . VL-LlAMA adalah versi multimodal llama dengan mentransfer blip-2 opt-6.7b ke llama melalui vpgtrans. VL-Vicuna adalah chatbot multimodal seperti GPT-4, berdasarkan Vicuna LLM. |
Cas, dll. | X-llm | en/zh | ObrolanGLM-6B | X-LLM mengubah multi-modalitas (gambar, ucapan, video) menjadi bahasa asing menggunakan antarmuka X2L dan memberi makan mereka Model bahasa besar (chatglm) untuk mencapai LLM multimodal, mencapai kemampuan obrolan multimodal yang mengesankan. |
NTU | Berang-berang | en | Buka Flamingo | Model multi-modal berdasarkan OpenFlamingo (versi open-source dari DeepMind's Flamingo), dilatih pada mimic-it dan menampilkan peningkatan kemampuan mengikuti instruksi dan pembelajaran dalam konteks. Futhermore, optimalkan implementasi OpenFlamingo, mendemokratisasi yang diperlukan Sumber daya pelatihan dari 1x A100 GPU hingga 4X RTX-3090 GPU. |
Xmu | Lavin | en | LAMA | mengusulkan solusi baru dan terjangkau untuk penyetelan instruksi-bahasa, yaitu adaptasi campuran-modalitas (MMA). Khususnya, MMA adalah rezim optimisasi ujung-ke-ujung, yang menghubungkan encoder gambar dan LLM melalui adaptor ringan. Sementara itu, kami juga mengusulkan algoritma routing baru di MMA, yang dapat membantu model secara otomatis menggeser jalur penalaran untuk instruksi tunggal dan multi-modal. |
USTC | Burung pelatuk | - | - | Pekerjaan pertama untuk memperbaiki halusinasi dalam model bahasa multimoda besar. |
HPCaitech | Open-Sora | - | - | Alternatif open source untuk Openai Sora. |
Lihat juga: Model berbahasa multimodal-besar
penyumbang | Data/Proyek | bahasa | fitur utama |
---|---|---|---|
Bersama Computer | Redpajama-data | en | Resep open source untuk mereproduksi dataset pelatihan llama. |
@tukang emas | Wikipedia | multi | Pembungkus Pythonic untuk Wikipedia API. |
Lihat Pengumpulan Data Alpaca-Cot
penyumbang | data | bahasa | fitur utama |
---|---|---|---|
tenaga penjualan | Dialogstudio | en | Dialogstudio: Menuju koleksi dataset terpadu terkaya dan paling beragam dan model-model sadar-instruksi untuk AI percakapan. |
penyumbang | metode | fitur utama |
---|---|---|
UW, dll. | instruksi diri | Menggunakan generasi model sendiri untuk membuat koleksi besar data pengajaran. |
@Liuhc0428 | Instruksi-selfself-andal | Gunakan chatgpt untuk menghasilkan beberapa pertanyaan dan jawaban berdasarkan teks yang diberikan. |
PKU | Evol-Instruksikan | Metode baru, yang diusulkan inwizardlm, dengan menggunakan LLMS bukan manusia untuk secara otomatis memproduksi domain terbuka secara massal Instruksi berbagai tingkat kesulitan dan jangkauan keterampilan, untuk meningkatkan kinerja LLMS. |
Kaust, dll. | UNTA | Kerangka kerja agen komunikatif baru bernama bermain peran diusulkan, yang melibatkan penggunaan awal yang diminta untuk memandu agen obrolan Menuju penyelesaian tugas sambil mempertahankan konsistensi dengan niat manusia. Playing peran dapat digunakan untuk menghasilkan data percakapan dalam tugas/domain tertentu. |
@Chatarena | Chatarena | Perpustakaan yang menyediakan lingkungan permainan bahasa multi-agen dan memfasilitasi penelitian tentang agen LLM otonom dan interaksi sosial mereka. Ini memberikan kerangka kerja yang fleksibel untuk mendefinisikan banyak pemain, lingkungan dan interaksi di antara mereka, berdasarkan proses keputusan Markov. |
penyumbang | metode | fitur utama |
---|---|---|
- | evaluasi manusia | - |
OpenAI | GPT-4/CHATGPT | - |
PKU/CMU/MSRA ... | Pandalm | Penilaian model bahasa yang dapat direproduksi dan otomatis. |
UCB | Chatbot Arena | Mengobrol dengan dua model anonim berdampingan dan memilih yang lebih baik, Kemudian gunakan sistem peringkat ELO untuk menghitung kinerja relatif model. |
Stanford | AlpakaEval | GPT-4/CLAUDE EVALUASI ONALPACAFARM Dataset. |
Clueai | Supercluelyb | Versi Cina OfChatbot Arena yang dikembangkan oleh Clueai. |
Sjtu, dll. | Auto-j | Hakim generatif sumber terbuka baru yang dapat secara efektif mengevaluasi LLM yang berbeda tentang bagaimana mereka menyelaraskan dengan preferensi manusia. |
CMU | Codebertscore | Metrik otomatis untuk pembuatan kode, berdasarkan Bertscore. Sebagai Bertscore, CodebertScore memanfaatkan embeddings kontekstual yang terlatih dari model seperti Codebert dan mencocokkan kata-kata dalam kandidat dan kalimat referensi dengan kesamaan kosinus. Berbeda dari Bertscore, CodebertScore juga mengkodekan input bahasa alami atau konteks lain bersama dengan kode yang dihasilkan, tetapi tidak menggunakan konteks itu untuk menghitung kesamaan cosinus. |
Status evaluasi model besar domestik saat ini
penyumbang | tolok ukur | fitur utama |
---|---|---|
Princeton | bangku SWE | Benchmark untuk mengevaluasi model bahasa besar pada masalah perangkat lunak dunia nyata yang dikumpulkan dari GitHub . Model bahasa ditugaskan untuk menghasilkan tambalan yang menyelesaikan masalah yang dijelaskan. |
microsoft | AGIEval | Tolok ukur manusia-sentris yang dirancang khusus untuk mengevaluasi kemampuan umum model yayasan dalam tugas yang berkaitan dengan kognisi manusia dan pemecahan masalah. |
Clueai | SUPERCLUE-AGEN | Benchmark evaluasi agen berdasarkan tugas asli Cina. |
bytetansi | GPT-FATHOM | GPT-Fathom adalah rangkaian evaluasi LLM sumber terbuka dan dapat direproduksi, membandingkan 10+ Sumber Terbuka dan Sumber Tertutup LLMs serta model Openai sebelumnya pada 20+ tolok ukur dikuratori di bawah pengaturan yang selaras. |
OpenCompass, Huggingface
penyumbang | proyek | fitur utama |
---|---|---|
KAS | Alpaka-CoT | Perluas data COT ke Alpaca untuk meningkatkan kemampuan penalarannya. Bertujuan untuk membangun platform instruksi finetuning (IFT) dengan koleksi instruksi yang luas (terutama dataset COT) dan antarmuka terpadu untuk berbagai model bahasa besar. |
@Hiyouga | Tuning yang efisien chatglm | CHATGLM-6B fine-tuning yang efisien dengan PEFT. |
@Hiyouga | Llama-efisien-tuning | Fine-tuning llama dengan peft (pt+sft+rlhf dengan qlora). |
@Jianzhnie | Efisien-tuning-llms | Finetuning yang efisien dari Qlora LLMS. |
AI Kolosal | Obrolan Kolosal | Solusi biaya rendah open-source untuk CloningChatgpt dengan pipa RLHF lengkap. |
microsoft | DEEK-CHAT DEEP | Pelatihan RLHF yang mudah, cepat dan terjangkau dari model seperti chatgpt di semua skala. |
Laion-ai | Buka Asisten | Sebuah proyek yang dimaksudkan untuk memberi semua orang akses ke model bahasa besar berbasis obrolan yang hebat. |
HKUST | Lmflow | Kotak alat yang dapat diperluas, nyaman, dan efisien untuk finetuning model pembelajaran mesin besar, Dirancang agar ramah pengguna, cepat dan dapat diandalkan, dan ACC Memperluas
Informasi Tambahan
Aplikasi Terkait
Direkomendasikan untuk Anda
Informasi Terkait
Semua
|