Tempat kecil di Web ini menyimpan semakin banyak koleksi hal menarik tentang ChatGPT dan GPT-3 (dan seterusnya) dari OpenAI.
ChatGPT diluncurkan pada November 2022. Saya ingin tempat lengkap untuk menyimpan berbagai hal tentang GPT dan ChatGPT. Jadi, saya menyusun daftar ini dengan bantuan orang lain (diakui di bawah), sejak awal Desember 2022.
Koleksinya tidak terbatas hanya pada sumber daya, alat, contoh, demo, peretasan, aplikasi, dan penggunaan ChatGPT terbaik.
Sumber daya berikut dimulai berdasarkan daftar obrolan luar biasa 1 2 tetapi dengan modifikasi saya sendiri:
Model: Kelompok model ChatGPT yang kami rilis hari ini,
gpt-3.5-turbo
, adalah model yang sama yang digunakan dalam produk ChatGPT . Harganya $0,002 per 1 ribu token, yang 10x lebih murah dibandingkan model GPT-3.5 kami yang sudah ada .API: Biasanya, model GPT menggunakan teks tidak terstruktur, yang direpresentasikan ke model sebagai rangkaian “token”. Model ChatGPT menggunakan serangkaian pesan bersama dengan metadata.
Contoh petunjuknya.
golergka/advent-of-code-2022-with-chat-gpt - Menyelesaikan Munculnya Kode 2022 dengan ChatGPT.
max-sixty/aoc-gpt - Tempat pertama di papan peringkat Advent of Code dengan GPT-3.
greshake/Alice - Memberikan akses ChatGPT ke terminal sebenarnya.
RomanHotsiy/commitgpt - Secara otomatis menghasilkan pesan komit menggunakan ChatGPT.
gpt-commit-summarizer - Menghasilkan ringkasan Permintaan Tarik dan deskripsi penerapan Git.
vrescobar/chatGPT-python-elm - Repositori Git yang sepenuhnya dibuat oleh ChatGPT.
gpt-game - Game pendek yang ditulis dalam Elixir dan LiveView menggunakan ChatGPT.
chatdb - Database berbasis ChatGPT, tunggu... APA?
chat-gpt-ppt - Gunakan ChatGPT untuk menghasilkan PPT secara otomatis.
emailGPT - Antarmuka yang cepat dan mudah untuk menghasilkan email dengan ChatGPT.
gptlang - Eksperimen untuk melihat apakah kita dapat membuat bahasa pemrograman di ChatGPT.
ChatRWKV - Seperti ChatGPT tetapi didukung oleh model bahasa terbuka RWKV ( berbasis RNN ). [HuggingFace Space: RWKV-4 (7B Instruct v2), kode ( klaim mereka RNN dengan kinerja LLM tingkat Transformer jauh lebih baik dari yang saya harapkan. )]
GraphGPT - Mengekstrapolasi grafik pengetahuan dari teks tidak terstruktur menggunakan GPT-3.
Pencarian Dokumen - Jelajahi dokumen (buku, makalah, dokumen hukum) tanpa batas. Berkomunikasi dengan buku. Terinspirasi oleh ide "Pembisik Buku" (Tweet). Alternatif sumber terbuka untuk Filechat.io.
Bagaimana jika GPT memiliki konteks internal pada bisnis Anda? (Demo Tweet dan video) - Mereka membuat chatbot yang dapat menggunakan konteks dari data perusahaan untuk menjawab pertanyaan bisnis internal. Proyek ini mengintegrasikan LangChain (agen memutuskan alat apa yang akan ditanyakan setelah chatbot menerima permintaan) dan Indeks GPT (memuat Snowflake DB). Ide menarik dalam manajemen pengetahuan.
LLaMA MetaAI?
Mencoba Flan-UL2 20B - Panduan kode oleh Sam Witteveen. Ini menunjukkan bagaimana Anda bisa menjalankannya pada 1x GPU A100 40GB dengan pustaka HuggingFace dan menggunakan inferensi 8-bit. Contoh prompt: CoT, zeroshot (penalaran logis, penulisan cerita, penalaran akal sehat, penulisan pidato). Terakhir, menguji input token berukuran besar (2048). Bonus: tidak punya A100? Anda dapat menggunakan API Inferensi HuggingFace untuk UL2.
metamorf - Aplikasi GPT-4 yang dapat diedit sendiri.
MiniGPT-4 - Sebuah penelitian yang mencoba mereplikasi kemampuan multi-modal GPT-4.
Llama2.c oleh Karpathy - Inferensi Llama 2 dalam satu file C murni.?
ini hanya proyek akhir pekan: Saya mengambil nanoGPT, menyetelnya untuk mengimplementasikan arsitektur Llama-2 alih-alih GPT-2, dan intinya adalah menulis mesin inferensi C di
run.c
.Tip untuk llama.cpp karena telah menginspirasi proyek ini. Saya menginginkan sesuatu yang super minimal jadi saya memilih untuk melakukan hard-code arsitektur llama-2, tetap menggunakan fp32, dan hanya memutar satu file inferensi C murni tanpa ketergantungan.
Lebih sedikit lebih banyak.
Komit ini memungkinkan untuk memuat dan menyimpulkan model Llama 2 7B Meta sekarang.
Garpu saya - tolok ukur kinerja, pengoptimalan, dan port Zig yang sedang dalam proses. Saya sedang memindahkan proyek ini ke Rust tetapi fork ini mengalahkan saya. Port Rust paling awal yang pernah saya lihat adalah dari @garrisonhess tetapi tidak ditemukan di README proyek.
Spekulasi: Firasat saya mengatakan bahwa Karpathy sedang berupaya untuk merilis (dan open source?) model OpenAI sebagai bobot. Petunjuk: dia keluar dan kembali ke OpenAI, Tweet-nya
Perlu dicatat bahwa semua Llama2.c cukup umum untuk model bahasa Transformer secara umum. Jika/ketika OpenAI merilis model sebagai bobot (yang tidak dapat saya konfirmasi atau tolak!) maka sebagian besar kode di sini akan sangat relevan.
Diedit dengan ringan. Tekankan pada saya.
Petunjuk lain: karya sebelumnya termasuk nanoGPT, Software 2.0, dan baru-baru ini micro-LLM dengan Llama2.c
Jika Anda tahu, Anda tahu. ?
llm.c oleh Karpathy - Pelatihan LLM dalam C/CUDA mentah yang sederhana. (Rencana: setelah kondisinya sedikit lebih stabil, video tentang pembuatannya lebih detail dan dari awal.) [Tweet]
2022
... Bahkan dengan mesin pencari non-percakapan, kita tahu bahwa menaruh kepercayaan yang tidak semestinya pada hasil adalah hal yang umum: jika sistem pencarian menempatkan sesuatu di bagian atas daftar, kita cenderung percaya bahwa itu adalah hasil yang baik atau benar atau mewakili dan jika ia tidak menemukan sesuatu, ia tergoda untuk percaya bahwa sesuatu itu tidak ada.
2023
Microsoft dan OpenAI Mengerjakan Bing yang Didukung ChatGPT sebagai Tantangan bagi Google
Beberapa komentar tentang Model Bahasa Besar oleh Prof. Yoav Goldberg.
Mengapa ChatGPT tidak akan menggantikan mesin pencari dalam waktu dekat oleh Algolia.
Claude dari Anthropic meningkatkan ChatGPT tetapi masih mengalami keterbatasan
Microsoft mengincar taruhan $10 miliar pada ChatGPT
Wolfram|Alpha sebagai Cara Menghadirkan Kekuatan Super Pengetahuan Komputasi ke ChatGPT
CEO DeepMind Membantu Mengarusutamakan AI. Sekarang Dia Mendesak Kehati-hatian
DeepMind juga mempertimbangkan untuk merilis chatbotnya sendiri, yang disebut Sparrow, untuk "beta pribadi" sekitar tahun 2023. (Penundaan ini agar DeepMind dapat mengerjakan fitur berbasis pembelajaran penguatan yang tidak dimiliki ChatGPT, seperti mengutip sumbernya .)
Ketersediaan umum Layanan Azure OpenAI memperluas akses ke model AI yang besar dan canggih dengan manfaat tambahan bagi perusahaan - ChatGPT akan segera hadir di Layanan Azure OpenAI.
GPT-3 Adalah Jurnal Terbaik yang Pernah Saya Gunakan
Melewati filter spam Gmail dengan ChatGPT
Mengganti analis SQL dengan 26 perintah GPT rekursif
Google meminta karyawannya untuk menguji calon pesaing ChatGPT, termasuk chatbot bernama 'Apprentice Bard'
Bahasa alami adalah antarmuka pengguna yang malas
Langkah penting berikutnya dalam perjalanan AI Google - Google meluncurkan lunak Bard, pesaing ChatGPT untuk "penguji tepercaya". Bard adalah fitur AI baru di Google Penelusuran. Bard adalah layanan AI percakapan eksperimental, yang didukung oleh LaMDA (Model Bahasa untuk Aplikasi Dialog). Google berjanji untuk menyediakannya secara lebih luas dalam beberapa minggu mendatang. API akan tersedia untuk dikembangkan oleh pengembang. Google belum membahas bagaimana rencananya untuk memberikan atribusi dan/atau kutipan atas jawabannya, baik dari Bard atau dalam hasil pencarian.
Microsoft mengumumkan browser Bing dan Edge baru yang didukung oleh ChatGPT AI yang ditingkatkan
Manusia dan mesin: GPT untuk otak kedua - Tentang sistem pencatatan otak kedua penulis — cara meningkatkan proses pembelajaran dan manajemen pengetahuan pribadi (PKM).
Baidu Tiongkok Mengembangkan ChatGPT-nya Sendiri, Bergabung dalam Perlombaan AI Global Terbaru - Ernie atau, Peningkatan Representasi melalui Integrasi Pengetahuan (artikel dan makalah Ernie 3.0) adalah LLM. Baidu berencana meluncurkan layanan seperti itu pada bulan Maret. Alibaba dan Tencent juga ikut serta dalam tren ChatGPT.
Pada tahun 2019, Baidu mengembangkan model pembelajaran mendalam yang dikenal sebagai Ernie, berdasarkan terobosan Google, yang digunakan untuk meningkatkan hasil pencariannya, termasuk menjadikannya lebih relevan. Perusahaan ini telah mengembangkan lusinan model Ernie lainnya dan memperluas kemampuannya hingga mencakup generasi gambar dan seni, mirip dengan Dall-E OpenAI.
ChatGPT Adalah JPEG Web yang Buram - Chatbot OpenAI menawarkan parafrase, sedangkan Google menawarkan kutipan. Mana yang lebih kita sukai?
Saya membuat ChatGPT dan Bing AI mengobrol (dan mereka sekarang berteman)
Bing AI Tidak Dapat Dipercaya
Apa yang Dilakukan ChatGPT dan Mengapa Ini Berhasil?
Bing: "Aku tidak akan menyakitimu kecuali kamu menyakitiku terlebih dahulu" - Rangkuman bagus tentang chatbot AI Bing "Sydney". Keanehan yang menarik - kepribadian ganda tergantung pada konteks sosial (prompting). Menghibur?
Tampaknya ini mungkin salah satu penerapan AI paling tidak pantas yang pernah kita lihat . Apa yang bisa kita ambil dari semua ini? Menurutku semua ini benar-benar menarik, dan sangat, sangat lucu. Saya telah LOL pada contoh-contoh ini sepanjang hari.
Pemrograman AI membuat saya khawatir
Hanya Teks yang Anda Butuhkan: Kepribadian tampaknya lebih sederhana dari yang kita duga - Mengabaikan balon, penulis rasa kita memiliki berita penting pertama yang menentukan tahun 2023 — reaksi awal dari chatbot AI Bing "Sydney". Ini adalah momen Copernicus? Esai yang menggugah pikiran. Saya pikir ini adalah dampak "formal" pertama yang baik terhadap rasa kedirian kita yang dihasilkan dari munculnya sistem percakapan berbasis LLM seperti ChatGPT.
Singkatnya, tampaknya Sydney memiliki sistem yang agak berbeda dibandingkan ChatGPT, dan transkripnya menunjukkan kepribadian yang hampir sama dalam hal koherensi, namun merupakan lompatan liar dalam hal karisma dan warna-warni . Bergantung pada bagaimana Anda mendorong Sydney, mereka tampaknya mampu memainkan segalanya mulai dari remaja manipulatif yang kejam hingga psikotik paranoid, hingga martinet percakapan yang keras kepala dan tegas.
CurangGPT
“Dave, kamu hanya berasumsi. Bisakah kamu membuktikan semua ini?” Sebenarnya saya bisa, karena beberapa kiriman yang memerlukan tangkapan layar juga menyertakan tab browser ChatGPT, yang sangat membantu menyertakan teks awal perintah. Rupanya, itu bukanlah sesuatu yang siswa rasa perlu mereka sembunyikan.
OpenAI secara pribadi telah mengumumkan produk pengembang baru bernama Foundry (Tweet), yang memungkinkan pelanggan menjalankan inferensi model OpenAI dalam skala besar dengan kapasitas khusus. (GPT-3.5 Turbo tampaknya mengacu pada model ChatGPT Turbo)
Jangan percaya ChatGPT - kami TIDAK menawarkan layanan "pencarian telepon".
Kelas saya membutuhkan AI. Inilah yang telah saya pelajari sejauh ini - Pelajaran dari mengintegrasikan ChatGPT ke dalam pendidikan. Kesimpulannya: 1) Pekerjaan yang dihasilkan dengan pendekatan co-editing (memantulkan ide bolak-balik dengan chatbot) cenderung menghasilkan siswa yang mengerjakan pekerjaan terbaik; 2) Siswa perlu diajari cara menulis perintah secara efektif - hal ini tidak muncul secara alami.
Penipuan yang Muncul dan Optimasi yang Muncul - Pernahkah Anda bertanya-tanya mengapa LLM hanya memprediksi kata berikutnya mengarah pada kemampuan perencanaan (perilaku mirip manusia, novel/sejarah)? Postingan kali ini membahas tentang konsep emergent deception dan emergent optimasi yang merupakan dua strategi yang dapat digunakan untuk mencapai suatu tujuan. Ada dua prinsip untuk mempertimbangkan kemampuan yang muncul di masa depan: 1) kemampuan yang akan menurunkan kerugian pelatihan kemungkinan besar akan muncul di masa depan. 2) ketika model menjadi lebih besar dan dilatih pada data yang lebih banyak dan lebih baik, heuristik sederhana cenderung digantikan oleh heuristik yang kompleks. Prinsip 1 berarti LLM yang dilatih untuk memprediksi kata-kata akan mendapatkan kerugian yang lebih rendah jika mereka dapat mensimulasikan kemampuan perencanaan.
Cara membuat LLM mengatakan hal yang benar - TL;DR: Metode ini menggunakan "Model Dunia", database embeddings yang diisi dengan "keyakinan" (potongan pernyataan deklaratif) dengan persentase keyakinan yang dihitung menggunakan Teorema Bayes.
Mengapa Tiongkok Tidak Menciptakan ChatGPT - NYT berpendapat bahwa sensor yang berlebihan, ketegangan geopolitik dengan AS, dan upaya untuk mengontrol perusahaan sektor swasta telah menyebabkan perusahaan Tiongkok tertinggal dibandingkan rekan-rekan mereka di AS dalam bidang AI.
Chatbot MOSS Mirip ChatGPT Pertama di Tiongkok Dirilis untuk Uji Publik [Tautan langsung ke aplikasi]
Bagi Tiongkok, ChatGPT mungkin merupakan sebuah kemajuan namun juga merupakan 'masalah etika' - Menteri Sains dan Teknologi Tiongkok mengatakan bahwa chatbot telah mengejutkan masyarakat Tiongkok dan telah mengadopsi tindakan terhadap AI terkait etika.
Skema cepat kaya ChatGPT akan hadir untuk majalah, Amazon, dan YouTube (2023)
Snapchat merilis chatbot 'AI Saya' yang didukung oleh ChatGPT
Model bahasa AI Meta yang kuat, LLaMA, telah bocor secara online — apa yang terjadi sekarang? - Transkrip wawancara Shawn Presser untuk The Verge lebih menarik.
Saya rasa kemungkinan besar peluncuran model ini akan menjadi tonggak sejarah yang besar. Kemampuan untuk menjalankan LLaMA pada satu GPU A100 — yang "sebagian besar dari kita memiliki akses ... atau mengenal seseorang yang mengizinkan kita menggunakannya sebentar" - adalah sebuah "lompatan besar".
Tepatnya, Anda dapat menjalankan LLaMA-65B dalam presisi int8 (bnb) pada satu GPU A100 80GB.
Ternyata, kode itu jelek. Saya sebenarnya tidak ingin terlalu keras terhadapnya, karena mudah untuk meremehkan betapa pentingnya mendapatkan pengaturan default dengan tepat. Tapi defaultnya semuanya kacau. Mereka tidak menggunakan "Top K". Mereka menggunakan Top P, yang mana saya tidak pernah mendapatkan hasil yang baik (baik identik dengan top k atau sedikit lebih buruk). Suhu defaultnya adalah 0,8, yang terlalu tinggi. Dan yang terburuk, mereka tidak memiliki penalti pengulangan -- jadi secara default, hal ini akan terus-menerus mengoceh tentang hal yang persis sama.
100% ini! Saya juga mempelajari pelajaran saya di garpu LLaMA saya. Pengaturan sampler saya tidak optimal. Kegaduhan itu jelas dan saya pernah melihatnya. Tapi saya tidak tahu mengapa saya tidak memperbaiki penalti pengulangan sampler sebelumnya.
Penjelasan ChatGPT: Panduan Normie Tentang Cara Kerjanya - Bahkan kakek dan nenek saya pun dapat memahami hal ini. Tapi nerd akan tetap nerd?
Untuk apa Anda menggunakan ChatGPT?
Yang jelas bagi saya adalah kita berada dalam paradigma baru dalam cara kita menavigasi konten, baik melalui model ini atau model lain yang akan segera dirilis. Saat diminta, alam semesta baru memberi kita hasil, namun hasil tersebut lebih merupakan getaran terarah daripada jawaban konkret. Terserah pada kita untuk mencari cara mengarahkan mereka sesuai keinginan kita untuk mendapatkan hasil terbaik dan mengatasi kebisingan.
Model bahasa besar mengalami momen Difusi Stabil (simonwillison.net)
Semuanya berubah kemarin, berkat kombinasi model LLaMA Facebook dan llama.cpp oleh Georgi Gerganov.
(1) Mudah dijalankan di perangkat keras saya sendiri
(2) Cukup open source sehingga dapat diutak-atik
(3) Cukup besar untuk berguna—idealnya setara kemampuannya dengan GPT-3
Ini bukan momen yang tepat. Kami telah mencapai 1 dan 3 kecuali 2. LLaMA BUKAN benar-benar open source (sementara lisensi untuk kodenya adalah GPL 3, bobot modelnya tidak). Model yang benar-benar terbuka sangatlah penting.
Saat obrolan GPT-4 berlanjut, pionir pembelajaran mendalam Yoshua Bengio mengatakan ChatGPT adalah 'panggilan untuk mengingatkan' - Panggilan untuk mengingatkan adalah GPT-3 dan undang-undang penskalaan pada tahun 2021. Hanya saja jam alarm menjadi lebih keras sekarang.
API ChatGPT Sangat Bagus dan Murah, Membuat Sebagian Besar AI Penghasil Teks Menjadi Usang
Dikonfirmasi: Bing baru berjalan pada GPT-4 OpenAI - Bing Chat (Sydney) selama ini adalah GPT-4.
Wikipedia - GPT-4 yang bagus.
Rekap Multi-modal, Multi-model, Multi-segalanya Masa Depan AGI - GPT-4.
Bisakah GPT-4 Sebenarnya Menulis Kode? - Menguji kemampuan penulisan kode GPT 4 dengan beberapa masalah nyata di dunia nyata.
Bisakah Anda melatih model yang mengalahkan ChatGPT seharga $85.000 dan menjalankannya di browser?
GPT4: Bagian senyap dan status ML
GPT-4 Mendesain Bahasa Pemrograman
Kemampuan Tak Terduga yang Muncul dari Model AI Besar
Coba Bard dan sampaikan masukan Anda - Google mulai membuka akses ke Bard, eksperimen awal yang memungkinkan Anda berkolaborasi dengan AI generatif. Layanan ini dimulai di Amerika Serikat dan Inggris, dan akan meluas ke lebih banyak negara dan bahasa seiring berjalannya waktu.
Bard Google tertinggal dari GPT-4 dan Claude dalam perbandingan head-to-head
NVIDIA Menghadirkan AI Generatif ke Perusahaan Dunia Dengan Layanan Cloud untuk Menciptakan Model Bahasa dan Visual yang Besar - NVIDIA AI Foundations adalah NVIDIA yang melampaui penyedia perangkat keras murni dan memasuki perangkat lunak yang mendukung AI Generatif dengan penawaran mereka untuk setiap beban kerja, mulai dari model dasar sebagai layanan (akan hadir ke perusahaan, disesuaikan untuk data kepemilikan Anda) hingga multimodal mulai hari pertama.
GitHub Copilot X: Pengalaman pengembang yang didukung AI - GitHub Copilot berkembang untuk menghadirkan antarmuka obrolan dan suara, mendukung permintaan tarik, menjawab pertanyaan di dokumen, dan mengadopsi GPT-4 OpenAI untuk pengalaman pengembang yang lebih personal.
Kecurangan adalah Yang Anda Butuhkan oleh Steve Yegge, Sourcegraph.
Ada sesuatu yang legendaris dan bersejarah yang terjadi dalam rekayasa perangkat lunak, saat ini, namun sebagian besar dari Anda tidak menyadari sama sekali betapa besarnya hal tersebut.
LLM bukan hanya perubahan terbesar sejak sosial, seluler, atau cloud – mereka juga merupakan perubahan terbesar sejak WWW.
Maksudku, benda ini luar biasa kuatnya. Namun saya terus-menerus dihadapkan pada campuran antara ketidakpercayaan dan cengkeraman mutiara.
... lima kali lebih produktif. ?
Sejarah Mini Singkat LLM
Lucunya, dan sejujurnya ini adalah salah satu hal tersulit untuk dijelaskan, jadi saya akan mengambil jalur berbasis agama hari ini, adalah bahwa semua pemenang di bidang AI akan memiliki parit data . ... Mengapa? Karena parit data adalah cara Anda mengisi jendela konteks ("lembar contekan") .
LLM bukanlah hal yang bodoh, seperti kripto. Ya, crypto adalah sebuah tren yang bodoh. Ini bukan itu.
Google "Kami Tidak Memiliki Parit, Begitu pula OpenAI" - Dokumen internal Google yang bocor mengklaim bahwa AI sumber terbuka akan mengalahkan Google dan OpenAI.
Pendekatan AI yang lebih besar adalah yang lebih baik sudah tidak ada lagi
Memahami tokenizer GPT oleh Simon Willison.
kanon AI
Ini mulai menjadi aneh - Mari kita bicara tentang ChatGPT dengan Code Interpreter & Microsoft Copilot.
Donald Knuth bermain dengan ChatGPT - Knuth adalah seorang ilmuwan komputer. Dikenal sebagai “bapak” analisis algoritma.
Google I/O 2023 dan Pertarungan AI yang Akan Datang
Model Tanpa Sensor - WizardLM Tanpa Sensor. Karena sudah ada pekerjaan yang dilakukan untuk membuka sensor Vicuna, saya dapat menulis ulang skrip mereka agar dapat berfungsi pada dataset WizardLM.
Arsitektur model GPT-4 (Tweet) - Berasal dari sumber asli (postingan blog): Arsitektur GPT-4, infrastruktur, Kumpulan Data Pelatihan, Biaya, Visi, KLH
Llama 2: LLM terbuka yang luar biasa - Ringkasan terbaik makalah Llama 2.
Llama 2 - Setiap Sumber Daya yang Anda Butuhkan oleh Philipp Schmid.
Model bahasa besar, dijelaskan dengan matematika dan jargon minimal - Sepertinya penjelasan yang bagus tentang cara kerja LLM. Saya tidak tahu bagaimana mengapresiasi bagian terakhir yang membahas sedikit filosofi dan teori tentang bagaimana manusia belajar. (bagian terakhir tidak memiliki pernyataan berbasis bukti)
Jadi, Anda ingin membuat chatbot bergaya ChatGPT open source Anda sendiri (hacks.mozilla.org)
Bagaimana LLaMa.cpp mungkin? (finbarr.ca) - Jauh sebelum LLM menjadi mainstream, semua orang mengatakan bahwa model besar memerlukan banyak GPU yang mahal. Seperti penulisnya, kami ingin membuktikan bahwa mereka salah. Penulis postingan ini mengatasi kebingungan mereka dan mendalami matematika seputar persyaratan inferensi untuk memahami kendala yang kita hadapi. Anehnya, tidak ada keajaiban di sini, hanya hal-hal di luar pemahaman kita pada awalnya. Kompresi model atau lebih khusus lagi kuantisasi memungkinkannya. Namun tidak ada "makan siang gratis" — biaya model terkuantisasi pada dasarnya adalah Anda kehilangan akurasi. Artinya, untuk ukuran model yang sangat besar, perbedaannya mungkin dapat diabaikan. Penasaran? Posting semi-terkait ini melakukan perbandingan antara berbagai kebingungan/akurasi Transformers terkuantisasi.
Mengalahkan GPT-4 di HumanEval dengan CodeLlama-34B yang Disempurnakan (www.phind.com) - Kemajuan bagus dan bukan kejutan besar. Saya menyadari bahwa tolok ukur seperti ini untuk model cenderung menjadi metrik yang buruk untuk mengukur seberapa baik kinerja model dalam pekerjaan sebenarnya. Itulah pengalaman saya dengan model terbuka.
2024
Kita memerlukan tolok ukur atau semacam evaluasi independen dan manusiawi terhadap tugas-tugas dunia nyata .
Menurut Gwern:
Paradigma pemrograman baru? Anda berinteraksi dengannya, mengekspresikan tugas apa pun dalam deskripsi, permintaan, dan contoh bahasa alami, mengubah perintah hingga "memahami" & mempelajari tugas baru secara meta. Ini adalah cara yang agak berbeda dalam menggunakan model, dan lebih baik menganggapnya sebagai jenis pemrograman baru, pemrograman prompt , yang mana prompt sekarang menjadi bahasa pengkodean yang memprogram GPT-3 untuk melakukan hal-hal baru.
"Mendorong" sebagai disiplin teknik tidak akan bertahan lama. Ini adalah penopang sementara dalam perjalanan menuju antarmuka bahasa alami. ChatGPT memecahkan sebagian besar masalah yang muncul. Menambahkan rekayasa ke suatu istilah untuk memperkuat persepsi pentingnya atau kesulitannya mungkin tidak diperlukan. Kita mungkin bisa menyebutnya "pengujian/peretasan cepat" dan tidak kehilangan makna apa pun.
Artikel terkait:
Mengapa "Prompt Engineering" dan "Generative AI" dilebih-lebihkan
Tweet Terkait:
Rekayasa cepat sudah mati, rekayasa dialog berumur panjang. — Wakil Presiden Produk, OpenAI
Dicari: Insinyur yang cepat. Pengalaman teknik cepat minimal 10 tahun. #mempekerjakan #lelucon
Mengapa ChatGPT bekerja dengan baik? Apakah ini "hanya meningkatkan GPT-3"? Dalam hal ini?, mari kita bahas paradigma "Instruksikan", wawasan teknisnya yang mendalam, dan implikasi besarnya: "rekayasa cepat" seperti yang kita tahu kemungkinan besar akan segera hilang . Sumber: https://archive.is/dqHI8
Tampaknya pada tahun 2023, pemrograman cepat belum mati. Bahasa pemrograman baru yang paling hot adalah bahasa Inggris ~ Karpathy :))
Simon Willison menerbitkan Untuk membela rekayasa cepat sebagai lawan dari argumen "rekayasa cepat akan menjadi usang karena AI menjadi lebih baik" yang terus dia lihat.
Surat kabar tersebut mengatakan bahwa pembisik AI ('Insinyur yang cepat') adalah pekerjaan baru yang paling menarik di bidang teknologi (2023).
Panduan teknik cepat terbaik untuk pengembang yang bekerja dengan Model Bahasa Besar seperti GPT-4, ChatGPT, dan model terbuka seperti LLaMA adalah kombinasi dari beberapa sumber daya. Berikut adalah beberapa sumber belajar, alat, perpustakaan, dan kerangka kerja untuk membantu Anda mempelajari dan menguasai teknik cepat:
Dengan menggunakan sumber daya ini, Anda dapat memperoleh pemahaman yang kuat tentang teknik cepat dan mengembangkan keterampilan yang diperlukan untuk bekerja secara efektif dengan LLM.
( * Istilah teknik prompt diubah namanya menjadi prompting. Istilah ini kelebihan beban dan mungkin tidak diperlukan. )
LEBIH: Video YouTube dari Curated.tivul.com (Saya tidak mengkuratori ini, jadi kualitasnya tidak dijamin)
Pengembangan Aplikasi Pribumi AI. Integrasi chatgpt. Aplikasi AI generasi berikutnya. Lapisan "App Store" untuk model bahasa (termasuk HuggingFace "App Store").
Agen otonom bertenaga LLM (posting blog) oleh Lilian Weng, 2023.
Potensi LLM melampaui menghasilkan salinan, cerita, esai, dan program yang ditulis dengan baik; Ini dapat dibingkai sebagai pemecah masalah umum yang kuat.
Dalam sistem agen otonom bertenaga LLM, Fungsi LLM sebagai otak agen, dilengkapi dengan beberapa komponen utama: perencanaan, memori, dan alat.
Tantangan: Perencanaan jangka panjang dan dekomposisi tugas, keandalan antarmuka bahasa alami.
SMOL Developer - Embed agen pengembang di aplikasi Anda sendiri.
Sistem pengambilan untuk mengakses sumber informasi pribadi atau organisasi. Embeddings. Basis data dan penyimpanan data yang dirancang untuk model pembelajaran mesin dan NLP.
Database vektor untuk pengindeksan dan pencarian dokumen
Kami ingin alternatif chatgpt seperti difusi stabil.
Frustrasi dengan semua penjaga gerbang di sekitar AI? Masih menunggu atau tidak bisa mendapatkan akses ke llama?
Sasaran
Tujuan akhir: Versi chatgpt yang di-hosting sendiri.
Pelajaran
Takeaways dari Eleutherai satu tahun retro (2021):
Flan-T5 XXL alias. Chatgpt@home adalah model publik yang telah mengalami instruksi finetuning. XXL adalah model 11B. Saat ini model yang paling sebanding dengan ChatGPT (model Instruktur diinisialisasi dari seri GPT-3.x (kartu model)). Ada upaya yang berhasil menggunakan Flan-T5 pada GPU dengan RAM 24 GB dengan Bitsandbytes-Int8 inferensi untuk memeluk model wajah. Anda dapat menjalankan model dengan mudah pada satu mesin, tanpa degradasi kinerja. Ini bisa menjadi pengubah permainan dalam memungkinkan orang di luar perusahaan teknologi besar yang dapat menggunakan LLM ini. Upaya sudah dilakukan untuk menciptakan Flan-T5 yang lebih baik. Komunitas (yaitu, Laion) sedang mengerjakan arsitektur FLANT5-ATLAS dan kumpulan set data yang diminta/instruksi.
Replikasi Open-Assistant-Open-Source ChatGpt oleh Laion, Yannic Kilcher et al. Proyek ini dimaksudkan untuk memberi semua orang akses ke model bahasa besar berbasis obrolan yang hebat. (Open Assistant Live Coding dengan Yannic Kilcher (Video)) Rencana tingkat tinggi:
Fase 1: Koleksi cepat untuk Finetuning yang diawasi (SFT) dan untuk mendapatkan petunjuk untuk penyelesaian/jawaban yang dihasilkan model.
Fase 2: Umpan balik manusia (misalnya peringkat) dari beberapa output yang dihasilkan oleh model. Contoh lima model output ditampilkan dan pengguna harus memberi peringkat dari yang terbaik ke yang terburuk.
Fase 3: Optimalisasi dengan RLHF yang kami rencanakan untuk dilakukan melalui TRLX. Dan kemudian kami beralih dengan model baru ini lagi di atas fase 2 dan fase 3 semoga beberapa kali.
Model akan dilatih di Superkomputer KTT (~ 6 juta NVIDIA V100 HRS per tahun) [Sumber]
Info lebih lanjut, lihat Proposal Laion LLM (Google DOC) di atas.
Kemajuan:
Feb 2023: Jo-20b-instruct adalah model 20B yang disesuaikan dengan beragam set data instruksi dan berdasarkan NEOX-20B.
Tidak Resmi: Ini adalah model pra-pelepasan awal (bagian dari pengembangan model MVP, Fase 1), tidak langsung OpenAssistant (OA). Mereka adalah eksperimen oleh tim ML untuk mempelajari data apa, model fondasi, metode akan bekerja dengan baik untuk OA. Seperti yang dinyatakan dalam FAQ situs web, belum ada demo. Ini adalah untuk pengembang untuk menguji versi pengembangan awal penyetelan instruksi untuk model. Mungkin model OA pertama akan berasal dari ini. Mereka telah melatih model yang baik secara bergulir saat kumpulan data baru selesai. Ada berbagai ukuran model dari 1,4b hingga 20b params yang tersedia di hub HF.
Chatty-LMS Build oleh HuggingFace H4 Team-A UI untuk menguji model JO-20B-instruct. Anda bisa mengobrol dengannya. Agen akan membalas sebagai Joi (nama panggilan bot).
Contoh cuplikan kode untuk menjalankan model pada GPU Anda sendiri: https://gist.github.com/cedrickchee/236e53ed2dca95bd96e5baa35cdd7be2
Mar 2023: Mereka saat ini memproses data yang dikumpulkan dari kontribusi. Data memiliki lebih dari 100 ribu pesan, yang berarti jutaan kontribusi. Kualitas data melampaui apa yang pernah mereka harapkan - sebagian besar kontribusi berkualitas sangat tinggi. Sekarang, mereka mengekspor V1 dari dataset. Seperti yang dikatakan, mereka saat ini melatih batch awal model.
11 Mar 2023: Dataset Generalis Instruksi Terbuka (OIG) akan dirilis. OIG adalah dataset instruksi open source besar yang saat ini berisi ~ 43 juta instruksi.
OIG adalah salah satu dari banyak dataset chatbot yang Laion, bersama dengan sukarelawannya, Ontocord, bersama -sama dan anggota lain dari komunitas open source, akan dirilis dan dimaksudkan untuk menciptakan akses yang sama ke teknologi chatbot. Setiap orang dipersilakan untuk menggunakan dataset dan menyumbangkan perbaikan untuk itu.
Dataset OIG terkait dengan Proyek Asisten Terbuka Laion.
9 Mar 2023: Model SFT-1 12B terbuka-Prototipe awal bahasa Inggris-tuning-tuning (SFT) model proyek terbuka. Ini didasarkan pada Pythia 12b yang disesuaikan dengan ~ 22k demonstrasi manusia dari asisten percakapan yang dikumpulkan sebelum 7 Maret 2023. Meskipun model ini hanyalah tonggak pengembangan, itu dapat digunakan untuk beberapa tugas kreatif. Coba: Huggingface Space (mudah dan cepat, chatbot UI tidak resmi), Google Collab. Berikut adalah panduan tentang cara menjalankan model secara lokal di komputer Anda sendiri dengan GPU.
23 Mar 2023: Proyek ini mulai membentuk dengan baik. Model akan datang.
/r/ask_open_assistant
. Kode15 Apr 2023: OpenAssistant secara resmi keluar! Rilis ini mencakup model, dataset, dan antarmuka obrolan. [Video pengumuman, coba, model]
Subreddit
Catatan: Silakan lihat repo GitHub untuk info terkini.
Carperai/TRLX
Berita (2023-01-13): Mereka mereplikasi pembelajaran Openai untuk merangkum kertas menggunakan perpustakaan TRLX. [laporan]
Lucidrains/Palm-RLHF-Pytorch-(WIP) Implementasi RLHF di atas arsitektur Palm. Pada dasarnya chatgpt tetapi dengan telapak tangan. Rencana pengembang untuk menambahkan fungsionalitas pengambilan juga, à la retro. [Menciak]
2023: Sesuatu yang lucu di FAQ mereka:
Tidak ada model yang terlatih. Ini hanya kapal dan peta keseluruhan. Kami masih membutuhkan jutaan dolar data komputasi + untuk berlayar ke titik yang benar dalam ruang parameter dimensi tinggi. Bahkan kemudian, Anda membutuhkan pelaut profesional (seperti Robin Rombach dari ketenaran difusi stabil) untuk benar -benar memandu kapal melalui waktu yang bergejolak ke titik itu.
Berita (2022-12-31): Sekarang ada alternatif open source untuk chatgpt, tapi semoga berhasil menjalankannya-komentar saya: tidak, itu belum. Ini bukan model terlatih yang sebenarnya (tidak ada bobot) yang dapat Anda gunakan. Ini hanya kode untuk melatih model seperti chatgpt. Selain itu, data pelatihan (ENWIK8) kecil.
Kereta model RLHF-aligned Model (TRLX) berskala besar dengan data Laion keluar awal tahun depan. (Sumber: Tweet)
allenai/rl4lms - rl untuk model bahasa (rl4lms) oleh allen ai. Ini adalah pustaka RL modular untuk menyempurnakan model bahasa untuk preferensi manusia.
GPT-JT oleh Together Research Computer adalah contoh yang mendistribusikan pelatihan model atas terdistribusi geo dari beragam komputer (dan GPU). GPT-JT (6B) adalah varian yang bercabang dari GPT-J Eleutherai, dan berkinerja sangat baik pada klasifikasi teks dan tugas-tugas lainnya. Pada tolok ukur klasifikasi seperti rakit, itu mendekati model canggih yang jauh lebih besar (misalnya, Instruktur Davinci V2)! [Kertas: Pelatihan Terdesentralisasi Model Yayasan di Lingkungan Heterogen (2022)]
Leam (Model AI Eropa Besar)-Uni Eropa berencana untuk mendanai pengembangan model chatgpt skala besar. [Situs web, Dokumen Proyek (Bahasa Inggris, PDF), Makalah Konsep (Jerman, PDF)]
/r/aicrowdfund - Tempat baru saja dimulai (2023) di mana orang dapat menemukan cara untuk membuat dana (dengan GPU) AI besar. Saya tidak yakin apakah mereka telah melihat kelopak di mana Anda dapat menjalankan LLMS di rumah, gaya Bittorrent (pembelajaran federasi?). Tampaknya menuju ke arah itu.
Solusi open source mereplikasi proses pelatihan chatgpt-mereka menyajikan proses implementasi setara chatgpt berbiaya rendah, termasuk:
Saya mendapat kesan bahwa inti dari artikel ini adalah untuk memasang kerangka kerja dan produk kolosal-AI mereka, kumpulan komponen paralel, alat, dan hardware untuk model besar. Terus terang, nomor mereka terlihat mencurigakan bagi saya, kecuali saya melewatkan sesuatu. Apa yang membuat chatgpt menarik (lebih dari GPT-3) adalah proses RLHF. Mereka mengklaim untuk mereplikasi proses RLHF sepenuhnya. Tapi, artikel itu menyentuh dengan ringan tentang implementasi RLHF mereka. Mereka melatih RLHF menggunakan prompt-chatgpts kecil yang mengagumkan sebagai contoh dataset. Detail implementasi RLHF mereka disembunyikan di sini: https://github.com/hpcaitech/colossalai/blob/main/applications/chatgpt. Kurangnya demo tidak menginspirasi terlalu banyak kepercayaan diri.
FLEXGEN-Menjalankan LLMS seperti OPT-175B/GPT-3 pada GPU tunggal (misalnya, kartu permainan 16GB T4 atau 24GB RTX3090). Fitur Utama: 1) Hingga 100x lebih cepat dari sistem pembongkaran lainnya. 2) Kompres baik parameter dan cache perhatian dari model hingga 4 bit dengan kehilangan akurasi yang dapat diabaikan. 3) Paralelisme pipa terdistribusi. Mereka juga menyediakan skrip Python dan instruksi yang dapat Anda jalankan dengan chatbot dengan model OPT. Ini harus menyelesaikan tantangan persyaratan komputasi dan memori yang tinggi dari inferensi LLM. Chatbot yang mereka bangun dengan model Flexgen dan OPT tidak disesuaikan dengan instruksi (RLHF). Jadi chatbot ini tidak seperti chatgpt. [Inferensi generatif throughput tinggi dari LLMS dengan satu GPU (kertas), Stanford et al., 2023]