Data dan Model Dialog Multi-Babak Berskala Besar, Informatif, dan Beragam
UltraLM • Penjelajah Data • Penjelajah Atlas AI Nomic • Rilis Data • Proses Konstruksi • Kertas
UltraLM adalah serangkaian model bahasa obrolan yang dilatih di UltraChat. Saat ini, kami telah merilis versi 13B, yang menempati peringkat #1 di antara model sumber terbuka dan peringkat #4 di antara semua model di Papan Peringkat AlpacaEval (28 Juni 2023). UltraLM-13B didasarkan pada LLaMA-13B dan didukung oleh BMTrain dalam proses pelatihan.
Model | Link | Versi |
---|---|---|
UltraLM-13B | Repo Wajah Memeluk | v1.0 |
UltraLM-65B | Repo Wajah Memeluk | v1.0 |
UltraLM-13B | Repo Wajah Memeluk | v2.0 |
UltraRM-13B | Repo Wajah Memeluk | v1.0 |
UltraCM-13B | Repo Wajah Memeluk | v1.0 |
/UltraLM/recover.sh
untuk mendapatkan bobot akhir model yang dipulihkan./UltraLM/chat_cli.sh
dengan jalur Anda dan jalankan untuk mulai mengobrol! Catatan: Hyper-parameter atau perintah sistem yang berbeda akan memengaruhi output. Anda dapat merujuk ke detail di /UltraLM/inference_cli.py
untuk pengaturan default kami.
Kami melaporkan tiga evaluasi di bagian ini: Alpaca-Eval dari Stanford, Evol-instruct dari Microsoft's WizardLM, dan rangkaian evaluasi pilihan kami. Evaluasi LLM modern mungkin bias dan dipengaruhi oleh banyak faktor, kami juga secara aktif mengerjakan metode evaluasi yang lebih komprehensif.
AlpacaEval adalah papan peringkat yang dirancang khusus untuk mengevaluasi LLM. Papan peringkat dibuat berdasarkan tingkat kemenangan melawan Text-Davince-003 yang secara otomatis dievaluasi oleh GPT-4.
Kumpulan data ini dibangun dengan strategi evolusioner dengan menulis ulang instruksi melalui beberapa putaran untuk mendapatkan instruksi pada tingkat kompleksitas yang berbeda. Tolok ukur ini dikembangkan oleh proyek WizardLM, model bahasa obrolan luar biasa lainnya!
Kami menyusun serangkaian evaluasi, yang mencakup Tolok Ukur Vicuna dan 300 pertanyaan serta instruksi tambahan yang dihasilkan oleh GPT-4. Pertanyaan/instruksi mencakup berbagai topik, termasuk akal sehat, pengetahuan dunia, pengetahuan profesional (khususnya fisika dan biologi), matematika, dan tugas menulis pada berbagai tingkat kesulitan. Kami menggunakan GPT-4 untuk evaluasi. Ini kumpulan datanya.
Contoh A: Pertanyaan Pengetahuan Umum
Pengguna: Hewan apa yang dikenal sebagai sahabat manusia?
UltraLM: Ada banyak hewan yang disukai manusia sebagai hewan pendamping, namun salah satu jawaban paling menonjol atas pertanyaan "hewan manakah yang dikenal sebagai sahabat manusia?" adalah anjing yang dibesarkan di dalam negeri. Anjing peliharaan telah berada di sisi manusia selama puluhan ribu tahun, memberikan pendampingan dan bantuan yang setia; menjaga orang dan harta benda; dan memberikan dukungan emosional dalam segala hal mulai dari hari-hari yang panjang dan sepi hingga penempatan militer. Anjing hadir dalam berbagai ras dengan berbagai ukuran, dengan tingkat energi, kepribadian, dan temperamen yang berbeda-beda, yang berarti hampir pasti ada anak anjing di luar sana yang cocok untuk siapa pun yang paling membutuhkannya.
Contoh B: Penalaran Akal Sehat
Pengguna: Mana yang lebih berat: satu pon bulu atau satu pon batu bata?
UltraLM: Satu pon bulu dan satu pon batu bata, keduanya memiliki berat tepat satu pon. Hal ini karena satu pon adalah satuan berat, seperti halnya satu kaki adalah satuan panjang atau sekon adalah satuan waktu. Kami menggunakan pon (atau satuan berat lainnya) untuk mendeskripsikan berat berbagai benda, terlepas dari bahan apa benda tersebut dibuat. Jadi jawaban atas pertanyaan Anda adalah satu pon bulu dan satu pon batu bata memiliki berat yang sama.
Contoh C: Penalaran
Pengguna: Jika seorang peternak mempunyai 17 ekor domba dan semuanya mati kecuali 9 ekor, berapa yang tersisa?
UltraLM: Jumlah domba yang tersisa adalah 9 ekor.
Contoh D: Penalaran
Pengguna: Jika rumah merah terbuat dari batu bata merah, dan rumah biru terbuat dari batu bata biru, rumah kaca terbuat dari apa?
UltraLM: Rumah kaca tidak terbuat dari batu bata hijau, melainkan dari bahan seperti kaca atau plastik yang memungkinkan cahaya masuk dan menciptakan lingkungan terkendali bagi tanaman untuk tumbuh. Rumah kaca bisa hadir dalam berbagai macam warna, termasuk hijau, namun warna bangunan itu sendiri tidak mempengaruhi tanaman yang tumbuh di dalamnya.
Contoh E: Penciptaan
Pengguna: Tulis puisi tentang elektromagnetisme.
UltraLM: Elektromagnetisme adalah kekuatan yang tidak bisa kita abaikan,
Itu adalah alasan dari banyak hal yang kita kagumi. Dalam medan magnet, seutas kawat akan menyala,
Dan elektron akan sejajar, baik yang lama maupun yang baru.
Listrik dan magnet saling berkaitan,
Yang satu menciptakan bidang, yang lain menciptakan merek.
Medan magnet dapat mendorong dan menarik,
Pada kawat yang berarus listrik, ia akan bereaksi penuh.
Daya tarik dan penolakan yang ditimbulkannya,
Apakah alasan untuk banyak hal.
Dari motor hingga generator, dan masih banyak lagi di antaranya,
Elektromagnetisme adalah akar dari maknanya.
Itu adalah kekuatan yang ada di sekitar kita,
Mulai dari kompas hingga saklar lampu.
Dengan kekuatannya, ia bisa berbuat banyak,
Dari jarum sederhana hingga daya dorong roket.
Ini adalah kekuatan yang tidak dapat kita tolak,
Karena itu adalah bagian dari hidup kita.
Elektromagnetisme adalah sesuatu yang patut dikagumi,
Tentu saja, dari segi kekuatan dan kekuatannya, ia tidak ada bandingannya.
Contoh F: Penciptaan
Pengguna: Tulislah cerita pendek tentang detik pertama alam semesta.
UltraLM: Pada detik pertama alam semesta, kegelapan berkuasa. Tidak ada cahaya, tidak ada suara, tidak ada bentuk, tidak ada substansi. Belum ada yang terjadi, tapi ada kekuatan yang kuat, energi mentah yang menunggu untuk dilepaskan. Dalam batas tak terhingga, detik pertama memiliki potensi penciptaan dalam genggamannya. Dan kemudian, dengan ledakan dahsyat, sebuah titik cahaya terang muncul. Di dalamnya, partikel-partikel paling mendasar lahir, bentuknya belum diketahui saat mereka bertabrakan dengan heboh dalam tarian penciptaan yang kacau balau. Dalam cahaya primordial ini, setiap kekuatan alam dan setiap komponen kehidupan digerakkan dari energi murni ke realitas fisik. Atom-atom pertama dengan cepat berkumpul, dan dari sanalah bintang-bintang dan galaksi-galaksi mulai terbentuk. Perpaduan keduanya menciptakan lingkungan panas yang mendorong kembali kehampaan, membentuk kosmos melalui gelombang yang meluas dan mendingin. Dalam kosmis pertama ini, tidak ada struktur pengalaman, bahkan waktu atau ruang, yang dapat menetapkan aturannya. Untuk sesaat, keseluruhan alam semesta ada dalam sebuah hubungan embrionik, sebuah singularitas kosmik yang menjadi asal muasal semua keberadaan di masa depan. Itu adalah mikrokosmos yang membentuk makrokosmos yang pada akhirnya menjadi bagiannya, momen kelahirannya merupakan sebuah metafora untuk siklus penciptaan yang menembus multiverse. Dari satu titik cahaya itu, sebuah alam semesta tanpa batas terbentang. Selama berabad-abad, ribuan tahun ke depan, dan selamanya, hal ini tetap menjadi titik paling mendasar dalam perjalanannya yang tak henti-hentinya menuju kedalaman Great Beyond. Detik pertama adalah awal dari segalanya.
Proyek ini bertujuan untuk membangun data dialog sumber terbuka, berskala besar, dan multi-putaran yang didukung oleh Turbo API untuk memfasilitasi pembangunan model bahasa yang kuat dengan kemampuan percakapan umum. Dengan mempertimbangkan faktor-faktor seperti menjaga privasi, kami tidak secara langsung menggunakan data apa pun yang tersedia di Internet sebagai petunjuk .
Penafian: Meskipun proses pembuatan UltraChat TIDAK melibatkan data tolok ukur apa pun yang tersedia untuk umum, penskalaan hingga batas tertentu masih dapat mengakibatkan tumpang tindih dalam beberapa tolok ukur evaluasi. Kami ingin menekankan lagi bahwa semua data dihasilkan secara otomatis (termasuk instruksi dan tanggapan) , dan kami tidak memasukkan data benchmark terbuka apa pun. Misalnya, UltraChat dirilis (April 2023) lebih awal dari Alpaca Eval (Mei 2023). Kami mendorong pengguna untuk memonitor fenomena tersebut dengan cermat, sementara kami juga secara aktif mempertimbangkan bagaimana mengevaluasi LLM dengan lebih tepat.
Kumpulan data ini dimaksudkan semata-mata untuk tujuan penelitian dan pendidikan dan tidak boleh ditafsirkan sebagai mencerminkan pendapat atau pandangan pembuat, pemilik, atau kontributor kumpulan data ini. Dan itu didistribusikan di bawah lisensi MIT.
Jelajahi data sebelum mengunduh, atau gunakan Atlas explorer.
Tautan Unduh Langsung:
Setiap baris dalam file data yang diunduh adalah dict json yang berisi id data dan data dialog dalam format daftar. Di bawah ini adalah contoh baris.
{
"id" : " 0 " ,
"data" : [
" How can cross training benefit groups like runners, swimmers, or weightlifters? " ,
" Cross training can benefit groups like runners, swimmers, or weightlifters in the following ways: ... " ,
" That makes sense. I've been wanting to improve my running time, but I never thought about incorporating strength training. Do you have any recommendations for specific exercises? " ,
" Sure, here are some strength training exercises that can benefit runners: ... " ,
" Hmm, I'm not really a fan of weightlifting though. Can I incorporate other forms of exercise into my routine to improve my running time? " ,
" Yes, absolutely! ... " ,
" ... "
]
}
Kami memberikan kode pelatihan untuk menyempurnakan LLaMa (namun kami tidak mendistribusikan bobot LLaMa) di UltraChat dalam .src/
, pelatihan tersebut dipercepat oleh BMTrain.
Unduh data yang dirilis dan letakkan di bawah ./data
Jalankan train_bm.py
, misalnya:
WANDB_MODE= " offline " torchrun --nnodes=1 --nproc_per_node=8 --rdzv_id=1 --rdzv_backend=c10d --rdzv_endpoint=localhost:50003 train_bm.py --tensorboard ./ultrachat_llama_tb_2 --save_step 5000 --logging_step 100
Kami juga menyediakan skrip pelatihan untuk menyempurnakan GPT-J di UltraChat dalam .src/train_legacy/
, yang diimplementasikan dengan OpenPrompt
./data
accelerate launch train.py
untuk memulai pelatihan Ide umum UltraChat adalah menggunakan LLM terpisah untuk menghasilkan kalimat pembuka, menyimulasikan pengguna, dan merespons pertanyaan. Setiap sektor UltraChat memiliki tantangannya sendiri dan memerlukan rancangan strategi tertentu. Kami akan menentukan proses konstruksi setelah sektor UltraChat dirilis.
Jangan ragu untuk mengutip repo jika menurut Anda UltraChat berguna.
@article { ding2023enhancing ,
title = { Enhancing Chat Language Models by Scaling High-quality Instructional Conversations } ,
author = { Ding, Ning and Chen, Yulin and Xu, Bokai and Qin, Yujia and Zheng, Zhi and Hu, Shengding and Liu, Zhiyuan and Sun, Maosong and Zhou, Bowen } ,
journal = { arXiv preprint arXiv:2305.14233 } ,
year = { 2023 }
}