Baru-baru ini, pembelajaran alat dengan model bahasa besar (LLM) telah muncul sebagai paradigma yang menjanjikan untuk menambah kemampuan LLM dalam mengatasi masalah yang sangat kompleks.
Demikian kumpulan makalah terkait pembelajaran alat dengan LLM. Makalah ini disusun berdasarkan makalah survei kami "Pembelajaran Alat dengan Model Bahasa Besar: Sebuah Survei".
中文: Kami memperhatikan bahwa PaperAgent dan 旺知识 telah memberikan pengenalan singkat dan komprehensif dalam bahasa Mandarin. Kami sangat menghargai bantuan mereka.
? Makalah survei kami diterima oleh Frontiers of Computer Science (FCS) . Versi terbaru dari makalah kami telah dirilis; silakan periksa!
Jangan ragu untuk menghubungi kami jika Anda memiliki pertanyaan atau saran!
?? Silakan membuka terbitan atau membuat permintaan penarikan! ??
Jika menurut Anda pekerjaan kami membantu penelitian Anda, silakan mengutip makalah kami:
@article { qu2024toolsurvey ,
author = { Qu, Changle and Dai, Sunhao and Wei, Xiaochi and Cai, Hengyi and Wang, Shuaiqiang and Yin, Dawei and Xu, Jun and Wen, Ji-Rong } ,
title = { Tool Learning with Large Language Models: A Survey } ,
journal = { arXiv preprint arXiv:2405.17935 } ,
year = { 2024 }
}
Baru-baru ini, pembelajaran alat dengan model bahasa besar (LLM) telah muncul sebagai paradigma yang menjanjikan untuk menambah kemampuan LLM dalam mengatasi masalah yang sangat kompleks. Meskipun perhatian meningkat dan kemajuan pesat dalam bidang ini, literatur yang ada masih terfragmentasi dan tidak memiliki organisasi yang sistematis, sehingga menimbulkan hambatan masuk bagi pendatang baru. Kesenjangan ini memotivasi kami untuk melakukan survei komprehensif terhadap karya yang ada mengenai pembelajaran alat dengan LLM. Dalam survei ini, kami fokus meninjau literatur yang ada dari dua aspek utama (1) mengapa pembelajaran alat bermanfaat dan (2) bagaimana pembelajaran alat diterapkan, sehingga memungkinkan pemahaman komprehensif tentang pembelajaran alat dengan LLM. Pertama-tama kami mengeksplorasi “mengapa” dengan meninjau manfaat integrasi alat dan manfaat inheren paradigma pembelajaran alat dari enam aspek spesifik. Dalam hal “bagaimana”, kami secara sistematis meninjau literatur berdasarkan taksonomi empat tahapan utama dalam alur kerja pembelajaran alat: perencanaan tugas, pemilihan alat, pemanggilan alat, dan pembuatan respons. Selain itu, kami memberikan ringkasan rinci tentang tolok ukur dan metode evaluasi yang ada, mengkategorikannya berdasarkan relevansinya pada tahapan yang berbeda. Terakhir, kami membahas tantangan-tantangan saat ini dan menguraikan potensi arah masa depan, yang bertujuan untuk menginspirasi para peneliti dan pengembang industri untuk mengeksplorasi lebih jauh bidang yang sedang berkembang dan menjanjikan ini.
Akuisisi Pengetahuan.
Mesin Pencari
Generasi Dialog Bertambah Internet , ACL 2022. [Makalah]
WebGPT: Menjawab pertanyaan dengan bantuan browser dengan masukan manusia , Pracetak 2021. [Makalah]
Model bahasa yang ditambah internet melalui beberapa langkah yang mendorong untuk menjawab pertanyaan domain terbuka , Pracetak 2022. [Makalah]
REPLUG: Model Bahasa Black-Box Retrieval-Augmented , Pracetak 2023. [Makalah]
Pembentuk Alat: Model Bahasa Dapat Belajar Sendiri Menggunakan Alat , NeurIPS 2023. [Makalah]
ART: Penalaran multi-langkah otomatis dan penggunaan alat untuk model bahasa besar , Pracetak 2023. [Makalah]
ToolCoder: Ajarkan Model Pembuatan Kode untuk menggunakan alat pencarian API , Pracetak 2023. [Makalah]
KRITIK: Model Bahasa Besar Dapat Mengoreksi Diri dengan Kritik Interaktif Alat , ICLR 2024. [Makalah]
Basis Data & Grafik Pengetahuan
Lamda: Model bahasa untuk aplikasi dialog , Pracetak 2022. [Makalah]
Gorila: Model Bahasa Besar yang Terhubung dengan API Masif , NeurIPS 2024. [Makalah]
ToolkenGPT: Menambah Model Bahasa Frozen dengan Alat Masif melalui Tool Embeddings , NeurIPS 2023. [Makalah]
ToolQA: Kumpulan Data untuk Menjawab Pertanyaan LLM dengan Alat Eksternal , NeurIPS 2023. [Makalah]
Penggunaan Alat Bebas Kesalahan Sintaks dan Dapat Digeneralisasikan untuk LLM melalui Decoding Keadaan Hingga , NeurIPS 2023. [Makalah]
Middleware untuk LLM: Alat Berperan untuk Agen Bahasa di Lingkungan Kompleks , EMNLP 2024. [Makalah]
Cuaca atau Peta
Tentang Kemampuan Manipulasi Alat Model Bahasa Besar Sumber Terbuka , NeurIPS 2023. [Makalah]
ToolAlpaca: Pembelajaran Alat Umum untuk Model Bahasa dengan 3000 Kasus Simulasi , Pracetak 2023. [Makalah]
Alat Pembelajaran dengan Model Fondasi , Pracetak 2023. [Makalah]
Peningkatan Keahlian.
Alat Matematika
Pelatihan verifikator untuk menyelesaikan soal cerita matematika , Pracetak 2021. [Makalah]
Sistem MRKL: Arsitektur neuro-simbolis modular yang menggabungkan model bahasa besar, sumber pengetahuan eksternal, dan penalaran terpisah , Pracetak 2021. [Makalah]
Merangkai Pemikiran Simultan untuk Penalaran Numerik , EMNLP 2022. [Makalah]
Calc-X dan Calcformers: Memberdayakan Rantai Pemikiran Aritmatika melalui Interaksi dengan Sistem Simbolik , EMNLP 2023. [Makalah]
Memecahkan masalah kata matematika dengan menggabungkan model bahasa dengan pemecah simbolik , NeurIPS 2023. [Makalah]
Mengevaluasi dan meningkatkan penalaran matematika intensif komputasi yang ditambah alat , NeurIPS 2023. [Makalah]
ToRA: Agen Penalaran Terintegrasi Alat untuk Pemecahan Masalah Matematika , ICLR 2024. [Makalah]
MATHSENSEI: Model Bahasa Besar yang Ditambah Alat untuk Penalaran Matematika , Pracetak 2024. [Makalah]
Calc-CMU di SemEval-2024 Tugas 7: Pra-Calc -- Belajar Menggunakan Kalkulator Meningkatkan Numerasi dalam Model Bahasa , NAACL 2024. [Makalah]
MathViz-E: Studi Kasus di Agen Pengguna Alat Khusus Domain , Pracetak 2024. [Makalah]
Penerjemah Python
Sobat: Model bahasa berbantuan program , ICML 2023. [Makalah]
Program Pemikiran Anjuran: Menguraikan Komputasi dari Penalaran untuk Tugas Penalaran Numerik , TMLR 2023. [Makalah]
Klaim Kompleks Pengecekan Fakta dengan Penalaran Berpanduan Program , ACL 2023. [Makalah]
Bunglon: Penalaran Komposisi Plug-and-Play dengan Model Bahasa Besar , NeurIPS 2023. [Makalah]
LeTI: Belajar Menghasilkan dari Interaksi Tekstual , NAACL 2024. [Makalah]
Mint: Mengevaluasi ilmu dalam interaksi multi-putaran dengan alat dan umpan balik bahasa , ICLR 2024. [Makalah]
Tindakan Kode yang Dapat Dieksekusi Menghasilkan Agen LLM yang Lebih Baik , ICML 2024. [Makalah]
CodeNav: Selain penggunaan alat hingga penggunaan basis kode dunia nyata dengan agen LLM , Pracetak 2024. [Makalah]
APPL: Bahasa Pemrograman Cepat untuk Integrasi Program yang Harmonis dan Perintah Model Bahasa Besar , Pracetak 2024. [Makalah]
BigCodeBench: Pembuatan Kode Tolok Ukur dengan Beragam Panggilan Fungsi dan Instruksi Kompleks , Pracetak 2024. [Makalah]
CodeAgent: Meningkatkan Pembuatan Kode dengan Sistem Agen Terintegrasi Alat untuk Tantangan Pengodean Tingkat Repo Dunia Nyata , ACL 2024. [Makalah]
MuMath-Code: Menggabungkan Model Bahasa Besar Penggunaan Alat dengan Augmentasi Data Multi-perspektif untuk Penalaran Matematika , EMNLP 2024. [Makalah]
Yang lain
MultiTool-CoT: GPT-3 Dapat Menggunakan Beberapa Alat Eksternal dengan Anjuran Rantai Pemikiran , ACL 2023. [Makalah]
ChemCrow: Menambah model bahasa besar dengan alat kimia , Nature Machine Intelligence 2024. [Makalah]
TINJAUAN MODEL BAHASA BESAR DAN AGEN OTONOM DALAM KIMIA , Pracetak 2024. [Makalah]
GeneGPT: Menambah Model Bahasa Besar dengan Alat Domain untuk Peningkatan Akses ke Informasi Biomedis , ISMB 2024. [Makalah]
Melengkapi Model Bahasa dengan Kemampuan Penggunaan Alat untuk Analisis Data Tabular di Bidang Keuangan , EACL 2024. [Makalah]
Simulasi Pasar Keuangan melalui Agen Berbasis Model Bahasa Besar , Pracetak 2024. [Makalah]
Agen Yayasan Multimodal untuk Perdagangan Keuangan: Alat-Augmented, Diversifikasi, dan Generalis , KDD 2024. [Makalah]
AgentMD: Memberdayakan Agen Bahasa untuk Prediksi Risiko dengan Pembelajaran Alat Klinis Skala Besar , Pracetak 2024. [Makalah]
SCIAGENT: Model Bahasa yang Ditambah Alat untuk Penalaran Ilmiah , EMNLP 2024. [Makalah]
MMedAgent: Belajar Menggunakan Alat Kesehatan dengan Agen Multimodal , Temuan EMNLP 2024. [Kertas]
Biarkan Saya Melakukannya Untuk Anda: Menuju Rekomendasi Pemberdayaan LLM melalui Pembelajaran Alat , SIGIR 2024. [Makalah]
REACT KHUSUS DOMAIN UNTUK PEMODELAN ITERATIVE TERINTEGRASI FISIKA: STUDI KASUS AGEN LLM UNTUK ANALISIS JALUR GAS PADA TURBIN GAS , Pracetak 2024. [Makalah]
WORLDAPIS: Dunia Bernilai Berapa Banyak API? Eksperimen Pemikiran , Lokakarya ACL 2024. [Kertas]
Agen Berbantuan Alat pada Inspeksi dan Penyempurnaan SQL dalam Skenario Dunia Nyata , Pracetak 2024. [Makalah]
HoneyComb: Sistem Agen Berbasis LLM Fleksibel untuk Ilmu Material , Pracetak 2024. [Makalah]
Otomatisasi dan Efisiensi.
Alat Jadwal
ToolQA: Kumpulan Data untuk Menjawab Pertanyaan LLM dengan Alat Eksternal , NeurIPS 2023. [Makalah]
Setel Pengingat
ToolLLM: Memfasilitasi Model Bahasa Besar untuk Menguasai 16000+ API Dunia Nyata , ICLR 2024. [Makalah]
Saring Email
ToolLLM: Memfasilitasi Model Bahasa Besar untuk Menguasai 16000+ API Dunia Nyata , ICLR 2024. [Makalah]
Manajemen Proyek
ToolLLM: Memfasilitasi Model Bahasa Besar untuk Menguasai 16000+ API Dunia Nyata , ICLR 2024. [Makalah]
Asisten Belanja Online
WebShop: Menuju Interaksi Web Dunia Nyata yang Skalabel dengan Agen Bahasa Dasar , NeurIPS 2022. [Makalah]
Peningkatan Interaksi.
Alat Multi-modal
Vipergpt: Inferensi visual melalui eksekusi python untuk penalaran , ICCV 2023. [Makalah]
MM-REACT: Mendorong ChatGPT untuk Penalaran dan Tindakan Multimodal , Pracetak 2023. [Makalah]
InternGPT: Menyelesaikan Tugas Berpusat pada Visi dengan Berinteraksi dengan ChatGPT Beyond Language , Pracetak 2023. [Makalah]
AssistGPT: Asisten Multi-modal Umum yang dapat Merencanakan, Melaksanakan, Memeriksa, dan Mempelajari , Pracetak 2023. [Makalah]
CLOVA: Asisten visual loop tertutup dengan penggunaan dan pembaruan alat , CVPR 2024. [Makalah]
DiffAgent: Pemilihan API Text-to-Image yang Cepat dan Akurat dengan Model Bahasa Besar , CVPR 2024. [Makalah]
MLLM-Tool: Model Bahasa Besar Multimodal Untuk Pembelajaran Agen Alat , Pracetak 2024. [Makalah]
m&m's: Tolok Ukur untuk Mengevaluasi Penggunaan Alat untuk Tugas multi-modal multi-langkah , Pracetak 2024. [Makalah]
Dari Yang Paling Kecil hingga Paling Banyak: Membangun Penalaran Visual Plug-and-Play melalui Sintesis Data , Pracetak 2024. [Makalah]
Penerjemah Mesin
Pembentuk Alat: Model Bahasa Dapat Belajar Sendiri Menggunakan Alat , NeurIPS 2023. [Makalah]
Alat Pembelajaran dengan Model Fondasi , Pracetak 2023. [Makalah]
Alat Pemrosesan Bahasa Alami
HuggingGPT: Menyelesaikan Tugas AI dengan ChatGPT dan Temannya di Hugging Face , NeurIPS 2023. [Makalah]
GitAgent: Memfasilitasi Agen Otonom dengan GitHub dengan Tool Extension , Preprint 2023. [Paper]
Anjuran Rantai Pemikiran Menimbulkan Penalaran dalam Model Bahasa Besar , NeurIPS 2022. [Makalah]
ReAct: Mensinergikan Penalaran dan Tindakan dalam Model Bahasa , ICLR 2023. [Makalah]
ART: Penalaran multi-langkah otomatis dan penggunaan alat untuk model bahasa besar , Pracetak 2023. [Makalah]
HuggingGPT: Menyelesaikan Tugas AI dengan ChatGPT dan Temannya di Hugging Face , NeurIPS 2023. [Makalah]
Graph-ToolFormer: Untuk Memberdayakan LLM dengan Kemampuan Penalaran Grafik melalui Prompt Ditambah dengan ChatGPT , Pracetak 2023. [Makalah]
Model Bahasa Besar sebagai Pembuat Alat , ICLR 2024. [Makalah]
PENCIPTA: Penciptaan Alat untuk Mengurai Penalaran Abstrak dan Konkret Model Bahasa Besar , EMNLP 2023. [Makalah]
ChatCoT: Penalaran Rantai Pemikiran yang Ditambah Alat pada Model Bahasa Besar Berbasis Obrolan , EMNLP 2023. [Makalah]
FactTool: Deteksi Faktualitas dalam AI Generatif -- Kerangka Alat yang Ditambah untuk Skenario Multi-Tugas dan Multi-Domain , Pracetak 2023. [Makalah]
TPTU: Agen AI Berbasis Model Bahasa Besar untuk Perencanaan Tugas dan Penggunaan Alat , Pracetak 2023. [Makalah]
ToolChain*: Navigasi Ruang Aksi yang Efisien dalam Model Bahasa Besar dengan Pencarian A* , ICLR 2024. [Makalah]
Perkuat Paranada Terpendek dalam Perhatian: Meningkatkan Kesadaran Konteks Model Bahasa Besar untuk Penggunaan Alat yang Efektif , ACL 2024. [Makalah]
TroVE: Mendorong Kotak Alat yang Dapat Diverifikasi dan Efisien untuk Menyelesaikan Tugas Terprogram , Pracetak 2024. [Makalah]
SwissNYF: Agen LLM Beralas Alat untuk Pengaturan Kotak Hitam , Pracetak 2024. [Makalah]
Dari Ringkasan ke Tindakan: Meningkatkan Model Bahasa Besar untuk Tugas Kompleks dengan Open World API , Pracetak 2024. [Makalah]
Pembelajaran Alat Terbatas Anggaran dengan Perencanaan , Temuan ACL 2024. [Kertas]
Merencanakan dan Mengedit Apa yang Anda Ambil untuk Pembelajaran Alat yang Ditingkatkan , NAACL 2024. [Makalah]
Model Bahasa Besar Dapat Merencanakan Perjalanan Anda Secara Ketat dengan Alat Verifikasi Formal , Pracetak 2024. [Makalah]
Smurf: Memanfaatkan Berbagai Agen Kemahiran dengan Efisiensi Konteks untuk Perencanaan Alat , Pracetak 2024. [Makalah]
STRIDE: Kerangka Kerja Agen LLM Berbantuan Alat untuk Pengambilan Keputusan Strategis dan Interaktif , Pracetak 2024. [Makalah]
Rantai Alat: Model Bahasa Besar adalah Pembelajar Multi-alat Otomatis , Pracetak 2024. [Makalah]
Dapatkah Pembelajaran Grafik Meningkatkan Perencanaan di Agen berbasis LLM? , NeurIPS 2024. [Makalah]
Tool-Planner: Perencanaan Pohon Solusi Dinamis untuk Model Bahasa Besar dengan Tool Clustering , Pracetak 2024. [Makalah]
Alat Gagal: Mendeteksi Kesalahan Senyap pada Alat yang Rusak , EMNLP 2024. [Makalah]
Apa yang Mempengaruhi Stabilitas Alat Pembelajaran? Kajian Empiris tentang Kekokohan Kerangka Pembelajaran Alat , Pracetak 2024. [Makalah]
Agen Tulip -- Memungkinkan Agen Berbasis LLM untuk Menyelesaikan Tugas Menggunakan Pustaka Alat Besar , Pracetak 2024. [Makalah]
Gudang Peralatan: Agen yang Dilengkapi Alat Skala dengan Penggabungan RAG-Tool Tingkat Lanjut dan Basis Pengetahuan Alat , Pracetak 2024. [Makalah]
Dari Eksplorasi hingga Penguasaan: Mengaktifkan LLM ke Alat Utama melalui Interaksi Berbasis Mandiri , Pracetak 2024. [Makalah]
TaskMatrix.AI: Menyelesaikan Tugas dengan Menghubungkan Model Fondasi dengan Jutaan API , KOMPUTASI CERDAS 2024. [Makalah]
OpenAGI: Saat LLM Bertemu Pakar Domain , Neurips 2023. [Makalah]
ToolLLM: Memfasilitasi Model Bahasa Besar untuk Menguasai 16000+ API Dunia Nyata , ICLR 2024. [Makalah]
Toolink: Menghubungkan Pembuatan dan Penggunaan Toolkit melalui Chain-of-Solving pada Model Open-Source , Pracetak 2023. [Makalah]
TPTU-v2: Meningkatkan Perencanaan Tugas dan Penggunaan Alat Agen Berbasis Model Bahasa Besar dalam Sistem Dunia Nyata , ICLR 2024. [Makalah]
Menavigasi Ketidakpastian: Mengoptimalkan Ketergantungan API untuk Pengurangan Halusinasi dalam Menjawab Pertanyaan Buku Tertutup , ECIR 2024. [Makalah]
LLM Kecil Adalah Pembelajar Alat yang Lemah: Agen Multi-LLM , EMNLP 2024. [Makalah]
Penggunaan Alat yang Efisien dengan Penalaran Rantai Abstraksi , Pracetak 2024. [Makalah]
Perhatikan Sebelum Anda Melompat: Menuju Penggunaan Alat yang Sadar Keputusan dan Dapat Digeneralisasikan untuk Model Bahasa Besar , Pracetak 2024. [Makalah]
LLM API Berbasis Solusi Menggunakan Metodologi Pencarian Informasi Akademik , Pracetak 2024. [Makalah]
Memajukan Model Bahasa Besar yang Ditambah Alat: Mengintegrasikan Wawasan dari Kesalahan di Pohon Inferensi , NeurIPS 2024. [Makalah]
APIGen: Pipeline Otomatis untuk Menghasilkan Kumpulan Data Pemanggil Fungsi yang Dapat Diverifikasi dan Beragam , Pracetak 2024. [Makalah]
MetaTool: Memfasilitasi Model Bahasa Besar untuk Menguasai Alat dengan Augmentasi Tugas Meta , Pracetak 2024. [Makalah]
ToolPlanner: Alat LLM yang Ditambah untuk Instruksi Multi Granularitas dengan Perencanaan Jalur dan Umpan Balik , EMNLP 2024. [Makalah]
Interpretasi statistik kekhususan istilah dan penerapannya dalam pengambilan , Jurnal Dokumentasi 1972. [Makalah]
Kerangka relevansi probabilistik: BM25 dan seterusnya , Landasan dan Tren Pengambilan Informasi 2009. [Makalah]
Kalimat-bert: Penyematan kalimat menggunakan jaringan bert siam , EMNLP 2019. [Makalah]
Perkiraan pembelajaran kontrastif negatif tetangga terdekat untuk pengambilan teks padat , ICLR 2021. [Makalah]
Mengajarkan Dense Retriever yang Efektif secara Efisien dengan Pengambilan Sampel Sadar Topik yang Seimbang , SIGIR 2021. [Makalah]
Pra-pelatihan Model Bahasa Corpus Aware Tanpa Pengawasan untuk Pengambilan Bagian Padat , ACL 2022. [Makalah]
Pengambilan informasi padat tanpa pengawasan dengan pembelajaran kontrastif , Pracetak 2021. [Makalah]
CRAFT: Menyesuaikan LLM dengan Membuat dan Mengambil dari Perangkat Khusus , ICLR 2024. [Makalah]
ProTIP: Pengambilan Alat Progresif Meningkatkan Perencanaan , Pracetak 2023. [Makalah]
ToolRerank: Pemeringkatan Ulang yang Adaptif dan Sadar Hirarki untuk Pengambilan Alat , COLING 2024. [Makalah]
Meningkatkan Pengambilan Alat dengan Umpan Balik Berulang dari Model Bahasa Besar , Temuan EMNLP 2024. [Kertas]
Pemanggilan Ulang: Penulisan Ulang Pemanggilan Alat untuk Pengambilan Alat Zero-Shot , Temuan EMNLP 2024. [Kertas]
Estimasi Representasi Alat yang Efisien dan Skalabel dalam Ruang Vektor , Pracetak 2024. [Makalah]
Gudang Peralatan: Agen yang Dilengkapi Alat Skala dengan Penggabungan RAG-Tool Tingkat Lanjut dan Basis Pengetahuan Alat , Pracetak 2024. [Makalah]
COLT: Menuju Pengambilan Alat Berorientasi Kelengkapan untuk Model Bahasa Besar , CIKM 2024. [Makalah]
Tentang Kemampuan Manipulasi Alat Model Bahasa Besar Sumber Terbuka , Pracetak 2023. [Makalah]
Menjadikan Model Bahasa Alat Pembelajar yang Lebih Baik dengan Umpan Balik Eksekusi , NAACL 2024. [Makalah]
ToolLLM: Memfasilitasi Model Bahasa Besar untuk Menguasai 16000+ API Dunia Nyata , ICLR 2024. [Makalah]
Konfusius: Alat Pembelajaran Iteratif dari Umpan Balik Introspeksi dengan Kurikulum Mudah-ke-Sulit , AAAI 2024. [Makalah]
AnyTool: Agen Hierarki dan Reflektif Diri untuk Panggilan API Skala Besar , Pracetak 2024. [Makalah]
TOOLVERIFIER: Generalisasi Alat Baru melalui Verifikasi Mandiri , Temuan EMNLP 2024. [Kertas]
ToolNet: Menghubungkan Model Bahasa Besar dengan Alat Besar melalui Tool Graph , Preprint 2024. [Makalah]
GeckOpt: Efisiensi Sistem LLM melalui Pemilihan Alat Berbasis Niat , GLSVLSI 2024. [Makalah]
AvaTaR: Mengoptimalkan Agen LLM untuk Pengambilan Pengetahuan Berbantuan Alat , NeurIPS 2024. [Makalah]
Agen Kecil Juga Bisa Rock! Memberdayakan Model Bahasa Kecil sebagai Pendeteksi Halusinasi , Pracetak 2024. [Makalah]
Seleksi Adaptif untuk Alat Homogen: Instansiasi dalam Skenario RAG , Temuan EMNLP 2024. [Kertas]
Dari Eksplorasi hingga Penguasaan: Mengaktifkan LLM ke Alat Utama melalui Interaksi Berbasis Mandiri , Pracetak 2024. [Makalah]
RestGPT: Menghubungkan Model Bahasa Besar dengan RESTful API Dunia Nyata , Pracetak 2023. [Makalah]
Rantai Terbalik: Aturan Umum bagi LLM untuk Menguasai Perencanaan Multi-API , Pracetak 2023. [Makalah]
GEAR: Menambah Model Bahasa dengan Resolusi Alat yang Dapat Digeneralisasikan dan Efisien , EACL 2023. [Makalah]
Dokumentasi Alat Memungkinkan Penggunaan Alat Zero-Shot dengan Model Bahasa Besar , Pracetak 2023. [Makalah]
ControlLLM: Menambah Model Bahasa dengan Alat dengan Menelusuri Grafik , Pracetak 2023. [Makalah]
EASYTOOL: Meningkatkan Agen Berbasis LLM dengan Instruksi Alat Ringkas , Pracetak 2024. [Makalah]
Model Bahasa Besar sebagai Pelacak Status Dialog Zero-shot melalui Pemanggilan Fungsi , ACL 2024. [Makalah]
Kompresi Konteks Ringkas dan Tepat untuk Model Bahasa yang Menggunakan Alat , Temuan ACL 2024. [Kertas]
Gorila: Model Bahasa Besar yang Terhubung dengan API Masif , NeurIPS 2024. [Makalah]
GPT4Tools: Mengajar Model Bahasa Besar Menggunakan Alat melalui Instruksi Mandiri , NeurIPS 2023. [Makalah]
ToolkenGPT: Menambah Model Bahasa Frozen dengan Alat Masif melalui Tool Embeddings , NeurIPS 2023. [Makalah]
Pemodelan Hadiah yang Ditambah Alat , ICLR 2024. [Makalah]
LLM di Imaginarium: Pembelajaran Alat melalui Simulasi Trial and Error , ACL 2024. [Makalah]
ToolACE: Memenangkan Poin Pemanggilan Fungsi LLM , Pracetak 2024. [Makalah]
CITI: Alat Peningkatan yang Memanfaatkan Kemampuan dalam Model Bahasa Besar tanpa Mengorbankan Performa Umum , Pracetak 2024. [Makalah]
Masalah Kualitas: Mengevaluasi Data Sintetis untuk LLM yang Menggunakan Alat , EMNLP 2024. [Makalah]
TALM: Alat Model Bahasa Augmented , Pracetak 2022. [Makalah]
Pembentuk Alat: Model Bahasa Dapat Belajar Sendiri Menggunakan Alat , NeurIPS 2023. [Makalah]
Evaluasi Komprehensif Strategi Pembuatan Berbantuan Alat , EMNLP 2023. [Makalah]
TPE: Menuju Penalaran Komposisi yang Lebih Baik atas Alat Konseptual dengan Kolaborasi Multi-persona , Pracetak 2023. [Makalah]
RECOMP: Meningkatkan LM Retrieval-Augmented dengan Kompresi dan Augmentasi Selektif , ICLR 2024. [Makalah]
Belajar Menggunakan Alat melalui Agen Kooperatif dan Interaktif , Temuan EMNLP 2024. [Kertas]
Tolok ukur | Referensi | Keterangan | #Peralatan | #Instance | Link | Waktu Rilis |
---|---|---|---|---|---|---|
API-Bank | [Kertas] | Menilai kemampuan LLM yang ada dalam merencanakan, mengambil, dan memanggil API. | 73 | 314 | [Repo] | 2023-04 |
APIBench | [Kertas] | Tolok ukur komprehensif yang dibuat dari TorchHub, TensorHub, dan HuggingFace API Model Cards. | 1.645 | 16.450 | [Repo] | 2023-05 |
AlatBench1 | [Kertas] | Tolok ukur manipulasi alat yang terdiri dari beragam alat perangkat lunak untuk tugas-tugas dunia nyata. | 232 | 2.746 | [Repo] | 2023-05 |
AlatAlpaca | [Kertas] | Mengevaluasi kemampuan LLM untuk memanfaatkan alat yang sebelumnya tidak terlihat tanpa pelatihan khusus. | 426 | 3.938 | [Repo] | 2023-06 |
Bangku Istirahat | [Kertas] | Tolok ukur berkualitas tinggi yang terdiri dari dua skenario dunia nyata dan instruksi yang dianotasi oleh manusia dengan jalur solusi emas. | 94 | 157 | [Repo] | 2023-06 |
AlatBench2 | [Kertas] | Kumpulan data penyetelan instruksi untuk penggunaan alat, yang dibuat secara otomatis menggunakan ChatGPT. | 16.464 | 126.486 | [Repo] | 2023-07 |
Alat Meta | [Kertas] | Sebuah tolok ukur yang dirancang untuk mengevaluasi apakah LLM memiliki kesadaran penggunaan alat dan dapat memilih alat dengan benar. | 199 | 21.127 | [Repo] | 2023-10 |
Bangku Tugas | [Kertas] | Tolok ukur yang dirancang untuk mengevaluasi kemampuan LLM dari berbagai aspek, termasuk dekomposisi tugas, pemanggilan alat, dan prediksi parameter. | 103 | 28.271 | [Repo] | 2023-11 |
T-Eval | [Kertas] | Mengevaluasi kemampuan pemanfaatan alat selangkah demi selangkah. | 15 | 533 | [Repo] | 2023-12 |
AlatMata | [Kertas] | Sistem terperinci yang dirancang untuk evaluasi kemampuan pembelajaran alat LLM dalam skenario otentik. | 568 | 382 | [Repo] | 2024-01 |
Alat Ultra | [Kertas] | Tolok ukur baru yang dirancang untuk meningkatkan dan mengevaluasi kemampuan LLM dalam pemanfaatan alat dalam skenario dunia nyata. | 2.032 | 5.824 | [Repo] | 2024-01 |
CAMPURAN API | [Kertas] | Sebuah korpora besar untuk pelatihan dan pengujian sistematis LLM yang dilengkapi alat. | - | 189.040 | [Repo] | 2024-02 |
Alat Segel | [Kertas] | Seal-Tools berisi hard instance yang memanggil beberapa alat untuk menyelesaikan pekerjaan, di antaranya beberapa adalah pemanggilan alat bersarang. | 4.076 | 14.076 | [Repo] | 2024-05 |
AlatQA | [Kertas] | Hal ini dirancang untuk mengevaluasi kemampuan LLM dengan setia dalam menggunakan alat eksternal untuk menjawab pertanyaan.(QA) | 13 | 1.530 | [Repo] | 2023-06 |
AlatEmu | [Kertas] | Kerangka kerja yang menggunakan LM untuk meniru eksekusi alat dan memungkinkan pengujian agen LM yang dapat diskalakan terhadap beragam alat dan skenario.(Keamanan) | 311 | 144 | [Repo] | 2023-09 |
Alat Bicara | [Kertas] | Tolok ukur yang terdiri dari maksud pengguna kompleks yang memerlukan penggunaan alat multi-langkah yang ditentukan melalui dialog.(Percakapan) | 28 | 78 | [Repo] | 2023-11 |
VIoT | [Kertas] | Tolok ukurnya mencakup kumpulan data pelatihan dan metrik kinerja yang ditetapkan untuk 11 model visi yang representatif, dikategorikan ke dalam tiga kelompok menggunakan anotasi semi-otomatis.(VIoT) | 11 | 1.841 | [Repo] | 2023-12 |
RoTBench | [Kertas] | Tolok ukur multi-level untuk mengevaluasi ketahanan LLM dalam pembelajaran alat.(Ketahanan) | 568 | 105 | [Repo] | 2024-01 |
Alat MLLM | [Kertas] | Sebuah sistem yang menggabungkan LLM sumber terbuka dan pembuat enkode multimodal sehingga LLM yang dipelajari dapat menyadari instruksi masukan multimodal dan kemudian memilih alat yang cocok dengan fungsinya dengan benar.(Multimodal) | 932 | 11.642 | [Repo] | 2024-01 |
Alat Pedang | [Kertas] | Kerangka kerja komprehensif yang didedikasikan untuk menyelidiki secara cermat masalah keselamatan yang terkait dengan LLM dalam pembelajaran alat.(Keselamatan) | 100 | 440 | [Repo] | 2024-02 |
SciToolBench | [Kertas] | Mencakup lima domain ilmiah untuk mengevaluasi kemampuan LLM dengan bantuan alat.(Penalaran Sains) | 2.446 | 856 | [Repo] | 2024-02 |
Agen Suntikan | [Kertas] | Tolok ukur yang dirancang untuk menilai kerentanan agen LLM yang terintegrasi dengan alat terhadap serangan IPI.(Keamanan) | 17 | 1.054 | [Repo] | 2024-02 |
Bangku Alat Stabil | [Kertas] | Tolok ukur yang berkembang dari ToolBench, mengusulkan server API virtual dan sistem evaluasi yang stabil.(Stabil) | 16.464 | 126.486 | [Repo] | 2024-03 |
m&m | [Kertas] | Tolok ukur yang berisi tugas multimodal multilangkah 4K+ yang melibatkan 33 alat yang mencakup model multimodal, API publik, dan modul pemrosesan gambar.(Multimodal) | 33 | 4.427 | [Repo] | 2024-03 |
GeoLLM-QA | [Kertas] | Tolok ukur baru dari 1.000 tugas yang beragam, dirancang untuk menangkap alur kerja RS yang kompleks tempat LLM menangani struktur data yang kompleks, penalaran yang berbeda-beda, dan interaksi dengan antarmuka pengguna yang dinamis.(Penginderaan Jarak Jauh) | 117 | 1.000 | [Repo] | 2024-04 |
Lensa Alat | [Kertas] | ToolLens menyertakan kueri yang ringkas namun memiliki banyak segi yang dapat meniru interaksi pengguna di dunia nyata dengan lebih baik. (Pengambilan Alat) | 464 | 18.770 | [Repo] | 2024-05 |
JadiAyBench | [Kertas] | LLM API berbasis Solusi yang menggunakan Metodologi Pencarian Informasi Akademik | 7 | 792 | [Repo], [HF] | 2024-05 |
AlatBH | [Kertas] | Sebuah tolok ukur yang menilai halusinasi LLM melalui dua perspektif: kedalaman dan keluasan. | - | 700 | [Repo] | 2024-06 |
Bangku Pintasan | [Kertas] | Tolok Ukur Dunia Nyata Berskala Besar untuk Agen berbasis API | 1414 | 7627 | [Repo] | 2024-07 |
GTA | [Kertas] | Tolok Ukur untuk Agen Alat Umum | 14 | 229 | [Repo] | 2024-07 |
WTU-Eval | [Kertas] | Tolok Ukur Evaluasi Penggunaan Alat Apakah-atau-Tidak untuk Model Bahasa Besar | 4 | 916 | [Repo] | 2024-07 |
Dunia Aplikasi | [Kertas] | Kumpulan tugas sehari-hari yang kompleks yang memerlukan pengkodean interaktif dengan panggilan API | 457 | 750 | [Repo] | 2024-07 |
Kotak Pasir Alat | [Kertas] | Tolok ukur penggunaan alat yang stateful, percakapan, dan interaktif. | 34 | 1032 | [Repo] | 2024-08 |
CToolEval | [Kertas] | Sebuah tolok ukur yang dirancang untuk mengevaluasi LLM dalam konteks penerapan masyarakat Tiongkok. | 27 | 398 | [Repo] | 2024-08 |
Bangku Alat Bising | [Kertas] | Tolok ukur ini mencakup kumpulan API yang disediakan, pertanyaan ambigu, pertanyaan yang diantisipasi untuk klarifikasi, dan tanggapan terkait. | - | 200 | [Repo] | 2024-09 |
Perencanaan Tugas
Kesadaran Penggunaan Alat
Tolok Ukur MetaTool: Memutuskan Apakah Akan Menggunakan Alat dan Mana yang Akan Digunakan , ICLR 2024. [Makalah]
Bisakah Model Bahasa Besar yang Dilengkapi Alat Menyadari Kondisi yang Tidak Lengkap? , Pracetak 2024. [Kertas]
Tingkat Kelulusan & Tingkat Kemenangan
ToolLLM: Memfasilitasi Model Bahasa Besar untuk Menguasai 16000+ API Dunia Nyata , ICLR 2024. [Makalah]
Ketepatan
T-Eval: Mengevaluasi Kemampuan Pemanfaatan Alat Model Bahasa Besar Langkah demi Langkah , ACL 2024. [Makalah]
RestGPT: Menghubungkan Model Bahasa Besar dengan RESTful API Dunia Nyata , Pracetak 2023. [Makalah]
LLM API Berbasis Solusi Menggunakan Metodologi Pencarian Informasi Akademik , Pracetak 2024. [Makalah]
Pemilihan Alat
Presisi
ShortcutsBench: Tolok Ukur Dunia Nyata Berskala Besar untuk Agen berbasis API , Pracetak 2024. [Makalah]
Mengingat
Recall, presisi dan presisi rata-rata , Departemen Statistika dan Ilmu Aktuaria 2004. [Makalah]
NDCG
Evaluasi teknik IR berbasis perolehan kumulatif , TOIS 2002. [Makalah]
KOMP
COLT: Menuju Pengambilan Alat Berorientasi Kelengkapan untuk Model Bahasa Besar , CIKM 2024. [Makalah]
Panggilan Alat
Sesuai dengan ketentuan
T-Eval: Mengevaluasi Kemampuan Pemanfaatan Alat Model Bahasa Besar Langkah demi Langkah , ACL 2024. [Makalah]
Merencanakan dan Mengedit Apa yang Anda Ambil untuk Pembelajaran Alat yang Ditingkatkan , NAACL 2024. [Makalah]
ToolEyes: Evaluasi Mendetail untuk Kemampuan Pembelajaran Alat Model Bahasa Besar dalam Skenario Dunia Nyata , Pracetak 2024. [Paper3]
ShortcutsBench: Tolok Ukur Dunia Nyata Berskala Besar untuk Agen berbasis API , Pracetak 2024. [Makalah]
Generasi Respons
BIRU
Bleu: Metode Evaluasi Otomatis Terjemahan Mesin , ACL 2002. [Makalah]
PEMERAH
Rouge: Paket untuk evaluasi ringkasan otomatis , ACL 2004. [Makalah]
Pencocokan Tepat
cem: Pencocokan tepat kasar di Stata , The Stata Journal 2009. [Makalah]
Pengisian Parameter
Presisi
ShortcutsBench: Tolok Ukur Dunia Nyata Berskala Besar untuk Agen berbasis API , Pracetak 2024. [Makalah]
Alat PembelajaranMakalah. [Repo]
alat-yang luar biasa-llm. [Repo]
pembelajaran alat yang luar biasa. [Repo]
Model Bahasa Augmented: Survei , TMLR 2024. [Makalah]
Alat Pembelajaran dengan Model Fondasi , Pracetak 2024. [Makalah]
Apa Itu Alat? Survei dari Perspektif Model Bahasa , COLM 2024. [Makalah]