Penelitian akademik bergantung pada pencarian literatur yang efisien, tetapi mesin pencari yang ada sulit untuk memenuhi kebutuhan pertanyaan profesional yang kompleks. Misalnya, penelitian pembelajaran penguatan non-stasioner untuk algoritma spesifik (seperti metode UCB) membutuhkan kemampuan pencarian dan analisis yang lebih kuat. Para peneliti sering menghabiskan banyak waktu dan upaya secara manual mengambil database akademik yang sangat besar. Artikel ini memperkenalkan PASA, yang dikembangkan sendiri oleh Hytedance Research Institute dan Peking University, agen pencarian kertas akademik otonom berdasarkan model bahasa besar (LLM), yang bertujuan untuk menyelesaikan masalah ini.
Di bidang penelitian akademik, pencarian literatur adalah tugas yang kompleks dan penting untuk mendapatkan informasi. Para peneliti harus dapat menangani bidang -bidang yang kompleks dan keahlian dari kemampuan pencarian untuk memenuhi kebutuhan penelitian yang cermat. Namun, platform pencarian akademik yang ada, seperti Google Cendekia, sering berjuang untuk mengatasi pertanyaan penelitian yang kompleks ini. Misalnya, kueri profesional untuk pembelajaran penguatan non-stasioner menggunakan metode UCB membutuhkan komputasi yang lebih kuat dan kemampuan analitik. Selain itu, para peneliti sering perlu menghabiskan banyak waktu dan upaya secara manual menjelajahi basis data akademik yang besar saat melakukan tinjauan literatur.
Meskipun beberapa penelitian telah mengeksplorasi penerapan model bahasa besar (LLM) dalam pencarian kertas akademik dan penemuan ilmiah, alat pencarian tradisional masih mengalami kesulitan memenuhi kebutuhan penelitian profesional yang kompleks. Banyak penelitian fokus pada pengembangan agen LLM melalui kerangka kerja optimasi dan teknologi rekayasa yang cepat. Kesenjangan besar datang.
Baru-baru ini, Bytedance Research Institute dan peneliti dari Peking University bersama-sama mengusulkan PASA, agen pencarian kertas berbasis LLM yang inovatif. PASA dapat secara mandiri menjalankan strategi pencarian yang kompleks, termasuk panggilan alat, pembacaan kertas dan pemilihan referensi, yang bertujuan untuk menghasilkan hasil yang komprehensif dan akurat untuk pertanyaan akademik yang kompleks. Untuk mengoptimalkan kinerja PASA, tim peneliti menciptakan AutoscholarQuery, dataset sintetis yang berisi 35.000 pertanyaan akademik berbutir halus, dan mendirikan RealscholarQuery sebagai tolok ukur untuk mengevaluasi kinerja aktual agen. Sistem ini menggunakan teknik pembelajaran penguatan untuk meningkatkan kemampuan pencarian, memecahkan batasan utama dalam metode pencarian akademik yang ada.
Sistem PASA terdiri dari dua agen LLM: crawler dan pemilih yang bekerja sama untuk melakukan pencarian kertas akademik yang komprehensif. Crawler pertama -tama menganalisis kueri pengguna untuk menghasilkan beberapa kueri pencarian granular untuk mendapatkan makalah yang relevan dan menambahkan makalah ini ke antrian kertas khusus. Crawlers memproses setiap kertas yang antri, mengidentifikasi dan mengeksplorasi kutipan -kutipan utama yang dapat memperluas ruang lingkup penelitian, dan secara dinamis menambahkan makalah terkait yang baru ditemukan ke dalam daftar. Pemilih kemudian akan mengevaluasi apakah setiap kertas memenuhi persyaratan kueri asli.
Hasil eksperimen menunjukkan bahwa PASA-7B melakukan superior dalam beberapa tes benchmark. Pada set uji AutoscholarQuery, PASA-7B telah meningkat 9,64% dalam penarikan dibandingkan dengan PASA-GPT-4O. Saat menghadapi tolok ukur berbasis Google, tingkat penarikan PASA-7B meningkat antara 33,80% dan 42,64%. Dalam skenario realscholarQuery yang lebih menantang, PASA-7B menunjukkan peningkatan penarikan kembali 30,36% dan peningkatan akurasi 4,25%.
Secara umum, peluncuran PASA menandai kemajuan penting dalam teknologi pencarian kertas akademik dan memberikan solusi yang efektif untuk pengambilan informasi penelitian akademik. Dengan menggabungkan model bahasa besar dan teknik pembelajaran penguatan, PASA sangat mengurangi waktu dan upaya yang diinvestasikan oleh para peneliti dalam ulasan literatur, sementara juga memberi mereka alat yang efisien untuk menangani lingkungan literatur akademik yang semakin besar dan kompleks.
Kode: https://github.com/bytedance/pasa
Kertas: https://arxiv.org/abs/2501.10120
Poin:
** PASA adalah agen pencarian kertas akademis yang cerdas yang diluncurkan bersama oleh peneliti Bytedance dan Peking University. **
** Sistem ini terdiri dari dua agen LLM, crawler dan pemilih, dan dapat secara independen menjalankan strategi pencarian yang kompleks. **
** Hasil eksperimen menunjukkan bahwa PASA-7B berkinerja lebih baik daripada metode pencarian yang ada dalam beberapa tes benchmark, secara signifikan meningkatkan efisiensi dan akurasi pencarian kertas. **
Munculnya PASA telah membawa perubahan revolusioner pada penelitian akademik. Di masa depan, pengembangan lebih lanjut dan penerapan PASA layak untuk dinantikan.