การวิจัยเชิงวิชาการขึ้นอยู่กับการค้นหาวรรณกรรมที่มีประสิทธิภาพ แต่เครื่องมือค้นหาที่มีอยู่นั้นยากที่จะตอบสนองความต้องการของการสืบค้นมืออาชีพที่ซับซ้อน ตัวอย่างเช่นการวิจัยการเรียนรู้การเสริมแรงแบบไม่หยุดนิ่งสำหรับอัลกอริทึมเฉพาะ (เช่นวิธี UCB) ต้องใช้ความสามารถในการค้นหาและการวิเคราะห์ที่แข็งแกร่งขึ้น นักวิจัยมักใช้เวลาและความพยายามในการดึงฐานข้อมูลวิชาการขนาดใหญ่ด้วยตนเอง บทความนี้แนะนำ PASA ซึ่งเป็นผู้พัฒนาตนเองโดยสถาบันวิจัย Bytedance และ Peking University ซึ่งเป็นตัวแทนการค้นหากระดาษวิชาการอิสระตามรูปแบบภาษาขนาดใหญ่ (LLM) โดยมีวัตถุประสงค์เพื่อแก้ปัญหานี้
ในสาขาการวิจัยเชิงวิชาการการค้นหาวรรณกรรมเป็นงานที่ซับซ้อนและสำคัญในการรับข้อมูล นักวิจัยจำเป็นต้องสามารถจัดการกับความสามารถที่ซับซ้อนและมีความสามารถในการค้นหาเพื่อตอบสนองความต้องการการวิจัยที่พิถีพิถัน อย่างไรก็ตามแพลตฟอร์มการค้นหาทางวิชาการที่มีอยู่เช่น Google Scholar มักจะดิ้นรนเพื่อรับมือกับการสืบค้นการวิจัยที่ซับซ้อนเหล่านี้ ตัวอย่างเช่นการสืบค้นระดับมืออาชีพสำหรับการเรียนรู้การเสริมแรงแบบไม่หยุดนิ่งโดยใช้วิธี UCB ต้องการการคำนวณที่แข็งแกร่งและความสามารถในการวิเคราะห์ นอกจากนี้นักวิจัยมักจะต้องใช้เวลาและความพยายามอย่างมากในการเรียกดูฐานข้อมูลวิชาการขนาดใหญ่ด้วยตนเองเมื่อทำการทบทวนวรรณกรรม
แม้ว่าการศึกษาหลายชิ้นได้สำรวจการประยุกต์ใช้แบบจำลองภาษาขนาดใหญ่ (LLMs) ในการค้นหากระดาษเชิงวิชาการและการค้นพบทางวิทยาศาสตร์เครื่องมือค้นหาแบบดั้งเดิมยังคงมีปัญหาในการตอบสนองความต้องการการวิจัยระดับมืออาชีพที่ซับซ้อน การศึกษาจำนวนมากมุ่งเน้นไปที่การพัฒนาตัวแทน LLM ผ่านกรอบการเพิ่มประสิทธิภาพและเทคโนโลยีวิศวกรรมที่รวดเร็ว ช่องว่างขนาดใหญ่มา
เมื่อเร็ว ๆ นี้สถาบันวิจัย Bytedance และนักวิจัยจาก Peking University ร่วมกันเสนอ PASA ซึ่งเป็นตัวแทนค้นหากระดาษที่ใช้ LLM ที่เป็นนวัตกรรม PASA สามารถดำเนินการตามกลยุทธ์การค้นหาที่ซับซ้อนได้อย่างอิสระรวมถึงการเรียกใช้เครื่องมือการอ่านกระดาษและการเลือกอ้างอิงโดยมีวัตถุประสงค์เพื่อสร้างผลลัพธ์ที่ครอบคลุมและแม่นยำสำหรับการสอบถามทางวิชาการที่ซับซ้อน เพื่อเพิ่มประสิทธิภาพการทำงานของ PASA ทีมวิจัยได้สร้าง AutoScholarquery ชุดข้อมูลสังเคราะห์ที่มีการสืบค้นทางวิชาการที่มีความละเอียด 35,000 รายการและจัดตั้ง Realscholarquery เป็นมาตรฐานสำหรับการประเมินประสิทธิภาพที่แท้จริงของตัวแทน ระบบใช้เทคนิคการเรียนรู้การเสริมแรงเพื่อเพิ่มขีดความสามารถในการค้นหาการแก้ปัญหาหลักในวิธีการค้นหาทางวิชาการที่มีอยู่
ระบบ PASA ประกอบด้วยตัวแทน LLM สองตัว: ตัวรวบรวมข้อมูลและตัวเลือกที่ทำงานร่วมกันเพื่อทำการค้นหาบทความทางวิชาการที่ครอบคลุม Crawler ทำการวิเคราะห์แบบสอบถามของผู้ใช้เป็นครั้งแรกเพื่อสร้างแบบสอบถามการค้นหาแบบละเอียดหลายแบบเพื่อรับเอกสารที่เกี่ยวข้องและเพิ่มเอกสารเหล่านี้ลงในคิวกระดาษเฉพาะ ตัวรวบรวมข้อมูลประมวลผลกระดาษที่มีคิวแต่ละครั้งระบุและสำรวจการอ้างอิงที่สำคัญซึ่งอาจขยายขอบเขตของการวิจัยและเพิ่มเอกสารที่เกี่ยวข้องที่ค้นพบใหม่ในรายการ ตัวเลือกจะประเมินว่ากระดาษแต่ละฉบับตรงกับข้อกำหนดการสืบค้นต้นฉบับหรือไม่
ผลการทดลองแสดงให้เห็นว่า PASA-7B ทำงานได้อย่างยอดเยี่ยมในการทดสอบเกณฑ์มาตรฐานหลายแบบ ในชุดทดสอบ AutoscholarQuery PASA-7B เพิ่มขึ้น 9.64% ในการเรียกคืนเมื่อเทียบกับ PASA-GPT-4O เมื่อเผชิญกับเกณฑ์มาตรฐานตาม Google อัตราการเรียกคืนของ PASA-7B จะเพิ่มขึ้นระหว่าง 33.80% ถึง 42.64% ในสถานการณ์ RealScholarquery ที่ท้าทายมากขึ้น PASA-7B แสดงการเพิ่มขึ้น 30.36% และเพิ่มความแม่นยำ 4.25%
โดยทั่วไปการเปิดตัว PASA นับเป็นความก้าวหน้าที่สำคัญในเทคโนโลยีการค้นหากระดาษเชิงวิชาการและเป็นวิธีการแก้ปัญหาที่มีประสิทธิภาพสำหรับการดึงข้อมูลการวิจัยทางวิชาการ ด้วยการรวมรูปแบบภาษาขนาดใหญ่และเทคนิคการเรียนรู้การเสริมแรง PASA ลดเวลาและความพยายามที่ลงทุนโดยนักวิจัยในการทบทวนวรรณกรรมอย่างมากในขณะที่ยังให้เครื่องมือที่มีประสิทธิภาพในการจัดการกับสภาพแวดล้อมทางวิชาการที่มีขนาดใหญ่และซับซ้อนมากขึ้น
รหัส: https://github.com/bytedance/pasa
กระดาษ: https://arxiv.org/abs/2501.10120
คะแนน:
** PASA เป็นตัวแทนการค้นหากระดาษวิชาการที่ชาญฉลาดเปิดตัวร่วมกันโดยนักวิจัย Bytedance และ Peking University -
** ระบบนี้ประกอบด้วยตัวแทน LLM สองตัวคือตัวรวบรวมและตัวเลือกและสามารถดำเนินการตามกลยุทธ์การค้นหาที่ซับซ้อนได้อย่างอิสระ -
** ผลการทดลองแสดงให้เห็นว่า PASA-7B ทำงานได้ดีกว่าวิธีการค้นหาที่มีอยู่ในการทดสอบเกณฑ์มาตรฐานหลายแบบปรับปรุงประสิทธิภาพและความแม่นยำของการค้นหากระดาษอย่างมีนัยสำคัญ -
การเกิดขึ้นของ PASA ได้นำการเปลี่ยนแปลงการปฏิวัติมาสู่การวิจัยทางวิชาการ ในอนาคตการพัฒนาและการประยุกต์ใช้ PASA ต่อไปนั้นคุ้มค่าที่จะรอคอย