นักวิจัยทางวิทยาศาสตร์ยังคงกังวลเกี่ยวกับการวิจารณ์วรรณกรรมและการเขียนรายงานหรือไม่? OpenScholar ที่นำโดยทีม AI2 อาจช่วยแก้ปัญหาของคุณได้! สิ่งประดิษฐ์ที่มีประสิทธิภาพในการวิจัยทางวิทยาศาสตร์อันทรงพลังนี้มีเอกสารการเข้าถึงแบบเปิด 450 ล้านฉบับและการฝังย่อหน้าของบทความ 237 ล้านบทความ โดยสามารถจัดการกับปัญหาการวิจัยทางวิทยาศาสตร์ต่างๆ ได้อย่างมีประสิทธิภาพ และปรับปรุงกลไกการให้เหตุผลผ่านการดึงข้อมูลตอบกลับด้วยตนเองที่ไม่เหมือนใคร เพื่อปรับปรุงคำตอบอย่างต่อเนื่องจนกว่าจะตรงตามความต้องการของคุณ OpenScholar ไม่เพียงแต่ทรงพลังเท่านั้น แต่ยังสามารถใช้เพื่อฝึกแบบจำลองที่มีประสิทธิภาพมากขึ้นอีกด้วย โดยแซงหน้าผู้เชี่ยวชาญที่เป็นมนุษย์ในการทดสอบ SCHOLARQABENCH ซึ่งแสดงให้เห็นถึงศักยภาพมหาศาลในด้านการวิจัยทางวิทยาศาสตร์
ตื่นสายเพื่อทบทวนวรรณกรรมใช่ไหม อย่าตกใจ! ผู้เชี่ยวชาญด้านการวิจัยทางวิทยาศาสตร์ของ AI2 พร้อมช่วยคุณด้วยผลงานชิ้นเอกล่าสุด OpenScholar! เหมือนกำลังเดินอยู่ในสวนสาธารณะ!
อาวุธลับที่ใหญ่ที่สุดของ OpenScholar คือระบบที่เรียกว่า OpenScholar-Datastore (OSDS) ซึ่งมีเอกสาร open access 450 ล้านฉบับ และย่อหน้าบทความที่ฝังไว้ 237 ล้านย่อหน้า ด้วยฐานความรู้ที่แข็งแกร่งดังกล่าว OpenScholar จึงสามารถรับมือกับปัญหาการวิจัยทางวิทยาศาสตร์ต่างๆ ได้อย่างง่ายดาย
เมื่อคุณประสบปัญหาการวิจัยทางวิทยาศาสตร์ OpenScholar จะส่งเครื่องมืออันทรงพลังออกไปก่อน - ผู้ค้นหาและผู้เรียงลำดับใหม่ เพื่อกรองย่อหน้าบทความที่เกี่ยวข้องกับปัญหาของคุณออกจาก OSDS อย่างรวดเร็ว ถัดไป โมเดลภาษา (LM) ประกอบด้วยคำตอบที่สมบูรณ์สำหรับการอ้างอิง สิ่งที่มีประสิทธิภาพยิ่งกว่านั้นก็คือ OpenScholar จะปรับปรุงคำตอบต่อไปตามความคิดเห็นในภาษาธรรมชาติของคุณ และเสริมข้อมูลที่ขาดหายไปจนกว่าคุณจะพอใจ
OpenScholar ไม่เพียงแต่ทรงพลังในตัวเองเท่านั้น แต่ยังสามารถช่วยฝึกโมเดลที่มีขนาดเล็กลงและมีประสิทธิภาพมากขึ้นอีกด้วย นักวิจัยใช้กระบวนการของ OpenScholar เพื่อสร้างข้อมูลการฝึกอบรมคุณภาพสูงจำนวนมหาศาล และใช้ข้อมูลนี้เพื่อฝึกอบรมโมเดลภาษาพารามิเตอร์ 8 พันล้านตัวที่เรียกว่า OpenScholar-8B รวมถึงโมเดลการดึงข้อมูลอื่นๆ
เพื่อทดสอบประสิทธิภาพการต่อสู้ของ OpenScholar อย่างครอบคลุม นักวิจัยยังได้สร้างเวทีทดสอบใหม่ที่เรียกว่า SCHOLARQABENCH เป็นพิเศษ งานทบทวนวรรณกรรมทางวิทยาศาสตร์ที่หลากหลายได้รับการจัดตั้งขึ้นในขอบเขตนี้ รวมถึงการจำแนกแบบปิด ปรนัย และการสร้างรูปแบบยาว ครอบคลุมหลายสาขา เช่น วิทยาการคอมพิวเตอร์ ชีวการแพทย์ ฟิสิกส์ และประสาทวิทยาศาสตร์ เพื่อให้มั่นใจในความเป็นธรรมและความยุติธรรมของการแข่งขัน SCHOLARQABENCH ยังใช้วิธีการประเมินแบบหลายแง่มุม รวมถึงการทบทวนโดยผู้เชี่ยวชาญ ตัวบ่งชี้อัตโนมัติ และการทดสอบประสบการณ์ผู้ใช้
หลังจากการแข่งขันที่ดุเดือดหลายรอบ ในที่สุด OpenScholar ก็โดดเด่น! ผลการทดลองแสดงให้เห็นว่ามันทำงานได้ดีในงานต่างๆ แม้จะเหนือกว่าผู้เชี่ยวชาญที่เป็นมนุษย์ก็ตาม! งานทบทวนวรรณกรรมเน้นสำรวจความลึกลับของวิทยาศาสตร์!
ฟังก์ชันอันทรงพลังของ OpenScholar ได้รับประโยชน์หลักจากกลไกการให้เหตุผลแบบปรับปรุงการดึงความคิดเห็นด้วยตนเองที่เป็นเอกลักษณ์ พูดง่ายๆ ก็คือ มันจะถามคำถามกับตัวเองก่อน จากนั้นจึงปรับปรุงคำตอบตามคำตอบของมันเองอย่างต่อเนื่อง และสุดท้ายก็นำเสนอคำตอบที่สมบูรณ์แบบที่สุดให้กับคุณ มันไม่น่าทึ่งเหรอ?
โดยเฉพาะอย่างยิ่ง กระบวนการให้เหตุผลในการแสดงความคิดเห็นด้วยตนเองของ OpenScholar แบ่งออกเป็นสามขั้นตอน ได้แก่ การสร้างคำตอบเบื้องต้น การสร้างความคิดเห็น และการบูรณาการข้อเสนอแนะ ขั้นแรก โมเดลภาษาจะสร้างคำตอบเริ่มต้นตามข้อความในบทความที่ดึงข้อมูลมา จากนั้น เช่นเดียวกับผู้ตรวจสอบที่เข้มงวด มันจะวิพากษ์วิจารณ์ตัวเองในคำตอบ ระบุข้อบกพร่อง และสร้างข้อเสนอแนะในภาษาที่เป็นธรรมชาติ เช่น "คำตอบมีเพียงผลการทดลองในงานคำถามและคำตอบ โปรดเสริมผลลัพธ์ประเภทอื่น ๆ" . สุดท้ายนี้ โมเดลภาษาจะค้นหาวรรณกรรมที่เกี่ยวข้องอีกครั้งตามความคิดเห็นนี้ และบูรณาการข้อมูลทั้งหมดเพื่อสร้างคำตอบที่สมบูรณ์ยิ่งขึ้น
เพื่อฝึกโมเดลที่เล็กกว่าแต่ทรงพลังเท่ากัน นักวิจัยยังใช้กระบวนการอนุมานความคิดเห็นตนเองของ OpenScholar เพื่อสร้างข้อมูลการฝึกคุณภาพสูงจำนวนมาก ขั้นแรกพวกเขาเลือกรายงานที่มีการอ้างอิงมากที่สุดจากฐานข้อมูล จากนั้นจึงสร้างคำถามสืบค้นข้อมูลตามบทคัดย่อของรายงานเหล่านี้ และสุดท้ายก็ใช้กระบวนการอนุมานของ OpenScholar เพื่อสร้างคำตอบคุณภาพสูง คำตอบเหล่านี้และข้อมูลข้อเสนอแนะที่สร้างขึ้นในกระบวนการถือเป็นข้อมูลการฝึกอบรมที่มีคุณค่า นักวิจัยได้ผสมข้อมูลนี้กับข้อมูลการปรับแต่งคำสั่งโดเมนทั่วไปที่มีอยู่ และข้อมูลการปรับแต่งคำสั่งโดเมนทางวิทยาศาสตร์เพื่อฝึกโมเดลภาษาพารามิเตอร์ 8 พันล้านตัวที่เรียกว่า OpenScholar-8B
เพื่อประเมินประสิทธิภาพของ OpenScholar และโมเดลอื่นๆ ที่คล้ายกันได้ครบถ้วนยิ่งขึ้น นักวิจัยยังได้สร้างเกณฑ์มาตรฐานใหม่ที่เรียกว่า SCHOLARQABENCH เกณฑ์มาตรฐานนี้มีคำถามทบทวนวรรณกรรม 2,967 ข้อที่เขียนโดยผู้เชี่ยวชาญครอบคลุม 4 สาขา ได้แก่ วิทยาการคอมพิวเตอร์ ฟิสิกส์ ชีวการแพทย์ และประสาทวิทยาศาสตร์ คำถามแต่ละข้อมีคำตอบยาวๆ ที่เขียนโดยผู้เชี่ยวชาญ และโดยเฉลี่ยแต่ละคำตอบจะใช้เวลาผู้เชี่ยวชาญประมาณหนึ่งชั่วโมงจึงจะเสร็จสิ้น นอกจากนี้ SCHOLARQABENCH ยังใช้วิธีการประเมินแบบหลายแง่มุมที่รวมการวัดแบบอัตโนมัติและการประเมินด้วยตนเองเข้าด้วยกัน เพื่อให้การวัดคุณภาพของคำตอบที่สร้างโดยแบบจำลองมีความครอบคลุมมากขึ้น
ผลการทดลองแสดงให้เห็นว่าประสิทธิภาพของ OpenScholar บน SCHOLARQABENCH นั้นเหนือกว่ารุ่นอื่นๆ อย่างมาก และยังเหนือกว่าผู้เชี่ยวชาญที่เป็นมนุษย์ในบางด้านอีกด้วย ตัวอย่างเช่น ในสาขาวิทยาการคอมพิวเตอร์ อัตราที่ถูกต้องของ OpenScholar-8B สูงกว่า GPT-4o 5% ซึ่งสูงกว่า 5% มากกว่า GPT-4o PaperQA2 สูงกว่า 7% นอกจากนี้ ความแม่นยำในการอ้างอิงของคำตอบที่สร้างโดย OpenScholar นั้นเทียบได้กับความแม่นยำของผู้เชี่ยวชาญที่เป็นมนุษย์ ในขณะที่ GPT-4o นั้นสูงถึง 78-90% ที่สร้างขึ้นจากอากาศบางๆ
การเกิดขึ้นของ OpenScholar เป็นประโยชน์อย่างยิ่งต่อสาขาการวิจัยทางวิทยาศาสตร์อย่างไม่ต้องสงสัย ไม่เพียงแต่ช่วยให้นักวิจัยทางวิทยาศาสตร์ประหยัดเวลาและพลังงานได้มาก แต่ยังช่วยปรับปรุงคุณภาพและประสิทธิภาพของการทบทวนวรรณกรรมอีกด้วย ฉันเชื่อว่าในอนาคตอันใกล้นี้ OpenScholar จะกลายเป็นผู้ช่วยที่ขาดไม่ได้สำหรับนักวิจัยทางวิทยาศาสตร์!
ที่อยู่กระดาษ: https://arxiv.org/pdf/2411.14199
ที่อยู่โครงการ: https://github.com/AkariAsai/OpenScholar
โดยรวมแล้ว OpenScholar ได้นำการเปลี่ยนแปลงครั้งยิ่งใหญ่มาสู่งานวิจัยทางวิทยาศาสตร์ ด้วยการสำรองข้อมูลอันทรงพลัง กลไกการให้เหตุผลเชิงนวัตกรรม และผลการทดสอบที่ยอดเยี่ยม โดยจะปรับปรุงประสิทธิภาพการวิจัยทางวิทยาศาสตร์อย่างมีประสิทธิภาพ และช่วยให้นักวิจัยมุ่งเน้นไปที่การสำรวจทางวิทยาศาสตร์ที่สำคัญยิ่งขึ้น ถือเป็นความก้าวหน้าครั้งสำคัญในสาขาการวิจัยทางวิทยาศาสตร์