เมื่อเร็วๆ นี้ การเรียนรู้เครื่องมือด้วยโมเดลภาษาขนาดใหญ่ (LLM) ได้กลายเป็นกระบวนทัศน์ที่มีแนวโน้มในการเพิ่มขีดความสามารถของ LLM เพื่อจัดการกับปัญหาที่ซับซ้อนสูง
นี่คือชุดเอกสารที่เกี่ยวข้องกับการเรียนรู้เครื่องมือด้วย LLM เอกสารเหล่านี้จัดระเบียบตามรายงานการสำรวจของเรา "การเรียนรู้เครื่องมือด้วยโมเดลภาษาขนาดใหญ่: แบบสำรวจ"
中文: เราสังเกตเห็นว่า PaperAgent และ 旺知识 ได้ให้คำแนะนำสั้นๆ และครอบคลุมเป็นภาษาจีน ตามลำดับ เราซาบซึ้งมากสำหรับความช่วยเหลือของพวกเขา
- กระดาษสำรวจของเราได้รับการยอมรับจาก Frontiers of Computer Science (FCS) เอกสารฉบับล่าสุดของเราได้รับการเผยแพร่แล้ว โปรดตรวจสอบออก!
โปรดติดต่อเราหากคุณมีคำถามหรือข้อเสนอแนะ!
- โปรดเปิดประเด็นหรือขอดึง! -
หากคุณพบว่างานของเราช่วยในการวิจัยของคุณ โปรดอ้างอิงรายงานของเรา:
@article { qu2024toolsurvey ,
author = { Qu, Changle and Dai, Sunhao and Wei, Xiaochi and Cai, Hengyi and Wang, Shuaiqiang and Yin, Dawei and Xu, Jun and Wen, Ji-Rong } ,
title = { Tool Learning with Large Language Models: A Survey } ,
journal = { arXiv preprint arXiv:2405.17935 } ,
year = { 2024 }
}
เมื่อเร็วๆ นี้ การเรียนรู้เครื่องมือด้วยโมเดลภาษาขนาดใหญ่ (LLM) ได้กลายเป็นกระบวนทัศน์ที่มีแนวโน้มในการเพิ่มขีดความสามารถของ LLM เพื่อจัดการกับปัญหาที่ซับซ้อนสูง แม้จะมีความสนใจเพิ่มขึ้นและมีความก้าวหน้าอย่างรวดเร็วในสาขานี้ แต่วรรณกรรมที่มีอยู่ยังคงกระจัดกระจายและขาดการจัดระเบียบที่เป็นระบบ ทำให้เกิดอุปสรรคในการเข้ามาสำหรับผู้มาใหม่ ช่องว่างนี้กระตุ้นให้เราดำเนินการสำรวจผลงานที่มีอยู่เกี่ยวกับการเรียนรู้เครื่องมือด้วย LLM อย่างครอบคลุม ในแบบสำรวจนี้ เรามุ่งเน้นไปที่การทบทวนวรรณกรรมที่มีอยู่จากสองประเด็นหลัก (1) เหตุใดการเรียนรู้ด้วยเครื่องมือจึงเป็นประโยชน์ และ (2) วิธีการนำการเรียนรู้ด้วยเครื่องมือไปใช้ ซึ่งช่วยให้เข้าใจอย่างครอบคลุมเกี่ยวกับการเรียนรู้เครื่องมือด้วย LLM ขั้นแรกเราจะสำรวจ "สาเหตุ" โดยการทบทวนทั้งประโยชน์ของการรวมเครื่องมือและประโยชน์โดยธรรมชาติของกระบวนทัศน์การเรียนรู้เครื่องมือจากแง่มุมเฉพาะหกประการ ในแง่ของ “วิธีการ” เราจะทบทวนวรรณกรรมอย่างเป็นระบบตามอนุกรมวิธานของสี่ขั้นตอนสำคัญในเวิร์กโฟลว์การเรียนรู้เครื่องมือ: การวางแผนงาน การเลือกเครื่องมือ การเรียกเครื่องมือ และการสร้างการตอบสนอง นอกจากนี้ เรายังให้ข้อมูลสรุปโดยละเอียดเกี่ยวกับเกณฑ์มาตรฐานและวิธีการประเมินที่มีอยู่ โดยจัดหมวดหมู่ตามความเกี่ยวข้องกับขั้นตอนต่างๆ สุดท้ายนี้ เราจะหารือเกี่ยวกับความท้าทายในปัจจุบันและร่างแนวทางในอนาคตที่อาจเกิดขึ้น โดยมีจุดมุ่งหมายเพื่อสร้างแรงบันดาลใจให้ทั้งนักวิจัยและนักพัฒนาอุตสาหกรรมในการสำรวจพื้นที่ที่กำลังเติบโตและมีแนวโน้มนี้เพิ่มเติม
การได้มาซึ่งความรู้
เครื่องมือค้นหา
Internet-Augmented Dialogue Generation , ACL 2022. [กระดาษ]
WebGPT: การตอบคำถามโดยใช้เบราว์เซอร์พร้อมความคิดเห็นของมนุษย์ พิมพ์ล่วงหน้า 2021 [กระดาษ]
โมเดลภาษาเสริมทางอินเทอร์เน็ตผ่านการแจ้งเพียงไม่กี่ช็อตสำหรับการตอบคำถามแบบโอเพ่นโดเมน พิมพ์ล่วงหน้า 2022 [กระดาษ]
REPLUG: โมเดลภาษากล่องดำแบบดึงข้อมูลเสริม พิมพ์ล่วงหน้า 2023 [กระดาษ]
Toolformer: โมเดลภาษาสามารถสอนตัวเองให้ใช้เครื่องมือได้ , NeurIPS 2023 [กระดาษ]
ART: การใช้เหตุผลหลายขั้นตอนอัตโนมัติและการใช้เครื่องมือสำหรับโมเดลภาษาขนาดใหญ่ พิมพ์ล่วงหน้า 2023 [กระดาษ]
ToolCoder: สอน Code Generation Models ให้ใช้ API search tools , Preprint 2023. [กระดาษ]
คำติชม: โมเดลภาษาขนาดใหญ่สามารถแก้ไขได้ด้วยตนเองด้วยการวิจารณ์แบบโต้ตอบด้วยเครื่องมือ , ICLR 2024 [บทความ]
ฐานข้อมูลและกราฟความรู้
Lamda: โมเดลภาษาสำหรับแอปพลิเคชันไดอะล็อก พิมพ์ล่วงหน้า 2022 [กระดาษ]
Gorilla: โมเดลภาษาขนาดใหญ่เชื่อมต่อกับ Massive API , NeurIPS 2024 [กระดาษ]
ToolkenGPT: การเพิ่มโมเดลภาษาแช่แข็งด้วยเครื่องมือขนาดใหญ่ผ่านการฝังเครื่องมือ , NeurIPS 2023 [กระดาษ]
ToolQA: ชุดข้อมูลสำหรับการตอบคำถาม LLM ด้วยเครื่องมือภายนอก , NeurIPS 2023 [กระดาษ]
การใช้เครื่องมือที่ปราศจากข้อผิดพลาดทางไวยากรณ์และทั่วไปสำหรับ LLM ผ่านการถอดรหัสแบบจำกัดสถานะ , NeurIPS 2023 [กระดาษ]
มิดเดิลแวร์สำหรับ LLM: เครื่องมือเป็นเครื่องมือสำหรับตัวแทนภาษาในสภาพแวดล้อมที่ซับซ้อน , EMNLP 2024 [กระดาษ]
สภาพอากาศหรือแผนที่
เรื่องความสามารถในการจัดการเครื่องมือของโมเดลภาษาขนาดใหญ่แบบโอเพ่นซอร์ส , NeurIPS 2023 [กระดาษ]
ToolAlpaca: การเรียนรู้เครื่องมือทั่วไปสำหรับโมเดลภาษาพร้อมเคสจำลอง 3,000 เคส พิมพ์ล่วงหน้า 2023 [กระดาษ]
Tool Learning with Foundation Models , พิมพ์ล่วงหน้า 2023. [กระดาษ]
การเพิ่มพูนความเชี่ยวชาญ
เครื่องมือทางคณิตศาสตร์
อบรมผู้ตรวจแก้โจทย์คณิต Preprint 2021 [กระดาษ]
ระบบ MRKL: สถาปัตยกรรมแบบสัญลักษณ์ทางประสาทแบบโมดูลาร์ที่รวมแบบจำลองภาษาขนาดใหญ่ แหล่งความรู้ภายนอก และการให้เหตุผลแบบแยกส่วน พิมพ์ก่อนปี 2021 [กระดาษ]
การเชื่อมโยงความคิดพร้อมกันเพื่อการให้เหตุผลเชิงตัวเลข , EMNLP 2022. [กระดาษ]
Calc-X และ Calcformers: เสริมพลังห่วงโซ่แห่งความคิดทางคณิตศาสตร์ผ่านการโต้ตอบกับระบบสัญลักษณ์ , EMNLP 2023 [กระดาษ]
การแก้ปัญหาคำศัพท์ทางคณิตศาสตร์โดยการรวมแบบจำลองภาษาเข้ากับตัวแก้ปัญหาเชิงสัญลักษณ์ NeurIPS 2023 [กระดาษ]
การประเมินและปรับปรุงการใช้เหตุผลทางคณิตศาสตร์ที่เน้นการคำนวณด้วยเครื่องมือเสริม , NeurIPS 2023 [กระดาษ]
ToRA: ตัวแทนการใช้เหตุผลแบบรวมเครื่องมือสำหรับการแก้ปัญหาทางคณิตศาสตร์ , ICLR 2024 [กระดาษ]
MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning , พิมพ์ล่วงหน้า 2024. [กระดาษ]
Calc-CMU ที่ SemEval-2024 ภารกิจที่ 7: การคำนวณล่วงหน้า -- การเรียนรู้การใช้เครื่องคิดเลขปรับปรุงการคำนวณในแบบจำลองภาษา NAACL 2024 [กระดาษ]
MathViz-E: กรณีศึกษาในตัวแทนการใช้เครื่องมือเฉพาะด้านโดเมน พิมพ์ล่วงหน้า 2024 [กระดาษ]
ล่ามหลาม
Pal: โมเดลภาษาที่ใช้โปรแกรมช่วย , ICML 2023 [กระดาษ]
โปรแกรมกระตุ้นความคิด: การแยกการคำนวณออกจากการใช้เหตุผลสำหรับงานการใช้เหตุผลเชิงตัวเลข , TMLR 2023 [กระดาษ]
การเรียกร้องที่ซับซ้อนในการตรวจสอบข้อเท็จจริงโดยใช้เหตุผลตามโปรแกรม , ACL 2023 [เอกสาร]
Chameleon: การใช้เหตุผลเชิงองค์ประกอบแบบ Plug-and-Play พร้อมโมเดลภาษาขนาดใหญ่ , NeurIPS 2023 [กระดาษ]
LeTI: การเรียนรู้ที่จะสร้างจากการโต้ตอบด้วยข้อความ NAACL 2024 [กระดาษ]
มิ้นท์: การประเมิน llms ในการโต้ตอบแบบหลายตากับเครื่องมือและคำติชมทางภาษา , ICLR 2024 [บทความ]
การดำเนินการกับโค้ดที่ปฏิบัติการได้ทำให้เกิดตัวแทน LLM ที่ดีกว่า ICML 2024 [กระดาษ]
CodeNav: นอกเหนือจากการใช้เครื่องมือไปจนถึงการใช้โค้ดเบสในโลกแห่งความเป็นจริงกับตัวแทน LLM , Preprint 2024 [กระดาษ]
APPL: ภาษาการเขียนโปรแกรมพร้อมท์สำหรับการบูรณาการโปรแกรมอย่างกลมกลืนและพร้อมท์โมเดลภาษาขนาดใหญ่ พิมพ์ล่วงหน้า 2024 [กระดาษ]
BigCodeBench: การสร้างโค้ดเปรียบเทียบพร้อมการเรียกใช้ฟังก์ชันที่หลากหลายและคำแนะนำที่ซับซ้อน พิมพ์ล่วงหน้า 2024 [กระดาษ]
CodeAgent: การปรับปรุงการสร้างโค้ดด้วยระบบเอเจนต์ที่รวมเครื่องมือสำหรับความท้าทายในการเขียนโค้ดระดับ Repo ในโลกแห่งความเป็นจริง ACL 2024 [กระดาษ]
MuMath-Code: การรวมแบบจำลองภาษาขนาดใหญ่ที่ใช้เครื่องมือเข้ากับการเพิ่มข้อมูลแบบหลายมุมมองเพื่อการให้เหตุผลทางคณิตศาสตร์ , EMNLP 2024 [กระดาษ]
คนอื่น
MultiTool-CoT: GPT-3 สามารถใช้เครื่องมือภายนอกได้หลายตัวพร้อม Chain of Thought Prompting , ACL 2023 [กระดาษ]
ChemCrow: การเสริมแบบจำลองภาษาขนาดใหญ่ด้วยเครื่องมือเคมี , Nature Machine Intelligence 2024 [กระดาษ]
การทบทวนแบบจำลองภาษาขนาดใหญ่และตัวแทนอัตโนมัติในวิชาเคมี พิมพ์ก่อนพิมพ์ 2024 [กระดาษ]
GeneGPT: การเพิ่มโมเดลภาษาขนาดใหญ่ด้วยเครื่องมือโดเมนเพื่อปรับปรุงการเข้าถึงข้อมูลชีวการแพทย์ , ISMB 2024 [กระดาษ]
การเตรียมโมเดลภาษาด้วยความสามารถในการใช้เครื่องมือสำหรับการวิเคราะห์ข้อมูลแบบตารางในด้านการเงิน EACL 2024 [เอกสาร]
การจำลองตลาดการเงินผ่านตัวแทนที่ใช้โมเดลภาษาขนาดใหญ่ พิมพ์ล่วงหน้า 2024 [กระดาษ]
ตัวแทนมูลนิธิต่อเนื่องหลายรูปแบบเพื่อการค้าทางการเงิน: Tool-Augmented, Diversified และ Generalist , KDD 2024. [กระดาษ]
AgentMD: เพิ่มขีดความสามารถของตัวแทนภาษาสำหรับการทำนายความเสี่ยงด้วยการเรียนรู้เครื่องมือทางคลินิกขนาดใหญ่ พิมพ์ล่วงหน้า 2024 [กระดาษ]
SCIAGENT: แบบจำลองภาษาที่เสริมด้วยเครื่องมือเพื่อการให้เหตุผลทางวิทยาศาสตร์ , EMNLP 2024. [กระดาษ]
MMedAgent: การเรียนรู้การใช้เครื่องมือทางการแพทย์กับ Multi-modal Agent , ผลการวิจัยของ EMNLP ปี 2024 [กระดาษ]
ให้ฉันทำเพื่อคุณ: สู่ LLM Empowered Recommendation ผ่าน Tool Learning , SIGIR 2024 [กระดาษ]
การตอบสนองเฉพาะโดเมนสำหรับการสร้างแบบจำลองซ้ำเชิงฟิสิกส์แบบบูรณาการ: กรณีศึกษาตัวแทน LLM สำหรับการวิเคราะห์เส้นทางก๊าซของกังหันก๊าซ พิมพ์ล่วงหน้า 2024 [กระดาษ]
WORLDAPIS: โลกมีมูลค่ากี่ API? การทดลองทางความคิด การประชุมเชิงปฏิบัติการ ACL 2024 [กระดาษ]
Tool-Assisted Agent ในการตรวจสอบและปรับแต่ง SQL ในสถานการณ์จริง ก่อนพิมพ์ 2024 [กระดาษ]
HoneyComb: ระบบตัวแทนที่ใช้ LLM แบบยืดหยุ่นสำหรับวัสดุศาสตร์ พิมพ์ล่วงหน้า 2024 [กระดาษ]
ระบบอัตโนมัติและประสิทธิภาพ
เครื่องมือกำหนดการ
ToolQA: ชุดข้อมูลสำหรับการตอบคำถาม LLM ด้วยเครื่องมือภายนอก , NeurIPS 2023 [กระดาษ]
ตั้งการช่วยเตือน
ToolLLM: อำนวยความสะดวกให้กับโมเดลภาษาขนาดใหญ่ให้เป็นผู้เชี่ยวชาญ API ในโลกแห่งความเป็นจริงมากกว่า 16,000+ , ICLR 2024 [กระดาษ]
กรองอีเมล
ToolLLM: อำนวยความสะดวกให้กับโมเดลภาษาขนาดใหญ่ให้เป็นผู้เชี่ยวชาญ API ในโลกแห่งความเป็นจริงมากกว่า 16,000+ , ICLR 2024 [กระดาษ]
การจัดการโครงการ
ToolLLM: อำนวยความสะดวกให้กับโมเดลภาษาขนาดใหญ่ให้เป็นผู้เชี่ยวชาญ API ในโลกแห่งความเป็นจริงมากกว่า 16,000+ , ICLR 2024 [กระดาษ]
ผู้ช่วยช้อปปิ้งออนไลน์
WebShop: สู่การโต้ตอบบนเว็บในโลกแห่งความเป็นจริงที่ปรับขนาดได้ด้วยตัวแทนภาษาที่มีเหตุผล , NeurIPS 2022 [กระดาษ]
การเพิ่มประสิทธิภาพปฏิสัมพันธ์
เครื่องมือหลายรูปแบบ
Vipergpt: การอนุมานด้วยภาพผ่านการทำงานของ Python เพื่อการให้เหตุผล , ICCV 2023 [กระดาษ]
MM-REACT: การแจ้ง ChatGPT สำหรับการใช้เหตุผลและการดำเนินการหลายรูป แบบ พิมพ์ล่วงหน้า 2023 [กระดาษ]
InternGPT: การแก้ปัญหางานที่เน้นวิสัยทัศน์โดยการโต้ตอบกับ ChatGPT Beyond Language พิมพ์ล่วงหน้า 2023 [กระดาษ]
AssistGPT: ผู้ช่วยหลายรูปแบบทั่วไปที่สามารถวางแผน ดำเนินการ ตรวจสอบ และเรียนรู้ ก่อนพิมพ์ปี 2023 [กระดาษ]
CLOVA: ผู้ช่วยภาพแบบวงปิดพร้อมการใช้และอัปเดตเครื่องมือ CVPR 2024 [กระดาษ]
DiffAgent: การเลือก API ข้อความเป็นรูปภาพที่รวดเร็วและแม่นยำพร้อมโมเดลภาษาขนาดใหญ่ CVPR 2024 [กระดาษ]
MLLM-Tool: โมเดลภาษาขนาดใหญ่หลายรูปแบบสำหรับการเรียนรู้ตัวแทนเครื่องมือ พิมพ์ล่วงหน้า 2024 [กระดาษ]
m&m's: เกณฑ์มาตรฐานในการประเมินการใช้เครื่องมือสำหรับงานหลายขั้นตอนแบบหลายขั้น ตอน ก่อนพิมพ์ปี 2024 [กระดาษ]
จากน้อยไปมาก: การสร้างเหตุผลเชิงภาพแบบ Plug-and-Play ผ่านการสังเคราะห์ข้อมูล พิมพ์ ล่วงหน้า 2024 [กระดาษ]
เครื่องแปล
Toolformer: โมเดลภาษาสามารถสอนตัวเองให้ใช้เครื่องมือได้ , NeurIPS 2023 [กระดาษ]
Tool Learning with Foundation Models , พิมพ์ล่วงหน้า 2023. [กระดาษ]
เครื่องมือประมวลผลภาษาธรรมชาติ
HuggingGPT: การแก้ปัญหางาน AI ด้วย ChatGPT และเพื่อนๆ ใน Hugging Face , NeurIPS 2023 [กระดาษ]
GitAgent: อำนวยความสะดวกให้กับ Autonomous Agent ด้วย GitHub โดย Tool Extension , พิมพ์ล่วงหน้า 2023 [กระดาษ]
การกระตุ้นเตือนแบบลูกโซ่ทำให้เกิดการใช้เหตุผลในแบบจำลองภาษาขนาดใหญ่ , NeurIPS 2022 [กระดาษ]
ReAct: Synergizing Reasoning and Acting in Language Models , ICLR 2023. [บทความ]
ART: การใช้เหตุผลหลายขั้นตอนอัตโนมัติและการใช้เครื่องมือสำหรับโมเดลภาษาขนาดใหญ่ พิมพ์ล่วงหน้า 2023 [กระดาษ]
HuggingGPT: การแก้ปัญหางาน AI ด้วย ChatGPT และเพื่อนๆ ใน Hugging Face , NeurIPS 2023 [กระดาษ]
Graph-ToolFormer: เพื่อเสริมศักยภาพ LLM ด้วยความสามารถในการใช้เหตุผลเชิงกราฟผ่าน Prompt Augmented โดย ChatGPT พิมพ์ล่วงหน้า 2023 [กระดาษ]
โมเดลภาษาขนาดใหญ่ในฐานะผู้สร้างเครื่องมือ , ICLR 2024 [กระดาษ]
ผู้สร้าง: การสร้างเครื่องมือเพื่อแยกปัญหาเชิงนามธรรมและการใช้เหตุผลอย่างเป็นรูปธรรมของแบบจำลองภาษาขนาดใหญ่ , EMNLP 2023 [กระดาษ]
ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on Chat-based Large Language Models , EMNLP 2023. [กระดาษ]
FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios , ก่อนพิมพ์ปี 2023 [กระดาษ]
TPTU: เอเจนต์ AI ที่ใช้โมเดลภาษาขนาดใหญ่สำหรับการวางแผนงานและการใช้เครื่องมือ พิมพ์ล่วงหน้า 2023 [กระดาษ]
ToolChain*: การนำทางพื้นที่ปฏิบัติการที่มีประสิทธิภาพในโมเดลภาษาขนาดใหญ่พร้อม A* Search , ICLR 2024 [กระดาษ]
เสริมแนวทางที่สั้นที่สุดในความสนใจ: การเพิ่มการรับรู้บริบทของแบบจำลองภาษาขนาดใหญ่เพื่อการใช้เครื่องมืออย่างมีประสิทธิภาพ , ACL 2024 [กระดาษ]
TroVE: การกระตุ้นกล่องเครื่องมือที่ตรวจสอบได้และมีประสิทธิภาพสำหรับการแก้ปัญหางานเชิงโปรแกรม เตรียมพิมพ์ 2024 [กระดาษ]
SwissNYF: Tool Grounded LLM Agents for Black Box Setting , Preprint 2024. [กระดาษ]
จากบทสรุปไปสู่การปฏิบัติ: การปรับปรุงโมเดลภาษาขนาดใหญ่สำหรับงานที่ซับซ้อนด้วย Open World APIs ก่อนพิมพ์ปี 2024 [กระดาษ]
การเรียนรู้เครื่องมือที่มีงบประมาณจำกัดพร้อมการวางแผน ผลการวิจัยของ ACL 2024 [กระดาษ]
การวางแผนและแก้ไขสิ่งที่คุณดึงมาเพื่อการเรียนรู้เครื่องมือขั้นสูง NAACL 2024 [กระดาษ]
โมเดลภาษาขนาดใหญ่สามารถวางแผนการเดินทางของคุณได้อย่างเข้มงวดด้วยเครื่องมือตรวจสอบอย่างเป็นทางการ พิมพ์ล่วงหน้า 2024 [กระดาษ]
สเมิร์ฟ: การใช้ประโยชน์จากตัวแทนที่เชี่ยวชาญหลายรายพร้อมประสิทธิภาพตามบริบทสำหรับการวางแผนเครื่องมือ ก่อนพิมพ์ปี 2024 [กระดาษ]
STRIDE: กรอบงานตัวแทน LLM ที่ได้รับความช่วยเหลือจากเครื่องมือสำหรับการตัดสินใจเชิงกลยุทธ์และเชิงโต้ตอบ เตรียมพิมพ์ปี 2024 [กระดาษ]
Chain of Tools: Large Language Model is an Automatic Multi-tool Learner , พิมพ์ล่วงหน้า 2024 [กระดาษ]
การเรียนรู้ด้วยกราฟสามารถปรับปรุงการวางแผนในตัวแทนที่ใช้ LLM ได้หรือไม่ , NeurIPS 2024. [กระดาษ]
Tool-Planner: การวางแผนแผนผังโซลูชันแบบไดนามิกสำหรับโมเดลภาษาขนาดใหญ่พร้อมการจัดกลุ่มเครื่องมือ พิมพ์ล่วงหน้า 2024 [กระดาษ]
เครื่องมือล้มเหลว: การตรวจจับข้อผิดพลาดเงียบในเครื่องมือที่ผิดพลาด EMNLP 2024 [กระดาษ]
อะไรส่งผลต่อความเสถียรของการเรียนรู้เครื่องมือ? การศึกษาเชิงประจักษ์เกี่ยวกับความทนทานของกรอบการเรียนรู้เครื่องมือ พิมพ์ล่วงหน้า 2024 [บทความ]
Tulip Agent -- การเปิดใช้งานตัวแทนที่ใช้ LLM เพื่อแก้ไขปัญหาโดยใช้ไลบรารีเครื่องมือขนาดใหญ่ พิมพ์ล่วงหน้า 2024 [กระดาษ]
Toolshed: ปรับขนาดเอเจนต์ที่ติดตั้งเครื่องมือด้วย RAG-Tool Fusion ขั้นสูงและฐานความรู้ของเครื่องมือ พิมพ์ล่วงหน้า 2024 [กระดาษ]
จากการสำรวจสู่ความเชี่ยวชาญ: การเปิดใช้งาน LLM สู่เครื่องมือระดับปรมาจารย์ผ่านการโต้ตอบที่ขับเคลื่อนด้วยตนเอง พิมพ์ล่วงหน้า 2024 [กระดาษ]
TaskMatrix.AI: ทำงานให้เสร็จสิ้นโดยการเชื่อมต่อโมเดลพื้นฐานกับ API นับล้าน การประมวลผลอัจฉริยะ 2024 [กระดาษ]
OpenAGI: เมื่อ LLM พบกับผู้เชี่ยวชาญด้านโดเมน , Neurips 2023 [กระดาษ]
ToolLLM: อำนวยความสะดวกให้กับโมเดลภาษาขนาดใหญ่ให้เป็นผู้เชี่ยวชาญ API ในโลกแห่งความเป็นจริงมากกว่า 16,000+ , ICLR 2024 [กระดาษ]
Toolink: การเชื่อมโยงการสร้างชุดเครื่องมือและการใช้งานผ่านห่วงโซ่แห่งการแก้ปัญหาบนโมเดลโอเพ่นซอร์ส พิมพ์ล่วงหน้า 2023 [กระดาษ]
TPTU-v2: การส่งเสริมการวางแผนงานและการใช้เครื่องมือของตัวแทนที่ใช้โมเดลภาษาขนาดใหญ่ในระบบโลกแห่งความเป็นจริง , ICLR 2024 [กระดาษ]
การนำทางความไม่แน่นอน: การปรับการพึ่งพา API ให้เหมาะสมเพื่อลดอาการประสาทหลอนในการตอบคำถามแบบปิดบัญชี ECIR 2024 [เอกสาร]
LLM ขนาดเล็กเป็นผู้เรียนเครื่องมือที่อ่อนแอ: ตัวแทน Multi-LLM , EMNLP 2024 [กระดาษ]
การใช้เครื่องมืออย่างมีประสิทธิภาพพร้อมเหตุผลลูกโซ่แห่งนามธรรม พิมพ์ล่วงหน้า 2024 [กระดาษ]
มองก่อนที่คุณจะก้าวกระโดด: สู่การใช้การตัดสินใจและการใช้เครื่องมือทั่วไปสำหรับโมเดลภาษาขนาดใหญ่ พิมพ์ล่วงหน้า 2024 [กระดาษ]
ระเบียบวิธีโดยใช้ LLM API แบบอิงโซลูชันสำหรับการแสวงหาข้อมูลทางวิชาการ พิมพ์ล่วงหน้า 2024 [กระดาษ]
การพัฒนาโมเดลภาษาขนาดใหญ่ที่เสริมด้วยเครื่องมือ: การรวมข้อมูลเชิงลึกจากข้อผิดพลาดในแผนผังการอนุมาน , NeurIPS 2024 [กระดาษ]
APIGen: ไปป์ไลน์อัตโนมัติสำหรับการสร้างชุดข้อมูลการเรียกใช้ฟังก์ชันที่ตรวจสอบได้และหลากหลาย พิมพ์ล่วงหน้า 2024 [กระดาษ]
MetaTool: อำนวยความสะดวกให้กับโมเดลภาษาขนาดใหญ่ไปจนถึงเครื่องมือหลักด้วย Meta-task Augmentation , Preprint 2024 [กระดาษ]
ToolPlanner: เครื่องมือ Augmented LLM สำหรับคำแนะนำแบบหลายรายละเอียดพร้อมการวางแผนเส้นทางและคำติชม , EMNLP 2024 [กระดาษ]
การตีความทางสถิติของความจำเพาะของคำศัพท์และการประยุกต์ในการดึงข้อมูล วารสารเอกสาร 2515 [กระดาษ]
กรอบความเกี่ยวข้องของความน่าจะเป็น: BM25 และนอกเหนือจากนั้น รากฐานและแนวโน้มในการดึงข้อมูลปี 2009 [กระดาษ]
Sentence-bert: การฝังประโยคโดยใช้ siamese bert-networks , EMNLP 2019. [กระดาษ]
การเรียนรู้เชิงเปรียบเทียบเชิงลบเพื่อนบ้านที่ใกล้ที่สุดโดยประมาณสำหรับการดึงข้อความหนาแน่น ICLR 2021 [กระดาษ]
การสอนสุนัขพันธุ์รีทรีฟเวอร์หนาแน่นที่มีประสิทธิภาพด้วยการสุ่มตัวอย่างตามหัวข้อที่สมดุล , SIGIR 2021 [กระดาษ]
การฝึกอบรมล่วงหน้าแบบจำลองภาษา Corpus Aware ที่ไม่ได้รับการดูแลสำหรับการดึงเส้นทางหนาแน่น , ACL 2022 [กระดาษ]
การดึงข้อมูลหนาแน่นโดยไม่ได้รับการดูแลด้วยการเรียนรู้แบบเปรียบเทียบ , พิมพ์ล่วงหน้า 2021 [กระดาษ]
CRAFT: การปรับแต่ง LLM โดยการสร้างและการดึงข้อมูลจากชุดเครื่องมือพิเศษ , ICLR 2024 [กระดาษ]
ProTIP: การดึงเครื่องมือแบบก้าวหน้าช่วยปรับปรุงการวางแผน พิมพ์ล่วงหน้า 2023 [กระดาษ]
ToolRerank: การจัดลำดับแบบ Adaptive และ Hierarchy-Aware สำหรับการดึงเครื่องมือ , COLING 2024 [กระดาษ]
การปรับปรุงการดึงข้อมูลเครื่องมือด้วยการป้อนกลับแบบวนซ้ำจากแบบจำลองภาษาขนาดใหญ่ ผลการวิจัยของ EMNLP ปี 2024 [กระดาษ]
เรียกใช้ใหม่: การเขียนการเรียกใช้เครื่องมือใหม่สำหรับการดึงเครื่องมือ Zero-Shot, การค้น พบ EMNLP 2024 [กระดาษ]
การประมาณค่าการแสดงเครื่องมือใน Vector Space ที่มีประสิทธิภาพและปรับขนาดได้ พิมพ์ล่วงหน้า 2024 [กระดาษ]
Toolshed: ปรับขนาดเอเจนต์ที่ติดตั้งเครื่องมือด้วย RAG-Tool Fusion ขั้นสูงและฐานความรู้ของเครื่องมือ พิมพ์ล่วงหน้า 2024 [กระดาษ]
COLT: สู่การเรียกค้นเครื่องมือที่เน้นความสมบูรณ์สำหรับแบบจำลองภาษาขนาดใหญ่ CIKM 2024 [กระดาษ]
เรื่องความสามารถในการจัดการเครื่องมือของโมเดลภาษาขนาดใหญ่แบบโอเพ่นซอร์ส พิมพ์ล่วงหน้า 2023 [กระดาษ]
Making Language Models Better Tool Learners with Execution Feedback , NAACL 2024. [กระดาษ]
ToolLLM: อำนวยความสะดวกให้กับโมเดลภาษาขนาดใหญ่ให้เป็นผู้เชี่ยวชาญ API ในโลกแห่งความเป็นจริงมากกว่า 16,000+ , ICLR 2024 [กระดาษ]
Confucius: Iterative Tool Learning from Introspection Feedback by Easy-to-Difficult Curriculum , AAAI 2024. [กระดาษ]
AnyTool: ตัวแทนแบบสะท้อนตัวเองแบบลำดับชั้นสำหรับการเรียก API ขนาดใหญ่ พิมพ์ล่วงหน้า 2024 [กระดาษ]
TOOLVERIFIER: ลักษณะทั่วไปของเครื่องมือใหม่ผ่านการยืนยันตัวเอง , ผลการวิจัย EMNLP 2024 [กระดาษ]
ToolNet: การเชื่อมต่อโมเดลภาษาขนาดใหญ่ด้วยเครื่องมือขนาดใหญ่ผ่าน Tool Graph , Preprint 2024 [กระดาษ]
GeckOpt: ประสิทธิภาพของระบบ LLM ผ่านการเลือกเครื่องมือตามเจตนา , GLSVLSI 2024 [กระดาษ]
AvaTaR: การเพิ่มประสิทธิภาพตัวแทน LLM สำหรับการดึงความรู้โดยใช้เครื่องมือช่วย , NeurIPS 2024 [กระดาษ]
เจ้าหน้าที่ตัวเล็กก็ร็อคได้! เสริมศักยภาพให้กับโมเดลภาษาขนาดเล็กในฐานะเครื่องตรวจจับภาพหลอน พิมพ์ล่วงหน้า 2024 [กระดาษ]
การเลือกแบบปรับเปลี่ยนได้สำหรับเครื่องมือที่เป็นเนื้อเดียวกัน: การสร้างอินสแตนซ์ในสถานการณ์ RAG , การค้นพบของ EMNLP 2024 [กระดาษ]
จากการสำรวจสู่ความเชี่ยวชาญ: การเปิดใช้งาน LLM สู่เครื่องมือระดับปรมาจารย์ผ่านการโต้ตอบที่ขับเคลื่อนด้วยตนเอง พิมพ์ล่วงหน้า 2024 [กระดาษ]
RestGPT: การเชื่อมต่อโมเดลภาษาขนาดใหญ่กับ RESTful API ในโลกแห่งความเป็นจริง พิมพ์ล่วงหน้า 2023 [กระดาษ]
Reverse Chain: กฎทั่วไปสำหรับ LLM สู่การวางแผนแบบ Multi-API อย่างเชี่ยวชาญ ก่อนพิมพ์ปี 2023 [กระดาษ]
GEAR: การเพิ่มโมเดลภาษาด้วยความละเอียดของเครื่องมือที่สามารถสรุปได้ทั่วไปและมีประสิทธิภาพ EACL 2023 [กระดาษ]
เอกสารประกอบเครื่องมือช่วยให้สามารถใช้เครื่องมือแบบ Zero-Shot ด้วยโมเดลภาษาขนาดใหญ่ พิมพ์ล่วงหน้า 2023 [กระดาษ]
ControlLLM: เพิ่มโมเดลภาษาด้วยเครื่องมือโดยการค้นหาบนกราฟ พิมพ์ล่วงหน้า 2023 [กระดาษ]
EASYTOOL: การปรับปรุงตัวแทนที่ใช้ LLM ด้วยคำแนะนำเครื่องมือที่กระชับ พิมพ์ล่วงหน้า 2024 [กระดาษ]
โมเดลภาษาขนาดใหญ่เป็นตัวติดตามสถานะการสนทนาแบบ Zero-shot ผ่านการเรียกใช้ฟังก์ชัน , ACL 2024 [กระดาษ]
การบีบอัดบริบทที่กระชับและแม่นยำสำหรับโมเดลภาษาโดยใช้เครื่องมือ , ผลการวิจัย ACL 2024 [กระดาษ]
Gorilla: โมเดลภาษาขนาดใหญ่เชื่อมต่อกับ Massive API , NeurIPS 2024 [กระดาษ]
GPT4Tools: การสอนโมเดลภาษาขนาดใหญ่โดยใช้เครื่องมือผ่านการสอนด้วยตนเอง , NeurIPS 2023 [กระดาษ]
ToolkenGPT: การเพิ่มโมเดลภาษาแช่แข็งด้วยเครื่องมือขนาดใหญ่ผ่านการฝังเครื่องมือ , NeurIPS 2023 [กระดาษ]
การสร้างแบบจำลองรางวัลเสริมด้วยเครื่องมือ , ICLR 2024. [กระดาษ]
LLM ใน Imaginarium: การเรียนรู้เครื่องมือผ่านการลองผิดลองถูกจำลอง , ACL 2024 [กระดาษ]
ToolACE: การชนะคะแนนของการเรียกใช้ฟังก์ชัน LLM , พิมพ์ล่วงหน้า 2024 [กระดาษ]
CITI: การเพิ่มประสิทธิภาพเครื่องมือโดยใช้ความสามารถในแบบจำลองภาษาขนาดใหญ่โดยไม่กระทบต่อประสิทธิภาพทั่วไป พิมพ์ล่วงหน้า 2024 [กระดาษ]
เรื่องคุณภาพ: การประเมินข้อมูลสังเคราะห์สำหรับ LLM การใช้เครื่องมือ , EMNLP 2024 [กระดาษ]
TALM: Tool Augmented Language Models , พิมพ์ล่วงหน้า 2022. [กระดาษ]
Toolformer: โมเดลภาษาสามารถสอนตัวเองให้ใช้เครื่องมือได้ , NeurIPS 2023 [กระดาษ]
การประเมินที่ครอบคลุมของกลยุทธ์การสร้างโดยใช้เครื่องมือช่วย , EMNLP 2023 [เอกสาร]
TPE: สู่การใช้เหตุผลเชิงองค์ประกอบที่ดีกว่าเครื่องมือเชิงแนวคิดด้วยการทำงานร่วมกันหลายบุคคล พิมพ์ล่วงหน้า 2023 [กระดาษ]
RECOMP: การปรับปรุง LM แบบดึงข้อมูล-เสริมด้วยการบีบอัดและเสริมแบบเลือกสรร , ICLR 2024 [กระดาษ]
การเรียนรู้การใช้เครื่องมือผ่านตัวแทนแบบมีส่วนร่วมและแบบโต้ตอบ ผล การวิจัยของ EMNLP ปี 2024 [กระดาษ]
เกณฑ์มาตรฐาน | อ้างอิง | คำอธิบาย | #เครื่องมือ | #อินสแตนซ์ | ลิงค์ | เวลาวางจำหน่าย |
---|---|---|---|---|---|---|
API-ธนาคาร | [กระดาษ] | ประเมินความสามารถของ LLM ที่มีอยู่ในการวางแผน การดึงข้อมูล และการเรียก API | 73 | 314 | [ซื้อคืน] | 2023-04 |
APIBench | [กระดาษ] | เกณฑ์มาตรฐานที่ครอบคลุมที่สร้างจากการ์ดโมเดล TorchHub, TensorHub และ HuggingFace API | 1,645 | 16,450 | [ซื้อคืน] | 2023-05 |
ม้านั่งเครื่องมือ1 | [กระดาษ] | เกณฑ์มาตรฐานการจัดการเครื่องมือซึ่งประกอบด้วยเครื่องมือซอฟต์แวร์ที่หลากหลายสำหรับงานในโลกแห่งความเป็นจริง | 232 | 2,746 | [ซื้อคืน] | 2023-05 |
เครื่องมืออัลปาก้า | [กระดาษ] | การประเมินความสามารถของ LLM ในการใช้เครื่องมือที่ไม่เคยเห็นมาก่อนโดยไม่ได้รับการฝึกอบรมเฉพาะด้าน | 426 | 3,938 | [ซื้อคืน] | 2023-06 |
ส่วนที่เหลือ | [กระดาษ] | เกณฑ์มาตรฐานคุณภาพสูงซึ่งประกอบด้วยสองสถานการณ์ในโลกแห่งความเป็นจริงและคำแนะนำที่มีคำอธิบายประกอบโดยมนุษย์พร้อมเส้นทางโซลูชันระดับทอง | 94 | 157 | [ซื้อคืน] | 2023-06 |
เครื่องมือBench2 | [กระดาษ] | ชุดข้อมูลการปรับแต่งคำสั่งสำหรับการใช้เครื่องมือ ซึ่งสร้างขึ้นโดยอัตโนมัติโดยใช้ ChatGPT | 16,464 | 126,486 | [ซื้อคืน] | 2023-07 |
MetaTool | [กระดาษ] | เกณฑ์มาตรฐานที่ออกแบบมาเพื่อประเมินว่า LLM มีความตระหนักรู้ในการใช้เครื่องมือและสามารถเลือกเครื่องมือได้อย่างถูกต้องหรือไม่ | 199 | 21,127 | [ซื้อคืน] | 2023-10 |
ทาสก์เบนช์ | [กระดาษ] | เกณฑ์มาตรฐานที่ออกแบบมาเพื่อประเมินความสามารถของ LLM จากแง่มุมต่างๆ รวมถึงการแยกย่อยงาน การเรียกใช้เครื่องมือ และการทำนายพารามิเตอร์ | 103 | 28,271 | [ซื้อคืน] | 2023-11 |
ที-อีวาล | [กระดาษ] | การประเมินความสามารถในการใช้เครื่องมือทีละขั้นตอน | 15 | 533 | [ซื้อคืน] | 2023-12 |
เครื่องมือEyes | [กระดาษ] | ระบบที่ละเอียดซึ่งปรับแต่งมาสำหรับการประเมินความสามารถในการเรียนรู้เครื่องมือของ LLM ในสถานการณ์จริง | 568 | 382 | [ซื้อคืน] | 2024-01 |
อัลตราทูล | [กระดาษ] | เกณฑ์มาตรฐานใหม่ที่ออกแบบมาเพื่อปรับปรุงและประเมินความสามารถของ LLM ในการใช้เครื่องมือภายในสถานการณ์จริง | 2,032 | 5,824 | [ซื้อคืน] | 2024-01 |
API-BLEND | [กระดาษ] | องค์กรขนาดใหญ่สำหรับการฝึกอบรมและการทดสอบ LLM ที่เสริมด้วยเครื่องมืออย่างเป็นระบบ | - | 189,040 | [ซื้อคืน] | 2024-02 |
เครื่องมือซีล | [กระดาษ] | Seal-Tools มีฮาร์ดอินสแตนซ์ที่เรียกใช้เครื่องมือหลายตัวเพื่อทำงานให้สำเร็จ ซึ่งบางอันเป็นการเรียกใช้เครื่องมือที่ซ้อนกัน | 4,076 | 14,076 | [ซื้อคืน] | 2024-05 |
เครื่องมือQA | [กระดาษ] | ได้รับการออกแบบมาเพื่อประเมินความสามารถของ LLM ในการใช้เครื่องมือภายนอกสำหรับการตอบคำถาม (QA) อย่างซื่อสัตย์ | 13 | 1,530 | [ซื้อคืน] | 2023-06 |
เครื่องมืออีมู | [กระดาษ] | เฟรมเวิร์กที่ใช้ LM เพื่อจำลองการทำงานของเครื่องมือและเปิดใช้งานการทดสอบเอเจนต์ LM ที่ปรับขนาดได้กับเครื่องมือและสถานการณ์ที่หลากหลาย (ความปลอดภัย) | 311 | 144 | [ซื้อคืน] | 2023-09 |
ทูลทอล์ค | [กระดาษ] | การวัดประสิทธิภาพประกอบด้วยความตั้งใจของผู้ใช้ที่ซับซ้อนซึ่งจำเป็นต้องมีการใช้เครื่องมือหลายขั้นตอนที่ระบุผ่านบทสนทนา (การสนทนา) | 28 | 78 | [ซื้อคืน] | 2023-11 |
วีโอที | [กระดาษ] | เกณฑ์มาตรฐานประกอบด้วยชุดข้อมูลการฝึกอบรมและหน่วยวัดประสิทธิภาพที่สร้างขึ้นสำหรับโมเดลการมองเห็นที่เป็นตัวแทน 11 รายการ ซึ่งแบ่งออกเป็นสามกลุ่มโดยใช้คำอธิบายประกอบแบบกึ่งอัตโนมัติ (VIoT) | 11 | 1,841 | [ซื้อคืน] | 2023-12 |
RoTBench | [กระดาษ] | เกณฑ์มาตรฐานหลายระดับสำหรับการประเมินความแข็งแกร่งของ LLM ในการเรียนรู้เครื่องมือ (ความทนทาน) | 568 | 105 | [ซื้อคืน] | 2024-01 |
เครื่องมือ MLLM | [กระดาษ] | ระบบที่รวมเอา LLM แบบโอเพ่นซอร์สและตัวเข้ารหัสหลายรูปแบบเข้าด้วยกัน เพื่อให้ LLM ที่เรียนรู้สามารถรับรู้ถึงคำสั่งอินพุตหลายรูปแบบ จากนั้นเลือกเครื่องมือที่จับคู่ฟังก์ชันได้อย่างถูกต้อง (หลายรูปแบบ) | 932 | 11,642 | [ซื้อคืน] | 2024-01 |
เครื่องมือดาบ | [กระดาษ] | กรอบการทำงานที่ครอบคลุมที่อุทิศให้กับการตรวจสอบปัญหาด้านความปลอดภัยอย่างพิถีพิถันซึ่งเชื่อมโยงกับ LLM ในการเรียนรู้เครื่องมือ (ความปลอดภัย) | 100 | 440 | [ซื้อคืน] | 2024-02 |
SciToolBench | [กระดาษ] | ครอบคลุมห้าโดเมนทางวิทยาศาสตร์เพื่อประเมินความสามารถของ LLM ด้วยความช่วยเหลือของเครื่องมือ (การใช้เหตุผลทางวิทยาศาสตร์) | 2,446 | 856 | [ซื้อคืน] | 2024-02 |
InjectAgent | [กระดาษ] | เกณฑ์มาตรฐานที่ออกแบบมาเพื่อประเมินช่องโหว่ของตัวแทน LLM ที่ผสานรวมเครื่องมือต่อการโจมตี IPI (ความปลอดภัย) | 17 | 1,054 | [ซื้อคืน] | 2024-02 |
StableToolBench | [กระดาษ] | เกณฑ์มาตรฐานที่พัฒนาจาก ToolBench เสนอเซิร์ฟเวอร์ API เสมือนและระบบการประเมินที่เสถียร (เสถียร) | 16,464 | 126,486 | [ซื้อคืน] | 2024-03 |
เอ็มแอนด์เอ็ม | [กระดาษ] | เกณฑ์มาตรฐานที่ประกอบด้วยงานหลายขั้นตอนแบบหลายขั้นตอนระดับ 4K+ ที่เกี่ยวข้องกับเครื่องมือ 33 รายการซึ่งรวมถึงโมเดลหลายรูปแบบ, API สาธารณะ และโมดูลการประมวลผลภาพ (หลายรูปแบบ) | 33 | 4,427 | [ซื้อคืน] | 2024-03 |
GeoLLM-QA | [กระดาษ] | เกณฑ์มาตรฐานใหม่ของงานที่หลากหลายกว่า 1,000 งาน ออกแบบมาเพื่อบันทึกเวิร์กโฟลว์ RS ที่ซับซ้อน โดยที่ LLM จัดการโครงสร้างข้อมูลที่ซับซ้อน การใช้เหตุผลที่เหมาะสม และการโต้ตอบกับอินเทอร์เฟซผู้ใช้แบบไดนามิก (การตรวจจับระยะไกล) | 117 | 1,000 | [ซื้อคืน] | 2024-04 |
เครื่องมือเลนส์ | [กระดาษ] | ToolLens ประกอบด้วยข้อความค้นหาที่กระชับแต่มีเจตนาหลายแง่มุม ซึ่งเลียนแบบการโต้ตอบของผู้ใช้ในโลกแห่งความเป็นจริงได้ดียิ่งขึ้น (การดึงเครื่องมือ) | 464 | 18,770 | [ซื้อคืน] | 2024-05 |
โซเอ้เบนช์ | [กระดาษ] | วิธีการใช้ LLM API ที่ใช้โซลูชันสำหรับการค้นหาข้อมูลทางวิชาการ | 7 | 792 | [ซื้อคืน], [HF] | 2024-05 |
เครื่องมือBH | [กระดาษ] | เกณฑ์มาตรฐานที่ประเมินภาพหลอนของ LLM ผ่านสองมุมมอง: ความลึกและความกว้าง | - | 700 | [ซื้อคืน] | 2024-06 |
ทางลัดBench | [กระดาษ] | เกณฑ์มาตรฐานในโลกแห่งความเป็นจริงขนาดใหญ่สำหรับตัวแทนที่ใช้ API | 1414 | 7627 | [ซื้อคืน] | 2024-07 |
จีทีเอ | [กระดาษ] | เกณฑ์มาตรฐานสำหรับตัวแทนเครื่องมือทั่วไป | 14 | 229 | [ซื้อคืน] | 2024-07 |
WTU-ประเมินผล | [กระดาษ] | เกณฑ์มาตรฐานการประเมินการใช้งานเครื่องมือสำหรับโมเดลภาษาขนาดใหญ่หรือไม่ | 4 | 916 | [ซื้อคืน] | 2024-07 |
แอพเวิลด์ | [กระดาษ] | ชุดงานประจำวันที่ซับซ้อนซึ่งต้องใช้การเขียนโค้ดเชิงโต้ตอบด้วยการเรียก API | 457 | 750 | [ซื้อคืน] | 2024-07 |
เครื่องมือแซนด์บ็อกซ์ | [กระดาษ] | เกณฑ์มาตรฐานการใช้งานเครื่องมือแบบมีสถานะ การสนทนา และการโต้ตอบ | 34 | 1,032 | [ซื้อคืน] | 2024-08 |
CToolEval | [กระดาษ] | เกณฑ์มาตรฐานที่ออกแบบมาเพื่อประเมิน LLM ในบริบทของการใช้งานทางสังคมของจีน | 27 | 398 | [ซื้อคืน] | 2024-08 |
มีเสียงดังToolBench | [กระดาษ] | เกณฑ์มาตรฐานนี้ประกอบด้วยคอลเลกชันของ API ที่ให้มา คำค้นหาที่ไม่ชัดเจน คำถามที่คาดว่าจะได้รับคำชี้แจง และการตอบกลับที่เกี่ยวข้อง | - | 200 | [ซื้อคืน] | 2024-09 |
การวางแผนงาน
การรับรู้การใช้เครื่องมือ
เกณฑ์มาตรฐาน MetaTool: การตัดสินใจว่าจะใช้เครื่องมือและควรใช้เครื่องมือใด , ICLR 2024 [กระดาษ]
โมเดลภาษาขนาดใหญ่ที่เสริมด้วยเครื่องมือสามารถทราบถึงเงื่อนไขที่ไม่สมบูรณ์ได้หรือไม่ , พิมพ์ล่วงหน้า 2024. [กระดาษ]
อัตราการส่งผ่านและอัตราการชนะ
ToolLLM: อำนวยความสะดวกให้กับโมเดลภาษาขนาดใหญ่ให้เป็นผู้เชี่ยวชาญ API ในโลกแห่งความเป็นจริงมากกว่า 16,000+ , ICLR 2024 [กระดาษ]
ความแม่นยำ
T-Eval: การประเมินความสามารถในการใช้เครื่องมือของโมเดลภาษาขนาดใหญ่ทีละขั้นตอน , ACL 2024 [กระดาษ]
RestGPT: การเชื่อมต่อโมเดลภาษาขนาดใหญ่กับ RESTful API ในโลกแห่งความเป็นจริง พิมพ์ล่วงหน้า 2023 [กระดาษ]
ระเบียบวิธีโดยใช้ LLM API แบบอิงโซลูชันสำหรับการแสวงหาข้อมูลทางวิชาการ พิมพ์ล่วงหน้า 2024 [กระดาษ]
การเลือกเครื่องมือ
ความแม่นยำ
ShortcutsBench: เกณฑ์มาตรฐานในโลกแห่งความเป็นจริงขนาดใหญ่สำหรับตัวแทนที่ใช้ API ก่อนพิมพ์ปี 2024 [กระดาษ]
จำ
การเรียกคืนความแม่นยำและความแม่นยำเฉลี่ย , ภาควิชาสถิติและคณิตศาสตร์ประกันภัย 2547. [บทความ]
กสทช
การประเมินเทคนิค IR แบบอิงกำไรสะสม , TOIS 2002. [กระดาษ]
คอมฯ
COLT: สู่การเรียกค้นเครื่องมือที่เน้นความสมบูรณ์สำหรับแบบจำลองภาษาขนาดใหญ่ CIKM 2024 [กระดาษ]
การเรียกเครื่องมือ
สอดคล้องกับข้อกำหนด
T-Eval: การประเมินความสามารถในการใช้เครื่องมือของโมเดลภาษาขนาดใหญ่ทีละขั้นตอน , ACL 2024 [กระดาษ]
การวางแผนและแก้ไขสิ่งที่คุณดึงมาเพื่อการเรียนรู้เครื่องมือขั้นสูง NAACL 2024 [กระดาษ]
ToolEyes: การประเมินอย่างละเอียดสำหรับความสามารถในการเรียนรู้เครื่องมือของโมเดลภาษาขนาดใหญ่ในสถานการณ์จริง พิมพ์ก่อนปี 2024 [Paper3]
ShortcutsBench: เกณฑ์มาตรฐานในโลกแห่งความเป็นจริงขนาดใหญ่สำหรับตัวแทนที่ใช้ API ก่อนพิมพ์ปี 2024 [กระดาษ]
การสร้างการตอบสนอง
เบลอ
Bleu: วิธีการประเมินการแปลด้วยเครื่องอัตโนมัติ , ACL 2002. [กระดาษ]
สีแดง
Rouge: แพ็คเกจสำหรับการประเมินสรุปอัตโนมัติ , ACL 2004 [กระดาษ]
ตรงทั้งหมด
cem: การจับคู่แบบตรงทั้งหมดแบบหยาบใน Stata , The Stata Journal 2009 [กระดาษ]
การกรอกพารามิเตอร์
ความแม่นยำ
ShortcutsBench: เกณฑ์มาตรฐานในโลกแห่งความเป็นจริงขนาดใหญ่สำหรับตัวแทนที่ใช้ API ก่อนพิมพ์ปี 2024 [กระดาษ]
เครื่องมือการเรียนรู้เอกสาร [ซื้อคืน]
สุดยอดเครื่องมือ llm. [ซื้อคืน]
Awesome-llm-เครื่องมือการเรียนรู้ [ซื้อคืน]
โมเดลภาษาเสริม: แบบสำรวจ TMLR 2024 [กระดาษ]
Tool Learning with Foundation Models , พิมพ์ล่วงหน้า 2024. [กระดาษ]
เครื่องมือคืออะไรล่ะ? แบบสำรวจจากมุมมองของแบบจำลองภาษา , COLM 2024. [กระดาษ]