في الآونة الأخيرة، برز تعلم الأدوات باستخدام نماذج اللغات الكبيرة (LLMs) كنموذج واعد لزيادة قدرات LLMs على معالجة المشكلات المعقدة للغاية.
هذه هي مجموعة الأوراق المتعلقة بتعلم الأدوات باستخدام LLMs. تم تنظيم هذه الأوراق وفقًا لورقة المسح الخاصة بنا "أداة التعلم باستخدام نماذج اللغة الكبيرة: مسح".
中文: لقد لاحظنا أن PaperAgent و旺知识 قد قدموا مقدمة موجزة وشاملة باللغة الصينية، على التوالي. ونحن نقدر كثيرا مساعدتهم.
؟ تم قبول ورقة الاستبيان الخاصة بنا من قبل مؤسسة Frontiers of Computer Science (FCS) . لقد تم بالفعل إصدار أحدث نسخة من ورقتنا؛ يرجى التحقق من ذلك!
لا تتردد في الاتصال بنا إذا كان لديك أي أسئلة أو اقتراحات!
؟؟ لا تتردد في فتح قضية أو تقديم طلب سحب! ؟؟
إذا وجدت أن عملنا يساعد في بحثك، فيرجى التكرم بالإشارة إلى ورقتنا البحثية:
@article { qu2024toolsurvey ,
author = { Qu, Changle and Dai, Sunhao and Wei, Xiaochi and Cai, Hengyi and Wang, Shuaiqiang and Yin, Dawei and Xu, Jun and Wen, Ji-Rong } ,
title = { Tool Learning with Large Language Models: A Survey } ,
journal = { arXiv preprint arXiv:2405.17935 } ,
year = { 2024 }
}
في الآونة الأخيرة، برز تعلم الأدوات باستخدام نماذج اللغات الكبيرة (LLMs) كنموذج واعد لزيادة قدرات LLMs على معالجة المشكلات المعقدة للغاية. وعلى الرغم من الاهتمام المتزايد والتقدم السريع في هذا المجال، فإن الأدبيات الموجودة لا تزال مجزأة وتفتقر إلى التنظيم المنهجي، مما يشكل حواجز أمام دخول الوافدين الجدد. تحفزنا هذه الفجوة على إجراء مسح شامل للأعمال الحالية المتعلقة بتعلم الأدوات باستخدام LLMs. في هذا الاستطلاع، نركز على مراجعة الأدبيات الموجودة من الجانبين الأساسيين (1) لماذا يعد تعلم الأدوات مفيدًا و (2) كيفية تنفيذ تعلم الأدوات، مما يتيح فهمًا شاملاً لتعلم الأدوات باستخدام ماجستير إدارة الأعمال. نستكشف أولاً "السبب" من خلال مراجعة فوائد تكامل الأداة والفوائد المتأصلة لنموذج تعلم الأداة من ستة جوانب محددة. فيما يتعلق بـ "الكيفية"، فإننا نقوم بمراجعة الأدبيات بشكل منهجي وفقًا لتصنيف أربع مراحل رئيسية في سير عمل تعلم الأداة: تخطيط المهام، واختيار الأداة، واستدعاء الأداة، وتوليد الاستجابة. بالإضافة إلى ذلك، نقدم ملخصًا تفصيليًا للمعايير الحالية وطرق التقييم، وتصنيفها وفقًا لمدى ملاءمتها للمراحل المختلفة. وأخيرًا، نناقش التحديات الحالية ونحدد الاتجاهات المستقبلية المحتملة، بهدف إلهام الباحثين والمطورين الصناعيين لمواصلة استكشاف هذا المجال الناشئ والواعد.
اكتساب المعرفة.
محرك البحث
توليد الحوار المعزز عبر الإنترنت ، ACL 2022. [ورقة]
WebGPT: الإجابة على الأسئلة بمساعدة المتصفح مع التعليقات البشرية ، ما قبل الطباعة 2021. [ورقة]
نماذج اللغة المعززة عبر الإنترنت من خلال المطالبة بعدد قليل من اللقطات للإجابة على أسئلة المجال المفتوح ، ما قبل الطباعة 2022. [ورقة]
إعادة التوصيل: نماذج لغة الصندوق الأسود المعززة للاسترجاع ، ما قبل الطباعة 2023. [ورقة]
Toolformer: نماذج اللغة يمكنها تعليم نفسها كيفية استخدام الأدوات ، NeurIPS 2023. [ورقة]
الفن: التفكير التلقائي متعدد الخطوات واستخدام الأدوات لنماذج اللغات الكبيرة ، ما قبل الطباعة 2023. [ورقة]
ToolCoder: تعليم نماذج إنشاء التعليمات البرمجية لاستخدام أدوات بحث API ، ما قبل الطباعة 2023. [ورقة]
الناقد: نماذج اللغات الكبيرة يمكنها التصحيح الذاتي باستخدام النقد التفاعلي للأدوات ، ICLR 2024. [ورقة]
قاعدة البيانات والرسم البياني المعرفي
لمدا: النماذج اللغوية لتطبيقات الحوار ، ما قبل الطباعة 2022. [ورقة]
الغوريلا: نموذج لغة كبير متصل بواجهات برمجة التطبيقات الضخمة ، NeurIPS 2024. [ورقة]
ToolkenGPT: تعزيز نماذج اللغة المجمدة بأدوات ضخمة عبر تضمين الأدوات ، NeurIPS 2023. [ورقة]
ToolQA: مجموعة بيانات للإجابة على أسئلة ماجستير إدارة الأعمال باستخدام أدوات خارجية ، NeurIPS 2023. [ورقة]
استخدام أداة خالية من الأخطاء النحوية وقابلة للتعميم لمدارس LLM عبر فك تشفير الحالة المحدودة ، NeurIPS 2023. [ورقة]
البرمجيات الوسيطة لمدارس LLM: الأدوات مفيدة لوكلاء اللغة في البيئات المعقدة ، EMNLP 2024. [ورقة]
الطقس أو الخريطة
حول قدرة التعامل مع الأدوات في نماذج اللغات الكبيرة مفتوحة المصدر ، NeurIPS 2023. [بحث]
ToolAlpaca: أداة تعليمية معممة لنماذج اللغة مع 3000 حالة محاكاة ، ما قبل الطباعة 2023. [ورقة]
التعلم بالأدوات باستخدام النماذج التأسيسية ، ما قبل الطباعة 2023. [ورقة]
تعزيز الخبرة.
الأدوات الرياضية
تدريب المدققين على حل المسائل الكلامية الرياضية ، ما قبل الطباعة 2021. [ورقة]
أنظمة MRKL: بنية معيارية رمزية عصبية تجمع بين نماذج اللغة الكبيرة ومصادر المعرفة الخارجية والتفكير المنفصل ، ما قبل الطباعة 2021. [ورقة]
تسلسل الأفكار المتزامنة للاستدلال العددي ، EMNLP 2022. [بحث]
Calc-X وCalcformers: تمكين سلسلة التفكير الحسابي من خلال التفاعل مع الأنظمة الرمزية ، EMNLP 2023. [بحث]
حل المسائل الكلامية الرياضية من خلال الجمع بين النماذج اللغوية والحلول الرمزية ، NeurIPS 2023. [ورقة]
تقييم وتحسين الاستدلال الرياضي المعتمد على الحساب المعزز بالأدوات ، NeurIPS 2023. [ورقة]
ToRA: أداة الاستدلال المتكامل لحل المشكلات الرياضية ، ICLR 2024. [ورقة]
MATHSENSEI: نموذج لغة كبير معزز بالأدوات للاستدلال الرياضي ، ما قبل الطباعة 2024. [ورقة]
Calc-CMU في SemEval-2024 المهمة 7: ما قبل الحساب - تعلم استخدام الآلة الحاسبة يحسن الحساب في نماذج اللغة ، NAACL 2024. [ورقة]
MathViz-E: دراسة حالة في وكلاء استخدام الأدوات المتخصصة في المجال ، ما قبل الطباعة 2024. [ورقة]
مترجم بايثون
بال: نماذج اللغة بمساعدة البرامج ، ICML 2023. [ورقة]
برنامج تحفيز الأفكار: فصل الحساب عن الاستدلال في مهام الاستدلال العددي ، TMLR 2023. [ورقة]
التحقق من صحة المطالبات المعقدة باستخدام الاستدلال الموجه بالبرنامج ، ACL 2023. [مقالة]
الحرباء: التفكير التركيبي بالتوصيل والتشغيل باستخدام نماذج لغوية كبيرة ، NeurIPS 2023. [ورقة]
LeTI: تعلم كيفية التوليد من التفاعلات النصية ، NAACL 2024. [بحث]
مينت: تقييم المواد في التفاعل متعدد المنعطفات مع الأدوات والتغذية الراجعة اللغوية ، ICLR 2024. [ورقة]
إجراءات التعليمات البرمجية القابلة للتنفيذ تثير وكلاء LLM أفضل ، ICML 2024. [ورقة]
CodeNav: ما وراء استخدام الأدوات لاستخدام قواعد التعليمات البرمجية في العالم الحقيقي مع وكلاء LLM ، ما قبل الطباعة 2024. [ورقة]
APPL: لغة برمجة سريعة للتكامل المتناغم للبرامج ومطالبات نماذج اللغة الكبيرة ، ما قبل الطباعة 2024. [ورقة]
BigCodeBench: إنشاء التعليمات البرمجية المعيارية باستخدام استدعاءات الوظائف المتنوعة والتعليمات المعقدة ، ما قبل الطباعة 2024. [ورقة]
CodeAgent: تعزيز إنشاء التعليمات البرمجية باستخدام أنظمة الوكلاء المتكاملة للأدوات لمواجهة تحديات الترميز على مستوى إعادة الشراء في العالم الحقيقي ، ACL 2024. [مقالة]
MuMath-Code: الجمع بين نماذج اللغة الكبيرة التي تستخدم الأدوات مع زيادة البيانات متعددة وجهات النظر للاستدلال الرياضي ، EMNLP 2024. [ورقة]
آحرون
MultiTool-CoT: يمكن لـ GPT-3 استخدام أدوات خارجية متعددة مع سلسلة من الأفكار المحفزة ، ACL 2023. [ورقة]
ChemCrow: تعزيز نماذج اللغات الكبيرة بأدوات كيميائية ، Nature Machine Intelligence 2024. [ورقة]
مراجعة لنماذج اللغات الكبيرة والعوامل المستقلة في الكيمياء ، نسخة ما قبل الطباعة 2024. [ورقة]
GeneGPT: تعزيز نماذج اللغات الكبيرة باستخدام أدوات المجال لتحسين الوصول إلى المعلومات الطبية الحيوية ، ISMB 2024. [بحث]
تجهيز النماذج اللغوية بإمكانية استخدام الأدوات لتحليل البيانات الجدولية في الشؤون المالية ، EACL 2024. [ورقة]
محاكاة السوق المالية عبر وكلاء يعتمدون على نماذج لغوية كبيرة ، نسخة ما قبل الطباعة 2024. [ورقة]
وكيل مؤسسة متعدد الوسائط للتجارة المالية: أدوات معززة ومتنوعة وعامة ، KDD 2024. [ورقة]
AgentMD: تمكين وكلاء اللغة من التنبؤ بالمخاطر من خلال تعلم الأدوات السريرية على نطاق واسع ، نسخة ما قبل الطباعة 2024. [ورقة]
SCIAGENT: نماذج اللغة المعززة بالأدوات للاستدلال العلمي ، EMNLP 2024. [ورقة]
MMedAgent: تعلم استخدام الأدوات الطبية مع وكيل متعدد الوسائط ، نتائج EMNLP 2024. [ورق]
اسمح لي أن أفعل ذلك من أجلك: نحو توصية معززة لماجستير إدارة الأعمال عبر التعلم بالأدوات ، SIGIR 2024. [ورقة]
رد فعل خاص بالمجال للنمذجة التكرارية المتكاملة للفيزياء: دراسة حالة لوكلاء LLM لتحليل مسار الغاز لتوربينات الغاز ، نسخة أولية 2024. [ورقة]
WORLDAPIS: العالم يستحق كم عدد واجهات برمجة التطبيقات؟ تجربة فكرية ، ورشة عمل ACL 2024. [ورق]
وكيل مدعوم بالأدوات في فحص SQL وتحسينه في سيناريوهات العالم الحقيقي ، الطبعة الأولية 2024. [ورقة]
HoneyComb: نظام وكيل مرن قائم على LLM لعلوم المواد ، ما قبل الطباعة 2024. [ورقة]
الأتمتة والكفاءة.
أدوات الجدولة
ToolQA: مجموعة بيانات للإجابة على أسئلة ماجستير إدارة الأعمال باستخدام أدوات خارجية ، NeurIPS 2023. [ورقة]
ضبط التذكيرات
ToolLLM: تسهيل نماذج اللغات الكبيرة لإتقان أكثر من 16000 واجهة برمجة تطبيقات في العالم الحقيقي ، ICLR 2024. [ورقة]
تصفية رسائل البريد الإلكتروني
ToolLLM: تسهيل نماذج اللغات الكبيرة لإتقان أكثر من 16000 واجهة برمجة تطبيقات في العالم الحقيقي ، ICLR 2024. [ورقة]
إدارة المشاريع
ToolLLM: تسهيل نماذج اللغات الكبيرة لإتقان أكثر من 16000 واجهة برمجة تطبيقات في العالم الحقيقي ، ICLR 2024. [ورقة]
مساعدو التسوق عبر الإنترنت
WebShop: نحو تفاعل ويب واقعي قابل للتطوير مع وكلاء اللغة المرتكزين ، NeurIPS 2022. [مقالة]
تعزيز التفاعل.
أدوات متعددة الوسائط
Vipergpt: الاستدلال البصري عن طريق تنفيذ بايثون للاستدلال ، ICCV 2023. [ورقة]
MM-REACT: المطالبة بـ ChatGPT للاستدلال والعمل متعدد الوسائط ، طبعة ما قبل الطباعة 2023. [ورقة]
InterGPT: حل المهام التي تتمحور حول الرؤية من خلال التفاعل مع ChatGPT Beyond Language ، ما قبل الطباعة 2023. [ورقة]
AssistGPT: مساعد عام متعدد الوسائط يمكنه التخطيط والتنفيذ والفحص والتعلم ، الطباعة المسبقة 2023. [ورقة]
كلوفا: مساعد بصري ذو حلقة مغلقة مع استخدام الأداة وتحديثها ، CVPR 2024. [ورقة]
DiffAgent: اختيار سريع ودقيق لواجهة برمجة تطبيقات تحويل النص إلى صورة مع نموذج لغة كبير ، CVPR 2024. [ورقة]
أداة MLLM: نموذج لغة كبير متعدد الوسائط لتعلم وكيل الأدوات ، ما قبل الطباعة 2024. [ورقة]
m&m's: معيار لتقييم استخدام الأدوات للمهام متعددة الخطوات ومتعددة الوسائط ، ما قبل الطباعة 2024. [ورقة]
من الأقل إلى الأكثر: بناء منطق بصري للتوصيل والتشغيل عبر تركيب البيانات ، ما قبل الطباعة 2024. [ورقة]
مترجم آلي
Toolformer: نماذج اللغة يمكنها تعليم نفسها كيفية استخدام الأدوات ، NeurIPS 2023. [ورقة]
التعلم بالأدوات باستخدام النماذج التأسيسية ، ما قبل الطباعة 2023. [ورقة]
أدوات معالجة اللغات الطبيعية
HuggingGPT: حل مهام الذكاء الاصطناعي باستخدام ChatGPT وأصدقائه في Hugging Face ، NeurIPS 2023. [ورقة]
GitAgent: تسهيل الوكيل المستقل باستخدام GitHub بواسطة ملحق الأداة ، ما قبل الطباعة 2023. [ورقة]
سلسلة الأفكار التي تحث على التفكير في النماذج اللغوية الكبيرة ، NeurIPS 2022. [ورقة]
رد الفعل: التآزر بين الاستدلال والتصرف في النماذج اللغوية ، ICLR 2023. [بحث]
الفن: التفكير التلقائي متعدد الخطوات واستخدام الأدوات لنماذج اللغات الكبيرة ، ما قبل الطباعة 2023. [ورقة]
HuggingGPT: حل مهام الذكاء الاصطناعي باستخدام ChatGPT وأصدقائه في Hugging Face ، NeurIPS 2023. [ورقة]
Graph-ToolFormer: لتمكين طلاب الماجستير في القانون من القدرة على التفكير الرسومي عبر المطالبة المعززة بواسطة ChatGPT ، طبعة أولية 2023. [ورقة]
نماذج اللغات الكبيرة كصانعي أدوات ، ICLR 2024. [ورقة]
المنشئ: إنشاء أداة لتفكيك الاستدلال المجرد والملموس لنماذج اللغات الكبيرة ، EMNLP 2023. [ورقة]
ChatCoT: استدلال سلسلة الأفكار المعززة بالأدوات في نماذج اللغات الكبيرة القائمة على الدردشة ، EMNLP 2023. [مقالة]
FacTool: اكتشاف الحقائق في الذكاء الاصطناعي التوليدي - إطار عمل معزز للأداة لسيناريوهات المهام المتعددة والمجالات المتعددة ، نسخة ما قبل الطباعة 2023. [مقالة]
TPTU: وكلاء الذكاء الاصطناعي المعتمدون على نماذج اللغة الكبيرة لتخطيط المهام واستخدام الأدوات ، ما قبل الطباعة 2023. [ورقة]
ToolChain*: التنقل الفعال في مساحة العمل في نماذج اللغات الكبيرة باستخدام بحث A* ، ICLR 2024. [ورقة]
عزز أقصر عصا في الانتباه: تعزيز الوعي بالسياق لنماذج اللغات الكبيرة للاستخدام الفعال للأدوات ، ACL 2024. [ورقة]
TroVE: إنشاء صناديق أدوات فعالة وقابلة للتحقق لحل المهام البرمجية ، ما قبل الطباعة 2024. [ورقة]
SwissNYF: وكلاء LLM المعتمدون على الأدوات لإعداد الصندوق الأسود ، ما قبل الطباعة 2024. [ورقة]
من الملخص إلى الإجراء: تعزيز نماذج اللغات الكبيرة للمهام المعقدة باستخدام واجهات برمجة تطبيقات العالم المفتوح ، ما قبل الطباعة 2024. [ورقة]
أداة التعلم مع التخطيط المقيدة بالميزانية ، نتائج ACL 2024. [ورق]
تخطيط وتحرير ما تسترده من أجل التعلم المحسن للأدوات ، NAACL 2024. [ورقة]
يمكن لنماذج اللغات الكبيرة التخطيط لرحلاتك بدقة باستخدام أدوات التحقق الرسمية ، ما قبل الطباعة 2024. [ورقة]
السنافر: الاستفادة من وكلاء الكفاءة المتعددة مع كفاءة السياق لتخطيط الأدوات ، ما قبل الطباعة 2024. [ورقة]
STRIDE: إطار عمل وكيل LLM مدعوم بالأدوات لاتخاذ القرارات الإستراتيجية والتفاعلية ، نسخة ما قبل الطباعة 2024. [ورقة]
سلسلة الأدوات: نموذج اللغة الكبير هو متعلم تلقائي متعدد الأدوات ، ما قبل الطباعة 2024. [ورقة]
هل يمكن لتعلم الرسم البياني تحسين التخطيط في الوكلاء المعتمدين على LLM؟ ، نيوربيس 2024. [ورقة]
مخطط الأدوات: تخطيط شجرة الحلول الديناميكية لنموذج اللغة الكبير مع تجميع الأدوات ، ما قبل الطباعة 2024. [ورقة]
فشل الأدوات: اكتشاف الأخطاء الصامتة في الأدوات المعيبة ، EMNLP 2024. [ورقة]
ما الذي يؤثر على استقرار تعلم الأداة؟ دراسة تجريبية حول متانة أطر تعلم الأدوات ، ما قبل الطباعة 2024. [ورقة]
وكيل توليب - تمكين الوكلاء المعتمدين على LLM من حل المهام باستخدام مكتبات الأدوات الكبيرة ، ما قبل الطباعة 2024. [ورقة]
مجموعة الأدوات: الوكلاء المجهزون بأدوات القياس مع دمج أدوات RAG المتقدم وقواعد معارف الأدوات ، ما قبل الطباعة 2024. [ورقة]
من الاستكشاف إلى الإتقان: تمكين حاملي شهادة الماجستير في إدارة الأعمال من إتقان الأدوات عبر التفاعلات الذاتية ، طبعة ما قبل الطباعة 2024. [ورقة]
TaskMatrix.AI: إكمال المهام عن طريق ربط النماذج الأساسية بملايين واجهات برمجة التطبيقات ، الحوسبة الذكية 2024. [ورقة]
OpenAGI: عندما تجتمع LLM مع خبراء المجال ، نيوريبس 2023. [ورقة]
ToolLLM: تسهيل نماذج اللغات الكبيرة لإتقان أكثر من 16000 واجهة برمجة تطبيقات في العالم الحقيقي ، ICLR 2024. [ورقة]
رابط الأداة: ربط إنشاء مجموعة الأدوات واستخدامها من خلال سلسلة الحلول في نموذج مفتوح المصدر ، طبعة ما قبل الطباعة 2023. [ورقة]
TPTU-v2: تعزيز تخطيط المهام واستخدام الأدوات للوكلاء المعتمدين على نماذج اللغات الكبيرة في أنظمة العالم الحقيقي ، ICLR 2024. [ورقة]
التغلب على عدم اليقين: تحسين اعتماد واجهة برمجة التطبيقات (API) لتقليل الهلوسة في الإجابة على أسئلة الكتاب المغلق ، ECIR 2024. [ورقة]
ماجستير إدارة الأعمال الصغيرة هم متعلمون ضعيفون للأدوات: وكيل متعدد LLM ، EMNLP 2024. [ورقة]
استخدام الأداة بكفاءة مع استدلال السلسلة التجريدية ، ما قبل الطباعة 2024. [ورقة]
انظر قبل أن تقفز: نحو استخدام أداة مدركة للقرار وقابلة للتعميم لنماذج اللغات الكبيرة ، ما قبل الطباعة 2024. [ورقة]
منهجية LLM API قائمة على الحلول للبحث عن المعلومات الأكاديمية ، ما قبل الطباعة 2024. [ورقة]
تطوير نماذج اللغات الكبيرة المعززة بالأدوات: دمج الرؤى من الأخطاء في أشجار الاستدلال ، NeurIPS 2024. [ورقة]
APIGen: خط أنابيب آلي لإنشاء مجموعات بيانات متنوعة يمكن التحقق منها لاستدعاء الوظائف ، طبعة أولية 2024. [ورقة]
MetaTool: تسهيل نماذج اللغات الكبيرة لإتقان الأدوات مع زيادة المهام الوصفية ، ما قبل الطباعة 2024. [ورقة]
ToolPlanner: أداة معززة LLM لتعليمات متعددة التفاصيل مع تخطيط المسار والملاحظات ، EMNLP 2024. [ورقة]
التفسير الإحصائي لخصوصية المصطلح وتطبيقه في الاسترجاع ، مجلة التوثيق 1972. [بحث]
إطار الملاءمة الاحتمالية: BM25 وما بعده ، الأسس والاتجاهات في استرجاع المعلومات 2009. [ورقة]
الجملة بيرت: تضمين الجملة باستخدام شبكات بيرت السيامية ، EMNLP 2019. [ورقة]
التعلم التبايني السلبي لأقرب جار تقريبي لاسترجاع النص الكثيف ، ICLR 2021. [ورقة]
التدريس بكفاءة لمسترد كثيف فعال باستخدام أخذ عينات متوازنة واعية بالموضوع ، SIGIR 2021. [ورقة]
نموذج اللغة المدرك غير الخاضع للرقابة للتدريب المسبق على استرجاع الممرات الكثيفة ، ACL 2022. [ورقة]
استرجاع المعلومات الكثيفة غير الخاضعة للرقابة مع التعلم المتباين ، ما قبل الطباعة 2021. [ورقة]
كرافت: تخصيص ماجستير إدارة الأعمال عن طريق الإنشاء والاسترجاع من مجموعات الأدوات المتخصصة ، ICLR 2024. [ورقة]
نصيحة ProTIP: يؤدي الاسترجاع التدريجي للأداة إلى تحسين التخطيط ، ما قبل الطباعة 2023. [ورقة]
ToolRerank: إعادة الترتيب التكيفية والتسلسل الهرمي لاسترجاع الأدوات ، COLING 2024. [ورقة]
تعزيز استرجاع الأدوات من خلال ردود الفعل التكرارية من نماذج اللغات الكبيرة ، نتائج EMNLP 2024. [ورق]
إعادة الاستدعاء: إعادة كتابة استدعاء الأداة لاسترجاع أداة Zero-Shot ، نتائج EMNLP 2024. [ورق]
تقدير فعال وقابل للتطوير لتمثيلات الأداة في الفضاء المتجه ، ما قبل الطباعة 2024. [ورقة]
مجموعة الأدوات: الوكلاء المجهزون بأدوات القياس مع دمج أدوات RAG المتقدم وقواعد معارف الأدوات ، ما قبل الطباعة 2024. [ورقة]
كولت: نحو استرجاع الأدوات الموجهة نحو الاكتمال لنماذج اللغات الكبيرة ، CIKM 2024. [ورقة]
حول قدرة التعامل مع الأدوات في نماذج اللغات الكبيرة مفتوحة المصدر ، ما قبل الطباعة 2023. [ورقة]
جعل نماذج اللغة أدوات أفضل للمتعلمين من خلال التغذية الراجعة للتنفيذ ، NAACL 2024. [ورقة]
ToolLLM: تسهيل نماذج اللغات الكبيرة لإتقان أكثر من 16000 واجهة برمجة تطبيقات في العالم الحقيقي ، ICLR 2024. [ورقة]
كونفوشيوس: أداة تكرارية للتعلم من ردود الفعل الاستبطانية من خلال منهج سهل إلى صعب ، AAAI 2024. [ورقة]
AnyTool: وكلاء هرميون عاكسون ذاتيًا لاستدعاءات واجهة برمجة التطبيقات واسعة النطاق ، ما قبل الطباعة 2024. [ورقة]
TOOLVERIFIER: تعميم الأدوات الجديدة عبر التحقق الذاتي ، نتائج EMNLP 2024. [ورق]
ToolNet: ربط نماذج اللغات الكبيرة بأدوات ضخمة عبر الرسم البياني للأدوات ، ما قبل الطباعة 2024. [ورقة]
GeckOpt: كفاءة نظام LLM من خلال اختيار الأداة على أساس النية ، GLSVLSI 2024. [ورقة]
AvaTaR: تحسين وكلاء LLM لاسترجاع المعرفة بمساعدة الأدوات ، NeurIPS 2024. [ورقة]
يمكن للوكيل الصغير أيضًا أن يتألق! تمكين النماذج اللغوية الصغيرة ككاشف للهلوسة ، ما قبل الطباعة 2024. [ورقة]
الاختيار التكيفي للأدوات المتجانسة: إنشاء مثيل في سيناريو RAG ، نتائج EMNLP 2024. [ورق]
من الاستكشاف إلى الإتقان: تمكين حاملي شهادة الماجستير في إدارة الأعمال من إتقان الأدوات عبر التفاعلات الذاتية ، طبعة ما قبل الطباعة 2024. [ورقة]
RestGPT: ربط نماذج اللغات الكبيرة بواجهات برمجة التطبيقات RESTful في العالم الحقيقي ، ما قبل الطباعة 2023. [ورقة]
السلسلة العكسية: قاعدة عامة لماجستير القانون في إتقان تخطيط واجهات برمجة التطبيقات المتعددة ، ما قبل الطباعة 2023. [ورقة]
GEAR: تعزيز نماذج اللغة باستخدام أدوات قابلة للتعميم وفعالة ، EACL 2023. [ورقة]
يتيح توثيق الأداة إمكانية استخدام الأداة دون استخدام اللقطة مع نماذج اللغات الكبيرة ، ما قبل الطباعة 2023. [الورقة]
ControlLLM: تعزيز نماذج اللغة بالأدوات من خلال البحث في الرسوم البيانية ، ما قبل الطباعة 2023. [ورقة]
الأداة السهلة: تعزيز الوكلاء المعتمدين على LLM باستخدام تعليمات موجزة للأداة ، ما قبل الطباعة 2024. [الورقة]
نماذج اللغات الكبيرة كمتعقب لحالة الحوار بدون إطلاق النار من خلال استدعاء الوظائف ، ACL 2024. [ورقة]
ضغط سياق موجز ودقيق لنماذج اللغة التي تستخدم الأدوات ، نتائج ACL 2024. [ورق]
الغوريلا: نموذج لغة كبير متصل بواجهات برمجة التطبيقات الضخمة ، NeurIPS 2024. [ورقة]
أدوات GPT4: تدريس نموذج لغة كبير لاستخدام الأدوات عبر التعليم الذاتي ، NeurIPS 2023. [ورقة]
ToolkenGPT: تعزيز نماذج اللغة المجمدة بأدوات ضخمة عبر تضمين الأدوات ، NeurIPS 2023. [ورقة]
نمذجة المكافآت المعززة بالأدوات ، ICLR 2024. [بحث]
ماجستير في القانون في الخيال: تعلم الأدوات من خلال محاكاة التجربة والخطأ ، ACL 2024. [ورقة]
ToolACE: الفوز بنقاط استدعاء الوظائف في LLM ، ما قبل الطباعة 2024. [ورقة]
CITI: أداة تعزيز الاستفادة من القدرة في النماذج اللغوية الكبيرة دون التضحية بالأداء العام ، نسخة ما قبل الطباعة 2024. [ورقة]
مسائل الجودة: تقييم البيانات الاصطناعية لماجستير إدارة الأعمال باستخدام الأدوات ، EMNLP 2024. [ورقة]
TALM: نماذج اللغة المعززة بالأدوات ، ما قبل الطباعة 2022. [ورقة]
Toolformer: نماذج اللغة يمكنها تعليم نفسها كيفية استخدام الأدوات ، NeurIPS 2023. [ورقة]
تقييم شامل لاستراتيجيات التوليد المدعومة بالأدوات ، EMNLP 2023. [بحث]
TPE: نحو تفكير تركيبي أفضل عبر الأدوات المفاهيمية بالتعاون بين الأشخاص المتعددين ، طبعة ما قبل الطباعة 2023. [ورقة]
ريكومب: تحسين نماذج التعلم المعززة للاسترجاع مع الضغط والزيادة الانتقائية ، ICLR 2024. [ورقة]
تعلم استخدام الأدوات عبر الوكلاء التعاونيين والتفاعليين ، نتائج EMNLP 2024. [ورق]
المعيار | مرجع | وصف | #أدوات | #المثيلات | وصلة | وقت الإصدار |
---|---|---|---|---|---|---|
API البنك | [ورق] | تقييم قدرات LLMs الحالية في تخطيط واسترجاع واستدعاء واجهات برمجة التطبيقات. | 73 | 314 | [الريبو] | 2023-04 |
APIBench | [ورق] | معيار شامل تم إنشاؤه من بطاقات نموذج TorchHub وTensorHub وHuggingFace API. | 1,645 | 16,450 | [الريبو] | 2023-05 |
منضدة الأدوات1 | [ورق] | معيار لمعالجة الأدوات يتكون من أدوات برمجية متنوعة لمهام العالم الحقيقي. | 232 | 2,746 | [الريبو] | 2023-05 |
ToolAlpaca | [ورق] | تقييم قدرة LLMs على استخدام الأدوات غير المرئية من قبل دون تدريب محدد. | 426 | 3,938 | [الريبو] | 2023-06 |
ريستبينش | [ورق] | معيار عالي الجودة يتكون من سيناريوهين من العالم الحقيقي وتعليمات مشروحة بشريًا مع مسارات الحل الذهبية. | 94 | 157 | [الريبو] | 2023-06 |
ToolBench2 | [ورق] | مجموعة بيانات ضبط التعليمات لاستخدام الأداة، والتي يتم إنشاؤها تلقائيًا باستخدام ChatGPT. | 16,464 | 126,486 | [الريبو] | 2023-07 |
أداة ميتا | [ورق] | معيار مصمم لتقييم ما إذا كان الحاصلون على ماجستير إدارة الأعمال لديهم وعي باستخدام الأدوات ويمكنهم اختيار الأدوات بشكل صحيح. | 199 | 21,127 | [الريبو] | 2023-10 |
TaskBench | [ورق] | معيار مصمم لتقييم قدرة LLMs من جوانب مختلفة، بما في ذلك تحليل المهام، واستدعاء الأدوات، والتنبؤ بالمعلمات. | 103 | 28,271 | [الريبو] | 2023-11 |
تي-التقييم | [ورق] | تقييم القدرة على استخدام الأداة خطوة بخطوة. | 15 | 533 | [الريبو] | 2023-12 |
عيون الأدوات | [ورق] | نظام دقيق مصمم لتقييم قدرات تعلم أدوات LLM في سيناريوهات حقيقية. | 568 | 382 | [الريبو] | 2024-01 |
أداة فائقة | [ورق] | معيار جديد مصمم لتحسين وتقييم قدرة LLMs على استخدام الأدوات ضمن سيناريوهات العالم الحقيقي. | 2,032 | 5,824 | [الريبو] | 2024-01 |
API-BLEND | [ورق] | مجموعة كبيرة للتدريب والاختبار المنهجي لبرامج LLM المعززة بالأدوات. | - | 189,040 | [الريبو] | 2024-02 |
أدوات الختم | [ورق] | تحتوي أدوات Seal-Tools على مثيلات ثابتة تستدعي أدوات متعددة لإكمال المهمة، ومن بينها استدعاءات أدوات متداخلة. | 4,076 | 14,076 | [الريبو] | 2024-05 |
ToolQA | [ورق] | لقد تم تصميمه لتقييم قدرة LLMs على استخدام أدوات خارجية للإجابة على الأسئلة بأمانة. (QA) | 13 | 1,530 | [الريبو] | 2023-06 |
ToolEmu | [ورق] | إطار عمل يستخدم LM لمحاكاة تنفيذ الأداة ويتيح اختبارًا قابلاً للتطوير لوكلاء LM مقابل مجموعة متنوعة من الأدوات والسيناريوهات. (السلامة) | 311 | 144 | [الريبو] | 2023-09 |
نقاش الأدوات | [ورق] | معيار يتكون من نوايا مستخدم معقدة تتطلب استخدام أداة متعددة الخطوات يتم تحديدها من خلال الحوار. (محادثة) | 28 | 78 | [الريبو] | 2023-11 |
فيوت | [ورق] | يتضمن المعيار مجموعة بيانات تدريبية ومقاييس أداء محددة لـ 11 نموذج رؤية تمثيلي، مصنفة إلى ثلاث مجموعات باستخدام التعليقات التوضيحية شبه الآلية. (VIoT) | 11 | 1,841 | [الريبو] | 2023-12 |
روبنش | [ورق] | معيار متعدد المستويات لتقييم قوة LLMs في تعلم الأدوات. (Robustness) | 568 | 105 | [الريبو] | 2024-01 |
أداة الامتيازات والرهون البحرية | [ورق] | نظام يشتمل على شهادات LLM مفتوحة المصدر وأجهزة تشفير متعددة الوسائط بحيث يمكن لطلاب LLM المتعلمين أن يكونوا على دراية بتعليمات الإدخال متعددة الوسائط ثم تحديد الأداة المطابقة للوظيفة بشكل صحيح. (متعدد الوسائط) | 932 | 11,642 | [الريبو] | 2024-01 |
أداةالسيف | [ورق] | إطار عمل شامل مخصص للتحقيق الدقيق في قضايا السلامة المرتبطة بـ LLMs في تعلم الأدوات. (السلامة) | 100 | 440 | [الريبو] | 2024-02 |
SciToolBench | [ورق] | تمتد إلى خمسة مجالات علمية لتقييم قدرات LLM بمساعدة الأدوات. (الاستدلال العلمي) | 2,446 | 856 | [الريبو] | 2024-02 |
InjecAgent | [ورق] | معيار مصمم لتقييم مدى تعرض وكلاء LLM المدمجين في الأدوات لهجمات IPI. (السلامة) | 17 | 1,054 | [الريبو] | 2024-02 |
StableToolBench | [ورق] | معيار متطور من ToolBench، يقترح خادم API افتراضي ونظام تقييم مستقر. (مستقر) | 16,464 | 126,486 | [الريبو] | 2024-03 |
إم آند إمز | [ورق] | معيار يحتوي على مهام متعددة الوسائط متعددة الخطوات بدقة 4K+ تتضمن 33 أداة تتضمن نماذج متعددة الوسائط وواجهات برمجة التطبيقات العامة ووحدات معالجة الصور. (متعدد الوسائط) | 33 | 4,427 | [الريبو] | 2024-03 |
GeoLLM-QA | [ورق] | معيار جديد يضم 1000 مهمة متنوعة، مصمم لالتقاط مسارات عمل RS المعقدة حيث يتعامل طلاب LLM مع هياكل البيانات المعقدة والتفكير الدقيق والتفاعلات مع واجهات المستخدم الديناميكية. (الاستشعار عن بعد) | 117 | 1000 | [الريبو] | 2024-04 |
ToolLens | [ورق] | يتضمن ToolLens استعلامات موجزة ولكنها متعددة الأوجه عن قصد والتي تحاكي بشكل أفضل تفاعلات المستخدم في العالم الحقيقي. (استرجاع الأداة) | 464 | 18,770 | [الريبو] | 2024-05 |
SoAyBench | [ورق] | منهجية LLM API القائمة على الحلول للبحث عن المعلومات الأكاديمية | 7 | 792 | [الريبو]، [HF] | 2024-05 |
أداةBH | [ورق] | معيار يقيّم هلاوس LLM من خلال منظورين: العمق والاتساع. | - | 700 | [الريبو] | 2024-06 |
ShortcutsBench | [ورق] | معيار عالمي حقيقي واسع النطاق للوكلاء المعتمدين على واجهة برمجة التطبيقات | 1414 | 7627 | [الريبو] | 2024-07 |
جي تي ايه | [ورق] | معيار لوكلاء الأدوات العامة | 14 | 229 | [الريبو] | 2024-07 |
WTU-Eval | [ورق] | معيار تقييم استخدام الأداة أم لا لنماذج اللغات الكبيرة | 4 | 916 | [الريبو] | 2024-07 |
عالم التطبيقات | [ورق] | مجموعة من المهام اليومية المعقدة التي تتطلب ترميزًا تفاعليًا مع استدعاءات واجهة برمجة التطبيقات (API). | 457 | 750 | [الريبو] | 2024-07 |
ToolSandbox | [ورق] | معيار استخدام الأدوات الرسمي والمحادثة والتفاعلية. | 34 | 1032 | [الريبو] | 2024-08 |
CToolEval | [ورق] | معيار مصمم لتقييم LLMs في سياق التطبيقات المجتمعية الصينية. | 27 | 398 | [الريبو] | 2024-08 |
NoisyToolBench | [ورق] | يتضمن هذا المعيار مجموعة من واجهات برمجة التطبيقات المقدمة والاستعلامات الغامضة والأسئلة المتوقعة للتوضيح والإجابات المقابلة. | - | 200 | [الريبو] | 2024-09 |
تخطيط المهام
الوعي باستخدام الأداة
معيار MetaTool: تحديد ما إذا كان سيتم استخدام الأدوات وأي منها سيتم استخدامه ، ICLR 2024. [ورقة]
هل يمكن لنماذج اللغات الكبيرة المعززة بالأدوات أن تكون على دراية بالشروط غير المكتملة؟ ، طبعة أولية 2024. [ورقة]
معدل النجاح ومعدل الفوز
ToolLLM: تسهيل نماذج اللغات الكبيرة لإتقان أكثر من 16000 واجهة برمجة تطبيقات في العالم الحقيقي ، ICLR 2024. [ورقة]
دقة
T-Eval: تقييم قدرة استخدام الأدوات لنماذج اللغات الكبيرة خطوة بخطوة ، ACL 2024. [ورقة]
RestGPT: ربط نماذج اللغات الكبيرة بواجهات برمجة تطبيقات RESTful في العالم الحقيقي ، ما قبل الطباعة 2023. [ورقة]
منهجية LLM API قائمة على الحلول للبحث عن المعلومات الأكاديمية ، ما قبل الطباعة 2024. [ورقة]
اختيار الأداة
دقة
ShortcutsBench: معيار عالمي حقيقي واسع النطاق للوكلاء المعتمدين على واجهة برمجة التطبيقات ، الطبعة الأولية 2024. [ورقة]
يتذكر
الاستدعاء والدقة والدقة المتوسطة ، دائرة الإحصاء والعلوم الاكتوارية 2004. [بحث]
NDCG
التقييم التراكمي القائم على الربح لتقنيات الأشعة تحت الحمراء ، TOIS 2002. [ورقة]
شركات
كولت: نحو استرجاع الأدوات الموجهة نحو الاكتمال لنماذج اللغات الكبيرة ، CIKM 2024. [ورقة]
استدعاء الأداة
بما يتفق مع الشروط
T-Eval: تقييم قدرة استخدام الأدوات لنماذج اللغات الكبيرة خطوة بخطوة ، ACL 2024. [ورقة]
تخطيط وتحرير ما تسترده من أجل التعلم المحسن للأدوات ، NAACL 2024. [ورقة]
ToolEyes: تقييم دقيق لقدرات تعلم الأدوات لنماذج اللغة الكبيرة في سيناريوهات العالم الحقيقي ، ما قبل الطباعة 2024. [الورقة 3]
ShortcutsBench: معيار عالمي حقيقي واسع النطاق للوكلاء المعتمدين على واجهة برمجة التطبيقات ، الطبعة الأولية 2024. [ورقة]
توليد الاستجابة
بلو
بلو: طريقة للتقييم الآلي للترجمة الآلية ، ACL 2002. [بحث]
روج
روج: حزمة للتقييم التلقائي للملخصات ، ACL 2004. [ورقة]
المطابقة التامة
جيم: المطابقة الدقيقة الخشنة في ستاتا ، مجلة ستاتا 2009. [ورقة]
تعبئة المعلمة
دقة
ShortcutsBench: معيار عالمي حقيقي واسع النطاق للوكلاء المعتمدين على واجهة برمجة التطبيقات ، الطبعة الأولية 2024. [ورقة]
أوراق تعلم الأدوات. [الريبو]
أداة رهيبة-llm. [الريبو]
تعلم أداة رهيبة. [الريبو]
نماذج اللغة المعززة: دراسة استقصائية ، TMLR 2024. [ورقة]
التعلم بالأدوات باستخدام النماذج التأسيسية ، ما قبل الطباعة 2024. [ورقة]
ما هي الأدوات على أي حال؟ مسح من منظور نموذج اللغة ، COLM 2024. [ورقة]