LLM Table-Survey
المعايير
مجموعات البيانات
نموذج لغة كبير
تدريب عصر ما قبل LLM
صقل تعليمات الجدول
رمز LLM
هجينة الجدول والرمز
فهم الجدول متعدد الوسائط واستخلاصه
التمثيل
المطالبة
أدوات
استطلاع
NL2SQL
الجدول QA
جدول البيانات
إطار متعدد المهام
جدول المحتويات
قائمة الورق
مجموعات البيانات والمعايير
GPT-3 ، نماذج اللغة هي متعلمين قليل. Neupips 20. [ورقة]
T5 ، استكشاف حدود التعلم النقل مع محول نص إلى نص موحد. [ورق]
Flan ، نماذج اللغة المحفورة بالحيوية هي متعلمين صفري. ICLR 22. [ورقة] [رمز]
DPO ، تحسين التفضيل المباشر: نموذج لغتك هو سرا نموذج المكافأة. Neupips 23. [ورقة]
PEFT ، قوة المقياس لضبط موجه فعال المعلمة. EMNLP 21. [ورقة]
لورا ، لورا: التكيف المنخفض الرتبة لنماذج اللغة الكبيرة. ICLR 22. [ورقة]
يطرح سلسلة أفكر ، وسلسلة الفكر الذي يثير التفكير في نماذج اللغة الكبيرة. Neupips 22. [ورقة]
يتيح المطالبة الأقل إلى حد ما ، والأقل إلى حد ما ، المنطق المعقد في نماذج اللغة الكبيرة. ICLR 23. [ورقة]
يتنافس التوافق الذاتي ، ويحسن التوافق الذاتي سلسلة من التفكير في نماذج اللغة. ICLR 23. [ورقة]
رد فعل ، رد فعل: تآزر التفكير والتمثيل في نماذج اللغة. ICLR 23. [ورقة] [رمز]
Tabert ، Tabert: pretrining لفهم المفاصل للبيانات النصية والجدولية. ACL 20 الرئيسي. [ورقة] [رمز]
Tapex ، Tapex: الجدول المسبق للتدريب عبر تعلم Executor SQL العصبي. ICLR 22. [ورقة] [رمز] [نماذج]
Tabbie ، Tabbie: تمثيلات pretrabed للبيانات الجدولية. NAACL 21 MAIN. [ورقة] [رمز]
Turl ، Turl: فهم الجدول من خلال التعلم التمثيل. VLDB 21. [ورقة] [رمز]
RESDSQL ، RESDSQL: مخطط فك الارتباط وربط وتحليل الهيكل العظمي من أجل النص إلى SQL. AAAI 23. [ورقة] [رمز]
UnifiedSKG ، UnifiedSKG: موحد ومهام المعرفة منظمة مع نماذج لغة من النص إلى نص. EMNLP 22 الرئيسية. [ورقة] [رمز]
جدول البيانات ، جدول البيانات: التنبؤ الصيغة من سياق شبه منظم. ICML 21. [ورقة] [رمز]
GPT Table ، Table-GPT: GPT المضبوطة على الجدول لمهام الطاولة المتنوعة. Arxiv 2023. [ورقة]
تابلاما ، تابلاما: نحو نماذج عامة مفتوحة للجداول. NAACL 24.
Codex ، تقييم نماذج اللغة الكبيرة المدربة على الكود. Arxiv 21. [ورقة]
Starcoder ، Starcoder: قد يكون المصدر معك!. TMLR 23. [ورقة] [رمز] [نماذج]
Code Llama ، Code Llama: Open Foundation Models for Code. Arxiv 23. [ورقة] [رمز]
WizardLM ، WizardLM: تمكين نماذج اللغة الكبيرة التي تم تدريبها مسبقًا لمتابعة التعليمات المعقدة. ICLR 24. [ورقة] [النموذج: WizardLM 13B] [النموذج: WizardLM 70B]
WizardCoder ، WizardCoder: تمكين نماذج اللغة الكبيرة مع Evol-instruct. ICLR 24. [ورقة] [رمز] [النماذج: WizardCoder 15B]
Magicoder ، Magicoder: رمز المصدر هو كل ما تحتاجه. ICML 24. [ورقة] [رمز] [النماذج 6.7B/7B]
Lemur ، Lemur: تنسيق اللغة الطبيعية ورمز لوكلاء اللغة. ICLR 24.
Infiagent-Dabench ، Infaagent-Dabench: تقييم الوكلاء على مهام تحليل البيانات. ICML 24. [ورقة] [رمز]
Tablellm ، Tablellm: تمكين معالجة البيانات الجدولية بواسطة LLMS في سيناريوهات استخدام المكتب الحقيقي. [ورقة] [نموذج TALLELLM 7B] [نموذج TALLELLM 13B]
الهيكلة ، الهيكلة: نحو بناء نماذج عامة لتأسيس المعرفة المنظمة. arxiv 24.
Finsql ، Finsql: إطار عمل To-to-SQL المستند إلى SQL من طراز LLMS. Sigmod Companion 24. [[Paper] (https://arxiv.org/pdf/2401.10506)]
المعنى ، توليف بيانات النص إلى SQL من LLMs الضعيفة والقوية. ACL 24. [ورقة]
Zeronl2SQL ، يجمع بين نماذج اللغة الصغيرة ونماذج اللغة الكبيرة لـ Zero-Shot NL2SQL. VLDB 24. [ورقة]
layoutlm ، layoutlm: مسبق تدريب النص والتخطيط لفهم صورة المستند. KDD 20. [ورقة]
PubTabnet ، التعرف على الجدول القائم على الصور: البيانات ، النموذج ، والتقييم. ECCV 20. [ورقة] [رمز وبيانات]
الجدول-لافا ، فهم الجدول متعدد الوسائط. ACL 24. [Paper] [Code] [Model]
TableLVM ، TableVLM: التدريب متعدد الوسائط للتعرف على بنية الجدول. ACL 23. [ورقة]
PIXT3 ، PIXT3: الجدول إلى النص المستند إلى البكسل. ACL 24. [ورقة]
التمثيل الجدولي ، المشغلين الصاخبين ، والتأثيرات على مهام فهم بنية الجدول في LLMS. Neurips 2023 ورشة عمل لتمثيل الجدول الثاني. [ورق]
جدول البيانات ، جدول البيانات: ترميز جداول بيانات لنماذج اللغة الكبيرة. Arxiv 24. [ورقة]
تعزيز إمكانيات النص إلى SQL لنماذج اللغة الكبيرة: دراسة على استراتيجيات التصميم السريع. emnlp 23. [ورقة] [رمز]
الجداول كنصوص أو صور: تقييم قدرة التفكير في الجدول من LLMs و MLLMs. Arxiv 24. [ورقة]
فجر اللغة الطبيعية إلى SQL: هل نحن مستعدون تمامًا؟ VLDB 24. [ورقة] [رمز]
MCS-SQL ، MCS-SQL: الاستفادة من مطالبات متعددة واختيار متعدد الخيارات لتوليد النص إلى SQL. [ورق]
DIN-SQL ، DIN-SQL: يتعلم التعلم داخل السياق من النص إلى SQL مع طالبة التصحيح الذاتي ، تتحلل. Neupips 23. [ورقة] [رمز]
DAIL-SQL ، Text to-SQL التي يتم تمكينها بواسطة نماذج لغة كبيرة: تقييم قياسي. VLDB 24. [ورقة] [رمز]
C3 ، C3: Text Zero-Shot Text to SQL مع ChatGPT. Arxiv 24. [ورقة] [رمز]
Dater ، نماذج اللغة الكبيرة هي تحلل متعدد الاستخدامات: تحلل الأدلة والأسئلة للتفكير القائم على المائدة. Sigir 23. [ورقة] [رمز]
الموثق ، نماذج لغة الربط باللغات الرمزية. ICLR 23. [ورقة] [رمز]
قابل للتفاعل ، قابل للتفاعل: تعزيز رد الفعل للإجابة على أسئلة الجدول. VLDB 24. [ورقة] [رمز]
E5 ، E5: تحليل الجدول الهرمي صفريًا باستخدام LLMs المعززة عبر شرح ، استخراج ، تنفيذ ، معرض واستقراء. NAACL 24. [ورقة] [رمز]
سلسلة المائدة ، سلسلة المائدة: الجداول المتطورة في سلسلة التفكير لفهم الجدول. ICLR 24. [ورقة]
ITR ، مسترجع الجدول الداخلي للحصول على إجابة على أسئلة الجدول القوية. ACL 23. [ورقة]
Li-Rage ، Li-Rage: Generation Retrieval Generation المعزز مع الإشارات الصريحة لإجابة أسئلة جدول المجال المفتوح. ACL 23. [ورقة]
SheetCopilot ، sheetcopilot: جلب إنتاجية البرنامج إلى المستوى التالي من خلال وكيل نماذج اللغة الكبيرة. Neupips 23. [ورقة] [رمز]
الصلصة ، الصلصة: عميل عمومي لمنطق جدول البيانات والتلاعب به عبر نماذج اللغة الكبيرة. Arxiv 24. [ورقة]
نماذج لغة الرؤية لفهم جدول البيانات: التحديات والفرص. Arxiv 24. [ورقة]
structgpt ، structgpt: إطار عام لنموذج اللغة الكبيرة للتسبب في البيانات المنظمة. EMNLP 23 MAIN. [ورقة] [رمز]
TAP4LLM ، TAP4LLM: موفر الجدول على أخذ العينات ، وزيادة ، وتعبئة البيانات شبه المنظمة للتفكير في نموذج اللغة الكبيرة. Arxiv 23. [ورقة]
UNIDM ، UNIDM: إطار موحد لمعالجة البيانات مع نماذج لغة كبيرة. MLSYS 24. [ورقة]
توصيف البيانات ، تعقيد البيانات: سد مليارات من البيانات والبشر مع سير العمل المستقل. Arxiv 23. [ورقة] [رمز]
llamaindex
باندااي
فانا
DB-GPT. DB-GPT: تمكين تفاعلات قاعدة البيانات مع نماذج اللغة الكبيرة الخاصة. [ورقة] [رمز]
Retclean. Retclean: تنظيف البيانات المستندة إلى الاسترجاع باستخدام نماذج الأساس وبحيرات البيانات. [ورقة] [رمز]
مسح لنماذج اللغة الكبيرة. [ورق]
دراسة استقصائية على العوامل المستقلة المستقلة عن نموذج اللغة. [ورق]
الجدول قبل التدريب: دراسة استقصائية على بنية النماذج ، وأهداف ما قبل التدريب ، والمهام المصب. [ورق]
محولات لتمثيل البيانات الجدولية: مسح للنماذج والتطبيقات. [ورق]
مسح للمنطق الجدول مع نماذج اللغة الكبيرة. [ورق]
دراسة استقصائية على أسئلة الجدول: التطورات الحديثة. [ورق]
نماذج لغة كبيرة (LLMS) على البيانات الجدولية - مسح. [ورق]
دراسة استقصائية حول تحليل النص إلى SQL: المفاهيم والأساليب والاتجاهات المستقبلية. [ورق]
اسم | الكلمات الرئيسية | قطعة أثرية | ورق |
---|---|---|---|
MBPP | شفرة | وصلة | Arxiv 21 |
Humaneval | شفرة | وصلة | Arxiv 21 |
Dr.Spider | NL2SQL ، المتانة | وصلة | ICLR 23 |
WikitableQuestions | الجدول QA | وصلة | ACL 15 |
wikisql | الجدول QA ، NL2SQL | وصلة | Arxiv 17 |
TabFact | التحقق من حقيقة المائدة | وصلة | ICLR 20 |
Hybirdqa | الجدول QA | وصلة | EMNLP 20 |
الفيكا | التحقق من حقيقة المائدة | وصلة | TACL 22 |
روبوت | الجدول QA | وصلة | ACL 23 |
أناميتا | بيانات التعريف | وصلة | ACL 23 |
GPT4Table | الجدول QA ، جدول إلى نص | وصلة | WSDM 24 |
توتو | جدول إلى نص | وصلة | EMNLP 20 |
جدول البيانات | التلاعب في جدول البيانات | وصلة | Neupips 24 |
طائر | NL2SQL | وصلة | Neupips 23 |
عنكبوت | NL2SQL | وصلة | emnlp 18 |
Dr.Spider | NL2SQL | وصلة | ICLR 23 |
ScienceBenchmark | NL2SQL | وصلة | VLDB 24 |
DS-1000 | تحليل البيانات | وصلة | ICML 23 |
infaagent-dabench | تحليل البيانات | وصلة | ICML 24 |
طاولة المائدة | اكتشاف الجدول | وصلة | LERC 20 |
Pubtabnet | استخراج الجدول | وصلة | ECCV 20 |
Comtqa | الجدول البصري ضمان الجودة ، الكشف عن الجدول ، استخراج الجدول | وصلة | Arxiv 24 |
اسم | الكلمات الرئيسية | قطعة أثرية | ورق |
---|---|---|---|
TableInstruct | ضبط تعليمات الجدول | وصلة | Arxiv 23 |
WDC | جدول الويب | وصلة | www 16 |
Gittables | Github CSVS | وصلة | Sigmod 23 |
دارت | جدول إلى نص | وصلة | NAACL 21 |
MMTAB | فهم الجدول متعدد الوسائط | وصلة | ACL 24 |
Schemapile | مخططات قاعدة البيانات | وصلة | Sigmod 24 |