LLM-TABLE-SURVEY
벤치 마크
데이터 세트
큰 언어 모델
Pre-LLM 시대 테이블 교육
테이블 명령 조정
코드 LLM
테이블 및 코드의 하이브리드
멀티 모달 테이블 이해 및 추출
대표
격려
도구
조사
NL2SQL
표 QA
스프레드 시트
멀티 태스킹 프레임 워크
목차
종이 목록
데이터 세트 및 벤치 마크
GPT-3, 언어 모델은 소수의 학습자입니다. Neurips 20. [종이]
T5, 통합 텍스트-텍스트 변압기로 전송 학습의 한계를 탐색합니다. [종이]
Flan, Finetuned Language 모델은 제로 샷 학습자입니다. ICLR 22. [종이] [코드]
DPO, 직접 선호도 최적화 : 언어 모델은 비밀리에 보상 모델입니다. Neurips 23. [종이]
PEFT, 매개 변수 효율적인 프롬프트 튜닝을위한 스케일의 힘. EMNLP 21. [종이]
LORA, LORA : 대형 언어 모델의 낮은 순위 적응. ICLR 22. [종이]
생각한 사슬의 프롬프트, 사슬이 큰 언어 모델에서 추론을 유도합니다. Neurips 22. [종이]
가장 큰 프롬프트, 가장 큰 프롬프트는 대형 언어 모델에서 복잡한 추론을 가능하게합니다. ICLR 23. [종이]
자기 일관성의 프롬프트, 자기 일관성은 언어 모델에서 사고 추론의 사슬을 향상시킵니다. ICLR 23. [종이]
반응, 반응 : 언어 모델에서 시너지 효과와 행동. ICLR 23. [종이] [코드]
Tabert, Tabert : 텍스트 및 표 데이터에 대한 공동 이해를위한 사전 여지가 있습니다. ACL 20 메인. [종이] [코드]
TAPEX, TAPEX : 신경 SQL 집행자를 학습함으로써 테이블 사전 훈련. ICLR 22. [종이] [코드] [모델]
Tabbie, Tabbie : 표식 데이터의 사전 예방 표현. NAACL 21 메인. [종이] [코드]
Turl, Turl : 표현 학습을 통한 테이블 이해. VLDB 21. [종이] [코드]
RESDSQL, RESDSQL : Decoupling Schema Linking 및 Skeleton Parsing on Text-to-SQL. AAAI 23. [종이] [코드]
Unifiedskg, Unifiedskg : 텍스트-텍스트 언어 모델을 사용한 통일 및 멀티 태스킹 구조적 지식 접지. EMNLP 22 메인. [종이] [코드]
스프레드 시트 코더, 스프레드 시트 코더 : 반 구조화 된 컨텍스트의 공식 예측. ICML 21. [종이] [코드]
테이블 GPT, 테이블 GPT : 다양한 테이블 작업을위한 테이블 튜닝 GPT. Arxiv 2023. [종이]
Tablellama, Tablellama : 테이블을위한 대형 일반인 모델을 향해. NAACL 24. [논문] [코드] [모델 : Tablellama 7B] [DataSet : TableInstruct]
코드에 대한 교육을받은 대형 언어 모델을 평가하는 Codex. Arxiv 21. [종이]
Starcoder, Starcoder : 소스가 당신과 함께 있기를 바랍니다!. TMLR 23. [종이] [코드] [모델]
Code Llama, Code Llama : 코드를위한 공개 기초 모델. arxiv 23. [종이] [코드]
Wizardlm, Wizardlm : 복잡한 지시를 따를 대형 미리 훈련 된 언어 모델에 힘을 실어줍니다. ICLR 24. [논문] [모델 : Wizardlm 13B] [모델 : Wizardlm 70b]
WizardCoder, WizardCoder : Evol-Instruct와 함께 대형 언어 모델에 권한을 부여합니다. ICLR 24. [논문] [코드] [모델 : WizardCoder 15B]
Magicoder, Magicoder : 소스 코드 만 있으면됩니다. ICML 24. [논문] [코드] [모델 6.7B/7B]
레무르, 레무어 : 언어 에이전트의 자연 언어 및 코드 조화. ICLR 24. [논문] [코드] [모델 : 레무르 70B] [모델 : lemur 70b 채팅]
Infiagent-Dabench, Infiagent-Dabench : 데이터 분석 작업에 대한 에이전트 평가. ICML 24. [종이] [코드]
Tablellm, Tablellm : 실제 사무실 사용 시나리오에서 LLM에 의한 테이블 데이터 조작 활성화. [종이] [모델 Tablellm 7b] [모델 Tablellm 13b]
Structlm, Structlm : 구조화 된 지식 접지를위한 일반 모델 구축을 향해. arxiv 24. [논문] [모델 : structlm 7b] [모델 : structlm 13b] [모델 : structlm 34b] [dataSet : skginstruct]
FINSQL, FINSQL : 재무 분석을위한 모델 공유 LLMS 기반 Text-to-SQL 프레임 워크. Sigmod Companion 24. [[종이] (https://arxiv.org/pdf/2401.10506)]
약하고 강한 LLM의 텍스트-SQL 데이터를 합성합니다. ACL 24. [종이]
제로 샷 NL2SQL에 대한 작은 언어 모델과 큰 언어 모델을 결합한 Zeronl2SQL. VLDB 24. [종이]
LayoutLM, LayoutLM : 문서 이미지 이해를위한 텍스트 및 레이아웃의 사전 훈련. KDD 20. [종이]
Pubtabnet, 이미지 기반 테이블 인식 : 데이터, 모델 및 평가. ECCV 20. [논문] [코드 및 데이터]
테이블-롤라 바, 멀티 모달 테이블 이해. ACL 24. [종이] [코드] [모델]
TableLVM, TableVLM : 테이블 구조 인식을위한 다중 모달 사전 훈련. ACL 23. [종이]
PIXT3, PIXT3 : 픽셀 기반 테이블-텍스트 생성. ACL 24. [종이]
LLM의 테이블 구조에 대한 표현, 시끄러운 연산자 및 테이블 구조에 미치는 영향. Neurips 2023 두 번째 테이블 표현 학습 워크숍. [종이]
스프레드 시트, 스프레드 시트 : 대형 언어 모델을위한 스프레드 시트 인코딩. Arxiv 24. [종이]
대형 언어 모델의 텍스트-SQL 기능 향상 : 신속한 설계 전략에 대한 연구. EMNLP 23. [종이] [코드]
텍스트 또는 이미지로서의 테이블 : LLM 및 MLLM의 테이블 추론 능력 평가. Arxiv 24. [종이]
자연 언어의 새벽 SQL : 우리는 완전히 준비 되었습니까? VLDB 24. [종이] [코드]
MCS-SQL, MCS-SQL : 텍스트 간 SQL 생성을위한 여러 프롬프트 및 객관식 선택을 활용합니다. [종이]
DIN-SQL, DIN-SQL : 자체 정복 프롬프트와 함께 텍스트 간 SQL에 대한 텍스트 내 텍스트 학습을 분해했습니다. Neurips 23. [종이] [코드]
Dail-SQL, 대형 언어 모델에 의해 권한이 부여 된 Text-to-SQL : 벤치 마크 평가. VLDB 24. [종이] [코드]
C3, C3 : chatgpt를 사용한 제로 샷 텍스트 투 SQL. Arxiv 24. [종이] [코드]
Dater, 대형 언어 모델은 다재다능한 분해 자입니다. 테이블 기반 추론에 대한 증거와 질문을 분해합니다. 시기 23. [종이] [코드]
바인더, 기호 언어로 언어 모델을 바인딩합니다. ICLR 23. [종이] [코드]
반응성, 반응성 : 테이블 질문에 대한 반응 강화. VLDB 24. [종이] [코드]
E5, E5 : 설명, 추출, 실행, 전시 및 외삽을 통해 증강 된 LLM을 사용한 제로 샷 계층 적 테이블 분석. NAACL 24. [종이] [코드]
테이블 체인, 테이블 체인 : 테이블 이해를위한 추론 체인의 진화 테이블. ICLR 24. [종이]
ITR, 강력한 테이블 질문 답변을위한 내부 테이블 리트리버. ACL 23. [종이]
Li-Rage, Li-Rage : 개방형 도메인 테이블 질문에 대한 명시 적 신호를 가진 늦은 상호 작용 검색 증강 생성. ACL 23. [종이]
SheetCopilot, SheetCopilot : 대형 언어 모델 에이전트를 통해 소프트웨어 생산성을 다음 단계로 가져옵니다. Neurips 23. [종이] [코드]
Sheetagent, Sheetagent : 대형 언어 모델을 통한 스프레드 시트 추론 및 조작을위한 일반 대리인. Arxiv 24. [종이]
스프레드 시트 이해를위한 비전 언어 모델 : 도전과 기회. Arxiv 24. [종이]
StructGpt, StructGpt : 구조화 된 데이터에 대한 추론을위한 대형 언어 모델의 일반적인 프레임 워크. EMNLP 23 메인. [종이] [코드]
tap4llm, tap4llm : 대형 언어 모델 추론을위한 반 구조화 된 데이터 샘플링, 증강 및 포장시 테이블 제공자. arxiv 23. [종이]
UNIDM, UNIDM : 대형 언어 모델로 데이터 조작을위한 통합 프레임 워크. MLSYS 24. [종이]
데이터 카필 로트, 데이터 카필 로트 : 자율 워크 플로우를 가진 수십억 개의 데이터와 인간을 연결합니다. arxiv 23. [종이] [코드]
llamaindex
판다 사이
반나
DB-GPT. DB-GPT : 개인 대형 언어 모델과 데이터베이스 상호 작용에 권한을 부여합니다. [종이] [코드]
retclean. RETCLEAN : 기초 모델 및 데이터 호수를 사용한 검색 기반 데이터 청소. [종이] [코드]
큰 언어 모델에 대한 조사. [종이]
대형 언어 모델 기반 자율 에이전트에 대한 설문 조사. [종이]
표 사전 훈련 : 모델 아키텍처, 사전 훈련 목표 및 다운 스트림 작업에 대한 설문 조사. [종이]
표 표현을위한 변압기 : 모델 및 응용 프로그램의 조사. [종이]
큰 언어 모델을 사용한 테이블 추론 조사. [종이]
테이블 질문 답변에 대한 설문 조사 : 최근 발전. [종이]
표 형식 데이터에 대한 대형 언어 모델 (LLMS) - 설문 조사. [종이]
텍스트-SQL 파싱에 대한 설문 조사 : 개념, 방법 및 향후 방향. [종이]
이름 | 키워드 | 인공물 | 종이 |
---|---|---|---|
MBPP | 암호 | 링크 | Arxiv 21 |
Humaneval | 암호 | 링크 | Arxiv 21 |
Dr.spider | NL2SQL, 견고성 | 링크 | ICLR 23 |
WikitableQuestions | 표 QA | 링크 | ACL 15 |
wikisql | 표 QA, NL2SQL | 링크 | arxiv 17 |
tabfact | 테이블 사실 확인 | 링크 | ICLR 20 |
Hybirdqa | 표 QA | 링크 | emnlp 20 |
페타 카 | 테이블 사실 확인 | 링크 | TACL 22 |
로봇 | 표 QA | 링크 | ACL 23 |
아나 메타 | 테이블 메타 데이터 | 링크 | ACL 23 |
gpt4table | 테이블 QA, 테이블-텍스트 | 링크 | WSDM 24 |
토토 | 테이블-텍스트 | 링크 | emnlp 20 |
스프레드 시트 벤치 | 스프레드 시트 조작 | 링크 | 신경관 24 |
새 | NL2SQL | 링크 | 신경관 23 |
거미 | NL2SQL | 링크 | emnlp 18 |
Dr.spider | NL2SQL | 링크 | ICLR 23 |
ScienceBenchmark | NL2SQL | 링크 | VLDB 24 |
DS-1000 | 데이터 분석 | 링크 | ICML 23 |
무자비한 멍청이 | 데이터 분석 | 링크 | ICML 24 |
테이블 뱅크 | 테이블 감지 | 링크 | LERC 20 |
pubtabnet | 테이블 추출 | 링크 | ECCV 20 |
comtqa | 시각 테이블 QA, 테이블 감지, 테이블 추출 | 링크 | arxiv 24 |
이름 | 키워드 | 인공물 | 종이 |
---|---|---|---|
TableInstruct | 테이블 명령 튜닝 | 링크 | arxiv 23 |
WDC | 웹 테이블 | 링크 | www 16 |
gittables | Github CSV | 링크 | 시그 모드 23 |
다트 | 테이블-텍스트 | 링크 | NAACL 21 |
mmtab | 멀티 모달 테이블 이해 | 링크 | ACL 24 |
개회식 | 데이터베이스 스키마 | 링크 | Sigmod 24 |