PLM 논문
작성자: Xiaolei Wang
BERT 및 GPT와 같은 대규모 사전 훈련된 언어 모델(PLM)은 큰 성공을 거두었으며 NLP의 이정표가 되었습니다.
이 리포지토리에서는 최근 주요 컨퍼런스(예: ACL, EMNLP, ICLR, ICML, NeurIPS)에서 발표된 논문 및 인용 횟수를 기반으로 최근 몇 년간 대표적인 PLM 논문을 수집합니다.
우리는 리포지토리를 계속 업데이트하고 끌어오기 요청과 문제를 환영할 것입니다! 별과 포크를 보내주셔서 감사합니다!
목차
- 조사
- 기준
- PLM 설계
- 일반적인
- 지식
- 다국어
- 다중 모드
- 정보 검색
- 암호
- 기타
- PLM 분석
- 효율적인 PLM
- PLM 적응
조사
- "자연어 처리를 위한 사전 훈련된 모델: 설문조사".
Science China Technological Sciences(2020)
[PDF] - "어떤 *BERT? 상황별 인코더를 구성하는 설문조사".
EMNLP(2020)
[PDF] - "BERT학 입문서: BERT 작동 방식에 대해 우리가 알고 있는 것".
TACL(2020)
[PDF] - "정적 단어 표현에서 동적 단어 표현으로: 설문조사".
International Journal of Machine Learning and Cybernetics(2020)
[PDF] - "NLP 작업을 위한 변환기 기반 모델 개요".
2020 15th Conference on Computer Science and Information Systems (FedCSIS)
[PDF] - "컨텍스트 임베딩에 대한 조사".
arXiv(2020)
[PDF] - "NLP 요리책: 변환기 기반 딥 러닝 아키텍처를 위한 최신 레시피".
IEEE Access(2021)
[PDF] - "사전 훈련된 모델: 과거, 현재, 미래".
arXiv(2021)
[PDF] - "사전 훈련, 프롬프트 및 예측: 자연어 처리에서 프롬프트 방법에 대한 체계적인 조사".
arXiv(2021)
[PDF] - "AMMUS: 자연어 처리에서 변환기 기반 사전 훈련된 모델에 대한 조사".
arXiv(2021)
[PDF] - "기초 모델의 기회와 위험".
arXiv(2021)
[PDF] - "자연어 처리의 패러다임 전환".
arXiv(2021)
[PDF] - "대규모 사전 훈련된 언어 모델을 통한 자연어 처리의 최근 발전: 설문조사".
arXiv(2021)
[PDF]
기준
- XNLI : "XNLI: 교차 언어 문장 표현 평가".
EMNLP(2018)
[PDF] [데이터세트] - GLUE : "GLUE: 자연어 이해를 위한 다중 작업 벤치마크 및 분석 플랫폼".
ICLR(2019)
[홈페이지] - SuperGLUE : "SuperGLUE: 범용 언어 이해 시스템을 위한 더욱 견고한 벤치마크".
NeurIPS(2019)
[홈페이지] - 단서 : "단서: 중국어 이해 평가 벤치마크".
COLING(2020)
[홈페이지] - XTREME : "XTREME: 교차 언어 일반화 평가를 위한 대규모 다국어 다중 작업 벤치마크".
ICML(2020)
[홈페이지] - XGLUE : "XGLUE: 교차 언어 사전 훈련, 이해 및 생성을 위한 새로운 벤치마크 데이터 세트".
EMNLP(2020)
[홈페이지] - DialoGLUE : "DialoGLUE: 작업 중심 대화를 위한 자연어 이해 벤치마크".
arXiv(2020)
[홈페이지]
PLM 설계
일반적인
- GPT : "생성적 사전 훈련을 통한 언어 이해 향상".
OpenAI(2018)
[프로젝트] - GPT-2 : "언어 모델은 비지도 멀티태스킹 학습자입니다".
OpenAI(2019)
[프로젝트] - BERT : "BERT: 언어 이해를 위한 심층 양방향 변환기 사전 훈련".
NAACL(2019)
[PDF] [코드] - XLNet : "XLNet: 언어 이해를 위한 일반화된 자동 회귀 사전 훈련".
NeurIPS(2019)
[PDF] [코드] - SBERT : "Sentence-BERT: Siamese BERT-Networks를 사용한 문장 임베딩".
ACL(2019)
[PDF] [코드] - UniLM : "자연어 이해 및 생성을 위한 통합 언어 모델 사전 훈련".
NeurIPS(2019)
[PDF] [코드] - MASS : "MASS: 언어 생성을 위한 마스크된 시퀀스 대 시퀀스 사전 훈련".
ICML(2019)
[PDF] [코드] - Chinese-BERT-wwm : "중국어 BERT에 대한 전체 단어 마스킹을 사용한 사전 훈련".
arXiv(2019)
[PDF] [코드] - "자기 주의 네트워크의 Cloze 기반 사전 훈련".
EMNLP(2019)
[PDF] - "BERT에는 입이 있고 말해야 합니다: 마르코프 무작위 필드 언어 모델로서의 BERT".
Workshop on Methods for Optimizing and Evaluating Neural Language Generation(2019)
[PDF] [코드] - GPT-3 : "언어 모델은 소수의 학습자입니다".
NeurIPS(2020)
[PDF] [코드] - T5 : "통합 텍스트-텍스트 변환기를 사용한 전이 학습의 한계 탐색".
JMLR(2020)
[PDF] [코드] - BART : "BART: 자연어 생성, 번역 및 이해를 위한 시퀀스 간 사전 훈련".
ACL(2020)
[PDF] [코드] - 폴리 인코더 : "폴리 인코더: 빠르고 정확한 다중 문장 점수 계산을 위한 아키텍처 및 사전 훈련 전략".
ICLR(2020)
[PDF] - SpanBERT : "SpanBERT: 스팬 표현 및 예측을 통한 사전 학습 개선".
TACL(2020)
[PDF] [코드] - ERNIE 2.0 : "ERNIE 2.0: 언어 이해를 위한 지속적인 사전 교육 프레임워크".
AAAI(2020)
[PDF] [코드] - SemBERT : "언어 이해를 위한 의미 인식 BERT".
AAAI(2020)
[PDF] [코드] - "시퀀스 생성 작업을 위해 사전 훈련된 체크포인트 활용".
TACL(2020)
[PDF] [코드] - ProphetNet : "ProphetNet: Sequence-to-SequencePre-training을 위한 미래 N-gram 예측".
EMNLP(2020)
[PDF] - UniLMv2 : "UniLMv2: 통합 언어 모델 사전 훈련을 위한 의사 마스크 언어 모델".
ICML(2020)
[PDF] [코드] - MacBERT : "중국어 자연어 처리를 위한 사전 훈련된 모델 재검토".
EMNLP(2020)
[PDF] [코드] - MPNet : "MPNet: 언어 이해를 위한 마스크 및 치환 사전 훈련".
arXiv(2020)
[PDF] [코드] - DEBERTA : "DeBERTa: 분리된 주의력을 갖춘 디코딩 강화 BERT".
ICLR(2021)
[PDF] [코드] - PALM : "PALM: 상황 조건 생성을 위한 자동 인코딩 및 자동 회귀 언어 모델 사전 훈련".
EMNLP(2020)
[PDF] - Optimus : "Optimus: 사전 훈련된 잠재 공간 모델링을 통한 문장 구성".
EMNLP(2020)
[PDF] [코드] - "자가 훈련은 자연어 이해를 위한 사전 훈련을 향상시킵니다."
NAACL(2021)
[PDF] [코드] - CAPT : "언어 사전 훈련에서 잡음 제거된 자동 인코딩 재고".
EMNLP(2021)
[PDF] - "마스킹된 언어 모델링에 대한 실망스러울 정도로 간단한 사전 훈련 대안".
EMNLP(2021)
[PDF] [코드] - "컨볼루션 및 Self-Attention: 사전 훈련된 언어 모델의 상대 위치 재해석".
ACL(2021)
[PDF] [코드] - ERNIE-Doc : "ERNIE-Doc: 회고적 장문 모델링 변환기".
ACL(2021)
[PDF] [코드] - "범용 언어 표현 사전 훈련".
ACL(2021)
[PDF] [코드]
지식
- ERNIE(바이두) : "ERNIE: 지식 통합을 통한 향상된 표현".
arXiv(2019)
[PDF] [코드] - KnowBert : "지식 강화 문맥 단어 표현".
EMNLP(2019)
[PDF] - ERNIE(청화) : "ERNIE: 정보 엔터티를 사용한 향상된 언어 표현".
ACL(2019)
[PDF] [코드] - COMET : "COMET: 자동 지식 그래프 구축을 위한 상식 변환기".
ACL(2019)
[PDF] [코드] - K-BERT : "K-BERT: 지식 그래프를 통한 언어 표현 활성화".
AAAI(2020)
[PDF] [코드] - WKLM : "사전 훈련된 백과사전: 약한 지도 지식-사전 훈련된 언어 모델".
ICLR(2020)
[PDF] - LUKE : "LUKE: 엔터티 인식 Self-attention을 사용한 심층적인 상황화된 엔터티 표현".
EMNLP(2020)
[PDF] [코드] - K-Adapter : "K-Adapter: 어댑터를 사용하여 사전 훈련된 모델에 지식 주입".
ICLR(2021)
[PDF] - KEPLER : "KEPLER: 지식 내장 및 사전 훈련된 언어 표현을 위한 통합 모델".
TACL(2021)
[PDF] [코드] - RuleBERT : "RuleBERT: 사전 훈련된 언어 모델에 소프트 규칙 교육".
EMNLP(2021)
[PDF] [코드] - BeliefBank : "문장 조사 결과를 설명하기 위한 BERT 토큰 표현의 역할 탐색".
EMNLP(2021)
[PDF] [코드] - Phrase-BERT : "Phrase-BERT: 코퍼스 탐색에 적용하여 BERT의 향상된 구문 임베딩".
EMNLP(2021)
[PDF] [코드] - "구문 강화 사전 훈련된 모델".
ACL(2021)
[PDF] [코드] - StructFormer : "StructFormer: 마스크된 언어 모델링에서 종속성 및 구성 요소 구조의 공동 비지도 유도".
ACL(2021)
[PDF] - ERICA : "ERICA: 대조 학습을 통해 사전 훈련된 언어 모델에 대한 엔터티 및 관계 이해 개선".
ACL(2021)
[PDF] [코드] - "변환기 언어 모델에 대한 구조적 지침".
ACL(2021)
[PDF] [코드] - HORNET : "HORNET: 이기종 지식 소스를 사용하여 사전 훈련된 언어 표현 강화".
CIKM(2021)
[PDF] - "중복 삭제, 관련성 없는 축소: 언어 사전 훈련을 위한 선택적 지식 주입".
IJCAI(2021)
[PDF]
다국어
- XLM : "교차 언어 모델 사전 훈련".
arXiv(2019)
[PDF] [코드] - "제로 샷 교차 언어 전송 및 그 이상을 위한 대규모 다국어 문장 임베딩".
TACL(2019)
[PDF] [코드] - UDify : "75개 언어, 1개 모델: 범용 종속성 구문 분석".
EMNLP(2019)
[PDF] [코드] - 유니코더 : "유니코더: 다중 언어 간 작업을 통한 사전 학습을 통한 범용 언어 인코더".
EMNLP(2019)
[PDF] - XLM-R : "규모에 따른 감독되지 않은 교차 언어 표현 학습".
ACL(2020)
[PDF] - "문맥상 단어 표현의 다국어 정렬".
ICLR(2020)
[PDF] - mBART : "신경 기계 번역을 위한 다국어 노이즈 제거 사전 훈련".
TACL(2020)
[PDF] [코드] - mT5 : "mT5: 사전 훈련된 대규모 다국어 텍스트-텍스트 변환기".
NAACL(2021)
[PDF] [코드] - InfoXLM : "InfoXLM: 교차 언어 언어 모델 사전 교육을 위한 정보 이론 프레임워크".
NAACL(2021)
[PDF] [코드] - "교차 언어 모델 사전 훈련을 위한 대규모 어휘 용량 할당".
EMNLP(2021)
[PDF] [코드] - ERNIE-M : "ERNIE-M: 단일 언어 말뭉치와 교차 언어 의미 체계를 정렬하여 향상된 다국어 표현".
EMNLP(2021)
[PDF] [코드] - "사전 훈련된 자동 인코더를 사용한 교차 언어 언어 변환을 위한 간단한 기하학적 방법".
EMNLP(2021)
[PDF] - "불확도 추정을 통한 자가 학습을 통한 언어 간 전이 촉진".
EMNLP(2021)
[PDF] - "당신의 토크나이저(Tokenizer)는 얼마나 좋은가요? 다국어 언어 모델의 단일어 성능에 대해".
ACL(2021)
[PDF] [코드] - "범용 의존성 학습을 통한 다국어 사전 훈련".
NeurIPS(2021)
[PDF]
다중 모드
- ViLBERT : "ViLBERT: 비전 및 언어 작업을 위한 작업 독립적인 시각언어학적 표현 사전 훈련".
NeuralIPS(2019)
[PDF] - LXMERT : "LXMERT: 변환기에서 교차 양식 인코더 표현 학습".
EMNLP(2019)
[PDF] [코드] - VideoBERT : "VideoBERT: 비디오 및 언어 표현 학습을 위한 공동 모델"
ICCV(2019)
[PDF] - VisualBERT : "VisualBERT: 비전 및 언어를 위한 간단하고 성능이 뛰어난 기준선".
arXiv(2019)
[PDF] - B2T2 : "시각적 질문 응답을 위해 텍스트에서 감지된 개체 융합".
EMNLP(2019)
[PDF] [코드] - VL-BERT : "VL-BERT: 일반 시각 언어 표현의 사전 훈련".
ICLR(2020)
[PDF] [코드] - Unicoder-VL : "Unicoder-VL: 교차 모달 사전 훈련을 통한 시각 및 언어용 범용 인코더".
AAAI(2020)
[PDF] - VLP : "이미지 캡션 및 VQA를 위한 통합 비전 언어 사전 교육".
AAAI(2020)
[PDF] [코드] - UNITER : "UNITER: 보편적인 이미지-TExt 표현 학습".
ECCV(2020)
[PDF] [코드] - Oscar : "오스카: 시각 언어 작업을 위한 객체 의미론 정렬 사전 훈련".
ECCV(2020)
[PDF] [코드] - "12-in-1: 다중 작업 비전 및 언어 표현 학습".
CVPR(2020)
[PDF] [코드] - ActBERT : "ActBERT: 글로벌-로컬 비디오-텍스트 표현 학습".
CVPR(2020)
[PDF] - VLN : "자기 감독 보조 추론 작업을 통한 비전 언어 탐색".
CVPR(2020)
[PDF] - VILLA : "시각 및 언어 표현 학습을 위한 대규모 적대적 훈련".
arXiv(2020)
[PDF] [코드] - ImageBERT : "ImageBERT: 대규모 약한 감독 이미지-텍스트 데이터를 사용한 교차 모달 사전 훈련".
arXiv(2020)
[PDF] - ALIGN : "시끄러운 텍스트 감독을 통한 시각적 및 시각 언어 표현 학습 확장".
ICML(2021)
[PDF] - ClipBERT : "적을수록 좋습니다: 희소 샘플링을 통한 비디오 및 언어 학습을 위한 ClipBERT".
CVPR(2021)
[PDF] [코드] - DALL·E : "제로샷 텍스트-이미지 생성".
arXiv(2021)
[PDF] [코드] - CLIP : "자연어 감독에서 전송 가능한 시각적 모델 학습".
arXiv(2021)
[PDF] [코드] - IPT : "사전 훈련된 이미지 처리 변환기".
CVPR(2021)
[PDF] [코드] - CvT : "CvT: 비전 변환기에 컨볼루션 소개".
ICCV(2021)
[PDF] [코드] - "시끄러운 텍스트 감독을 통한 시각적 및 시각 언어 표현 학습 확장".
ICML(2021)
[PDF] - TERA : "TERA: 음성을 위한 변압기 인코더 표현의 자기 지도 학습".
TASLP(2021)
[PDF] [코드] - CaiT : "이미지 변환기로 더 깊이 들어가기".
ICCV(2021)
[PDF] [코드] - ViViT : "ViViT: 비디오 비전 변환기".
ICCV(2021)
[PDF] [코드] - VirTex : "VirTex: 텍스트 주석에서 시각적 표현 학습".
CVPR(2021)
[PDF] [코드] - M6 : "M6: 통합 사전 훈련을 위한 다중 모드에서 다중 모드로의 다중 작업 메가 변환기".
KDD(2021)
[PDF] - "양식 간 조사: 비전 및 언어 사전 훈련을 위한 Self-Attention을 사용한 시각적 구문 분석".
NeurIPS(2021)
[PDF] - GilBERT : "GilBERT: 양식이 불완전한 시각 언어 작업을 위한 생성적 비전 언어 사전 훈련".
SIGIR(2021)
[PDF]
정보 검색
- ORQA : "약하게 감독되는 개방형 도메인 질문 응답에 대한 잠재 검색".
ACL(2019)
[PDF] - REALM : "REALM: 검색 증강 언어 모델 사전 훈련".
arXiv(2020)
[PDF] - RAG : "지식 집약적 NLP 작업을 위한 검색 증강 생성".
NeurIPS(2020)
[PDF] [코드] - DPR : "오픈 도메인 질문 응답을 위한 밀집된 구문 검색".
EMNLP(2020)
[PDF] [코드] - "개방형 도메인 질문 응답을 위한 생성 모델을 사용한 구문 검색 활용".
EACL(2021)
[PDF] [코드]
암호
- CodeT5 : "CodeT5: 코드 이해 및 생성을 위한 식별자 인식 통합 사전 훈련된 인코더-디코더 모델".
EMNLP(2021)
[PDF] [코드] - Codex : "코드로 훈련된 대규모 언어 모델 평가".
arXiv(2021)
[PDF] [코드]
기타
- ReasonBERT : "ReasonBERT: 먼 감독을 통해 추론하도록 사전 훈련됨".
EMNLP(2021)
[PDF] [코드] - "변환기 언어 모델의 문장 병목 자동 인코더".
EMNLP(2021)
[PDF] [코드] - "수리 능력은 언어 모델의 읽고 쓰는 능력을 향상시킵니다."
EMNLP(2021)
[PDF] [코드] - EnsLM : "EnsLM: 의미론적 클러스터링을 통한 데이터 다양성을 위한 앙상블 언어 모델".
ACL(2021)
[PDF] [코드] - "반사적 디코딩: 기성 언어 모델을 사용한 단방향 생성을 넘어".
ACL(2021)
[PDF] [코드] - BERTAC : "BERTAC: 적대적으로 사전 훈련된 컨볼루셔널 신경망을 사용하여 변환기 기반 언어 모델 강화".
ACL(2021)
[PDF] [코드] - "개인정보 보호 BERT를 통한 자연어 이해".
CIKM(2021)
[PDF] - BANG : "BANG: 대규모 사전 훈련을 통해 자기회귀 및 비자기회귀 생성 연결".
ICML(2021)
[PDF] [코드]
PLM 분석
지식
- "BERT는 무엇을 보는가? BERT의 관심도 분석".
BlackBoxNLP(2019)
[PDF] [코드] - "BERT는 고전적인 NLP 파이프라인을 재발견합니다".
ACL(2019)
[PDF] - "다국어 BERT는 어떻게 다국어인가요?".
ACL(2019)
[PDF] - "단어 표현에서 구문을 찾기 위한 구조적 조사".
NAACL(2019)
[PDF] [코드] - "지식 기반으로서의 언어 모델?".
EMNLP(2019)
[PDF] [코드] - "BERT는 언어 구조에 대해 무엇을 배우나요?"
ACL(2019)
[PDF] [코드] - "언어적 지식과 문맥적 표현의 전달 가능성".
NAACL(2019)
[PDF] - "BERT의 구문 능력 평가".
arXiv(2019)
[PDF] [코드] - "자연어 인수에 대한 신경망 이해 조사"
ACL(2019)
[PDF] - "상황에 맞는 단어 표현은 어떻게 상황에 맞는가? BERT, ELMo 및 GPT-2 임베딩의 기하학 비교".
EMNLP(2019)
[PDF] - "BERT의 형상 시각화 및 측정".
NeurIPS(2019)
[PDF] - "제어 작업을 통한 프로브 설계 및 해석".
EMNLP(2019)
[PDF] - "오픈 참깨: BERT의 언어 지식 안으로 들어가기".
BlackboxNLP(2019)
[PDF] [코드] - "문맥에서 무엇을 배우나요? 문맥화된 단어 표현에서 문장 구조를 조사합니다."
ICLR(2019)
[PDF] [코드] - "사전 훈련된 모델을 통한 상식 지식 마이닝".
EMNLP(2019)
[PDF] - "NLP 모델은 숫자를 알고 있습니까? 임베딩의 수리력 조사".
EMNLP(2019)
[PDF] - "단일언어 표현의 언어간 전달 가능성".
ACL(2020)
[PDF] - "다국어 BERT의 교차 언어 능력: 실증적 연구".
ICLR(2020)
[PDF] [코드] - "BERT가 아닌 것: 언어 모델을 위한 새로운 심리언어학적 진단 세트로부터의 교훈".
TACL(2020)
[PDF] [코드] - "언어 모델의 매개변수에 얼마나 많은 지식을 담을 수 있습니까?"
EMNLP(2020)
[PDF] [코드] - "언어 모델이 무엇을 알고 있는지 어떻게 알 수 있습니까?"
TACL(2020)
[PDF] [코드] - "oLMpics-어떤 언어 모델 사전 훈련이 캡처하는지".
TACL(2020)
[PDF] [코드] - "최소 설명 길이를 사용한 정보 이론적 조사".
EMNLP(2020)
[PDF] [코드] - "BERT에서 관계형 지식 유도".
AAAI(2020)
[PDF] - 자동 프롬프트 : "자동 프롬프트: 자동으로 생성된 프롬프트를 사용하여 언어 모델에서 지식 추출".
EMNLP(2020)
[PDF] [코드] - "자기 감독에 의해 훈련된 인공 신경망의 새로운 언어 구조".
PNAS(2020)
[PDF] - "사전 훈련된 언어 모델에서 상식 평가".
AAAI(2020)
[PDF] [코드] - "BERT에서 관계형 지식 유도".
AAAI(2020)
[PDF] - "언어 모델의 사실적 지식 편집".
EMNLP(2021)
[PDF] [코드] - "언어 모델이 구문을 학습하려면 얼마나 많은 사전 훈련 데이터가 필요합니까?".
EMNLP(2021)
[PDF] - "계모는 비열하고 학자들은 가식적입니다. 사전 훈련된 언어 모델은 당신에 대해 무엇을 배우나요?".
EMNLP(2021)
[PDF] [코드] - "BERT의 입에 단어 넣기: 의사 단어를 사용하여 상황화된 벡터 공간 탐색".
EMNLP(2021)
[PDF] [코드] - "변환기의 구문 규칙 학습에 대한 주파수 효과".
EMNLP(2021)
[PDF] [코드] - "문장 조사 결과를 설명하기 위한 BERT 토큰 표현의 역할 탐색".
EMNLP(2021)
[PDF] [코드] - "BERT는 어떻게 놀랐습니까? 언어 이상에 대한 계층별 감지".
ACL(2021)
[PDF] [코드] - "신경 언어 모델에서 의미의 암시적 표현".
ACL(2021)
[PDF] [코드] - "지식이 있거나 교육받은 추측? 언어 모델을 지식 기반으로 재검토".
ACL(2021)
[PDF] [코드]
견고성
- "NLP 공격 및 분석을 위한 보편적인 적대적 트리거".
EMNLP(2019)
[PDF] [코드] - "사전 훈련된 변환기는 분산 외부 견고성을 향상시킵니다."
ACL(2020)
[PDF] [코드] - BERT-ATTACK : "BERT-ATTACK: BERT를 사용한 BERT에 대한 적대적 공격".
EMNLP(2020)
[PDF] [코드] - "BERT는 정말 강력합니까? 텍스트 분류 및 포함에 대한 자연어 공격을 위한 강력한 기준선".
AAAI(2020)
[PDF] [코드] - "악마는 세부 사항에 있습니다. 간단한 트릭으로 트랜스포머의 체계적 일반화를 향상합니다".
EMNLP(2021)
[PDF] [코드] - "노이즈 정렬: 사전 훈련된 언어 모델에서 정보 처리의 견고성 테스트".
EMNLP(2021)
[PDF] [코드]
희소성
- "16개의 머리가 정말 1개보다 나은가요?"
NeurIPS(2019)
[PDF] [코드] - "Multi-Head Self-Attention 분석: 특수 헤드가 무거운 작업을 수행하고 나머지는 정리할 수 있습니다".
ACL(2019)
[PDF] [코드] - "BERT의 어두운 비밀을 밝히다".
EMNLP(2019)
[PDF] - "사전 훈련된 BERT 네트워크에 대한 복권 가설".
NeurIPS(2020)
[PDF] [코드] - "BERT가 복권을 사용하면 모든 티켓이 당첨됩니다."
EMNLP(2020)
[PDF] [코드]
기타
- "신경 언어 모델의 확장 법칙".
arXiv(2020)
[PDF] - "대규모 언어 모델에서 훈련 데이터 추출".
arXiv(2020)
[PDF] [코드] - "확률론적 앵무새의 위험성: 언어 모델이 너무 클 수 있습니까?".
FACCT(2021)
[PDF] - "대규모 언어 모델에서 훈련 데이터 추출".
USENIX(2021)
[PDF] [코드] - "가면 언어 모델링 및 분포 가설: 작은 단어에 대한 사전 훈련의 순서 단어 중요".
EMNLP(2021)
[PDF] [코드] - "변압기 훈련 중 매개변수 표준 성장의 효과: 경사 하강법으로 인한 유도 바이어스".
EMNLP(2021)
[PDF] [코드] - "언어 모델을 설명하기 위한 이산화된 통합 기울기".
EMNLP(2021)
[PDF] [코드] - "장거리 언어 모델이 실제로 장거리 컨텍스트를 사용합니까?".
EMNLP(2021)
[PDF] - "표면 형태 경쟁: 가장 높은 확률의 답변이 항상 옳은 것은 아닌 이유".
EMNLP(2021)
[PDF] [코드] - "잔차 및 정규화 레이어를 마스크된 언어 모델 분석에 통합".
EMNLP(2021)
[PDF] [코드] - "시퀀스 길이는 도메인입니다: 변환기 모델의 길이 기반 과적합".
EMNLP(2021)
[PDF] - "사전 훈련된 컨볼루션이 사전 훈련된 변환기보다 나은가요?"
ACL(2021)
[PDF] - "위치 인공물은 마스크된 언어 모델 임베딩을 통해 전파됩니다".
ACL(2021)
[PDF] - "언제 수십억 단어의 사전 훈련 데이터가 필요합니까?".
ACL(2021)
[PDF] [코드] - "BERT는 CV에 대한 AlexNet과 마찬가지로 NLP에 있습니다. 사전 훈련된 언어 모델이 유추를 식별할 수 있습니까?".
ACL(2021)
[PDF] [코드] - "인공 언어를 사용한 신경 언어 모델의 귀납적 편향 조사".
ACL(2021)
[PDF] [코드] - "사전 훈련된 언어 모델이 다운스트림 작업에 도움이 되는 이유는 무엇입니까? 헤드 및 프롬프트 튜닝 분석".
NeurIPS(2021)
[PDF]
효율적인 PLM
훈련
- RoBERTa : "RoBERTa: 강력하게 최적화된 BERT 사전 훈련 접근 방식".
arXiv(2019)
[PDF] [코드] - "점진적 스택을 통한 BERT의 효율적인 훈련".
ICML(2019)
[PDF] [코드] - Megatron-LM : "Megatron-LM: 모델 병렬성을 사용하여 수십억 매개변수 언어 모델 교육".
arXiv(2019)
[PDF] [코드] - ELECTRA : "ELECTRA: 생성자가 아닌 판별자로 사전 훈련된 텍스트 인코더".
ICLR(2020)
[PDF] [코드] - "딥 러닝을 위한 대규모 배치 최적화: 76분 만에 BERT 교육".
ICLR(2020)
[PDF] [코드] - GShard : "GShard: 조건부 계산 및 자동 샤딩을 사용한 거대 모델 확장".
arXiv(2020)
[PDF] - 관리자 : "변환기 훈련의 어려움을 이해합니다".
EMNLP(2020)
[PDF] [코드] - ZeRO : "ZeRO: 수조 매개변수 모델 훈련을 위한 메모리 최적화".
SC20: International Conference for High Performance Computing, Networking, Storage and Analysis
[PDF] [코드] - 스위치 변압기 : "스위치 변압기: 간단하고 효율적인 희소성을 통해 수조 개의 매개변수 모델로 확장".
arXiv(2021)
[PDF] [코드] - "학업 예산으로 BERT를 교육하는 방법".
EMNLP(2021)
[PDF] - "소규모 데이터 세트에서 Deeper Transformer 최적화".
ACL(2021)
[PDF] [코드] - "EarlyBERT: 조기 복권을 통한 효율적인 BERT 교육".
ACL(2021)
[PDF] [코드]
추론
- "BERT는 인내심을 잃습니다: 조기 종료를 통한 빠르고 강력한 추론".
NeurIPS(2020)
[PDF] [코드] - GAML-BERT : "GAML-BERT: 그라데이션 정렬 상호 학습을 통한 BERT 조기 종료 개선".
EMNLP(2021)
[PDF] - "효율적인 최근접 이웃 언어 모델".
EMNLP(2021)
[PDF] [코드] - GhostBERT : "GhostBERT: BERT를 위한 저렴한 운영으로 더 많은 기능 생성".
ACL(2021)
[PDF] [코드] - LeeBERT : "LeeBERT: 교차 레벨 최적화를 통해 BERT에 대한 조기 종료를 학습했습니다."
ACL(2021)
[PDF] - "길이 적응형 변환기: 길이 감소로 한 번 훈련하고 검색을 통해 언제든지 사용".
ACL(2021)
[PDF] [코드] - "효율적인 수직 검색을 위해 BERT의 지식을 단순하고 완전히 연결된 신경망으로 추출".
CIKM(2021)
[PDF]
압축
- DistilBERT : "DistilBERT, BERT의 증류 버전: 더 작고, 빠르며, 저렴하고 가볍습니다."
arXiv(2019)
[PDF] [코드] - PKD : "BERT 모델 압축을 위한 환자 지식 증류".
EMNLP(2019)
[PDF] [코드] - "BERT의 작업별 지식을 단순 신경망으로 추출".
arXiv(2019)
[PDF] - Q8BERT : "Q8BERT: 양자화된 8비트 BERT".
5th Workshop on Energy Efficient Machine Learning and Cognitive Computing - NeurIPS 2019
[PDF] - ALBERT : "ALBERT: 언어 표현의 자기 지도 학습을 위한 Lite BERT".
ICLR(2020)
[PDF] [코드] - TinyBERT : "TinyBERT: 자연어 이해를 위한 BERT 증류".
EMNLP(2020)
[PDF] [코드] - Layerdrop : "구조화된 드롭아웃으로 필요에 따라 변압기 깊이 줄이기".
ICLR(2020)
[PDF] [코드] - Q-BERT : "Q-BERT: BERT의 헤시안 기반 초저정밀 양자화".
AAAI(2020)
[PDF] - MobileBERT : "MobileBERT: 리소스가 제한된 장치를 위한 컴팩트한 작업 독립적 BERT".
ACL(2020)
[PDF] [코드] - "BERT 압축: 전이 학습에 대한 가중치 가지치기 효과 연구".
5th Workshop on Representation Learning for NLP(2020)
[PDF] [코드] - MiniLM : "MiniLM: 사전 훈련된 변환기의 작업 독립적 압축을 위한 심층 셀프 어텐션 증류".
arXiv(2020)
[PDF] [코드] - FastBERT : "FastBERT: 적응형 추론 시간을 갖춘 자체 증류 BERT".
ACL(2020)
[PDF] [코드] - DeeBERT : "DeeBERT: BERT 추론 가속화를 위한 동적 조기 종료".
ACL(2020)
[PDF] [코드] - "대규모 변압기 기반 모델 압축: BERT 사례 연구".
TACL(2021)
[PDF] - "지속적인 희소화로 복권 당첨".
NeurIPS(2020)
[PDF] [코드] - SqueezeBERT : "SqueezeBERT: 컴퓨터 비전은 효율적인 신경망에 대해 NLP에 무엇을 가르칠 수 있습니까?".
SustaiNLP(2020)
[PDF] - 오디오 ALBERT : "오디오 Albert: 오디오 표현의 자기 지도 학습을 위한 Lite Bert".
SLT(2021)
[PDF] [코드] - T2R : "사전 훈련된 변환기를 RNN으로 미세 조정".
EMNLP(2021)
[PDF] [코드] - "보존된 정확성을 넘어서: BERT 압축의 충성도와 견고성 평가".
EMNLP(2021)
[PDF] [코드] - Meta-KD : "Meta-KD: 도메인 간 언어 모델 압축을 위한 메타 지식 추출 프레임워크".
ACL(2021)
[PDF] [코드] - "사전 훈련된 언어 모델의 슈퍼 티켓: 모델 압축에서 일반화 개선까지".
ACL(2021)
[PDF] [코드] - BinaryBERT : "BinaryBERT: BERT 양자화의 한계를 뛰어넘다".
ACL(2021)
[PDF] [코드] - AutoTinyBERT : "AutoTinyBERT: 효율적인 사전 훈련된 언어 모델을 위한 자동 하이퍼 매개변수 최적화".
ACL(2021)
[PDF] [코드] - "한계 효용 감소: BERT 지식 증류를 위한 최소 지식 탐색".
ACL(2021)
[PDF] [코드] - "행렬 곱 연산자를 기반으로 사전 훈련된 언어 모델 압축을 위한 경량 미세 조정 활성화".
ACL(2021)
[PDF] [코드] - NAS-BERT : "NAS-BERT: 신경 아키텍처 검색을 통한 작업 독립적 및 적응형 크기 BERT 압축".
KDD(2021)
[PDF]
PLM 적응
2단
- "STILT의 문장 인코더: 중간 레이블 데이터 작업에 대한 보충 교육".
arXiv(2018)
[PDF] [코드] - "텍스트 분류를 위해 BERT를 미세 조정하는 방법은 무엇입니까?".
CCL(2019)
[PDF] - "사전 훈련을 중단하지 마십시오: 언어 모델을 도메인 및 작업에 맞게 조정".
ACL(2020)
[PDF] [코드] - "사전 훈련된 언어 모델을 사용한 중급 작업 전이 학습: 언제, 왜 작동합니까?".
ACL(2020)
[PDF] - "무엇을 사전 교육할 것인가? 효율적인 중급 과제 선택".
EMNLP(2021)
[PDF] [코드] - "중급 사전 훈련에서 마스킹 정책의 영향".
EMNLP(2021)
[PDF] - TADPOLE : "TADPOLE: AnOmaLy 탐지를 통한 작업 적응형 사전 훈련".
EMNLP(2021)
[PDF]
다중 작업
- MT-DNN : "자연어 이해를 위한 다중 작업 심층 신경망".
ACL(2019)
[PDF] [코드] - "BAM! 자연어 이해를 위한 새로 태어난 다중 작업 네트워크".
ACL(2019)
[PDF] [코드] - "자연어 이해를 위한 지식 증류를 통해 다중 작업 심층 신경망 개선".
arXiv(2019)
[PDF] [코드] - GradTS : "GradTS: 변환기 네트워크를 기반으로 한 기울기 기반 자동 보조 작업 선택 방법".
EMNLP(2021)
[PDF] - "당신의 머리 속에는 무엇이 있습니까? 다중 작업 변압기 모델의 새로운 동작".
EMNLP(2021)
[PDF] - MTAdam : "MTAdam: 다중 훈련 손실 조건의 자동 균형 조정".
EMNLP(2021)
[PDF] - Muppet : "Muppet: 사전 미세 조정을 통한 대규모 다중 작업 표현".
EMNLP(2021)
[PDF] - "줄기세포 가설: 트랜스포머 인코더를 사용한 다중 작업 학습의 딜레마".
EMNLP(2021)
[PDF] [코드] - BERTGen : "BERTGen: BERT를 통한 다중 작업 생성".
ACL(2021)
[PDF] [코드] - "공유 하이퍼네트워크를 통한 변압기를 위한 매개변수 효율적인 다중 작업 미세 조정".
ACL(2021)
[PDF] [코드]
어댑터
- "BERT 및 PAL: 다중 작업 학습의 효율적인 적응을 위한 투영된 주의 계층".
ICML(2019)
[PDF] [코드] - 어댑터 : "NLP를 위한 매개변수 효율적인 전이 학습".
ICML(2019)
[PDF] [코드] - AdapterDrop : "AdapterDrop: 변압기의 어댑터 효율성".
EMNLP(2021)
[PDF] - "사전 훈련된 언어 모델 적응을 위한 어댑터 기반 조정의 효율성".
ACL(2021)
[PDF] - "작업 설명에서 작업별 어댑터를 생성하는 방법 학습".
ACL(2021)
[PDF] [코드]
즉각적인
- PET : "Few-Shot 텍스트 분류 및 자연어 추론을 위한 Cloze 질문 활용".
EACL(2021)
[PDF] [코드] - "중요한 것은 크기만이 아닙니다. 소규모 언어 모델도 소수의 학습자입니다."
NAACL(2021)
[PDF] [코드] - "접두사 조정: 생성을 위한 연속 프롬프트 최적화".
arXiv(2021)
[PDF] - LM-BFF : "사전 훈련된 언어 모델을 더 나은 Few-shot Learners 만들기".
ACL(2021)
[PDF] [코드] - "GPT-3에 대한 좋은 맥락 내 예는 무엇입니까?".
arXiv(2021)
[PDF] [코드] - "매개변수 효율적인 프롬프트 튜닝을 위한 규모의 힘".
EMNLP(2021)
[PDF] [코드] - "미세 조정된 언어 모델은 제로샷 학습자입니다".
arXiv(2021)
[PDF] - "사용 전 보정: 언어 모델의 퓨샷 성능 개선".
ICML(2021)
[PDF] [코드] - TransPrompt : "TransPrompt: 퓨샷 텍스트 분류를 위한 자동 전송 가능한 프롬프트 프레임워크를 향하여".
EMNLP(2021)
[PDF] [코드] - SFLM : "언어 모델의 퓨샷 학습을 위한 자가 훈련 재검토".
EMNLP(2021)
[PDF] [코드] - ADAPET : "패턴 활용 훈련 개선 및 단순화".
EMNLP(2021)
[PDF] [코드]
기타
- "조정을 할 것인가 말 것인가? 사전 훈련된 표현을 다양한 작업에 적용".
RepL4NLP(2019)
[PDF] - "사전 훈련된 언어 모델을 통한 전이 학습을 위한 당혹스러울 정도로 간단한 접근 방식".
NAACL(2019)
[PDF] [코드] - "사전 훈련된 언어 모델 미세 조정: 가중치 초기화, 데이터 순서 및 조기 중지".
arXiv(2020)
[PDF] - SMART : "스마트: 원칙에 기반한 정규화된 최적화를 통해 사전 훈련된 자연어 모델을 위한 강력하고 효율적인 미세 조정".
EMNLP(2020)
[PDF] [코드] - "소샘플 BERT 미세 조정 재검토".
ICLR(2021)
[PDF] - Mirror-BERT : "빠르고 효과적이며 자체 감독됨: 마스크된 언어 모델을 범용 어휘 및 문장 인코더로 변환".
EMNLP(2021)
[PDF] [코드] - "사전 훈련 또는 주석 달기? 제한된 예산으로 도메인 적응".
EMNLP(2021)
[PDF] [코드] - AVocaDo : "AVocaDo: 어휘를 다운스트림 도메인에 적용하기 위한 전략".
EMNLP(2021)
[PDF] - 자녀 조정 : "대규모 언어 모델로 자녀 양육: 효과적이고 일반화 가능한 미세 조정을 향하여".
EMNLP(2021)
[PDF] [코드] - "저자원 도메인 적응을 위한 N-gram 표현으로 사전 훈련된 언어 모델 길들이기".
ACL(2021)
[PDF] [코드] - LexFit : "LexFit: 사전 훈련된 언어 모델의 어휘 미세 조정".
ACL(2021)
[PDF] [코드] - "정보적 맥락을 선택하면 언어 모델 미세 조정이 향상됩니다."
ACL(2021)
[PDF] [코드] - "미리 훈련된 언어 모델의 미세 조정을 위한 하이퍼파라미터 최적화에 관한 실증적 연구".
ACL(2021)
[PDF] [코드] - "사전 훈련된 언어 모델을 어떻게 적대적 견고성을 향해 미세 조정해야 합니까?"
NeurIPS(2021)
[PDF] [코드]