Awesome Resource Efficient LLM Papers
1.0.0
이것은 우리 설문지인 Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models에 대한 GitHub 저장소입니다.
날짜 | 키워드 | 종이 | 장소 |
---|---|---|---|
2024년 | 대략적인 관심 | 간단한 선형 주의 언어 모델은 회상 처리량 균형을 맞춥니다. | ArXiv |
2024년 | 하드웨어 주의 | MobileLLM: 기기 내 사용 사례를 위한 10억 미만 매개변수 언어 모델 최적화 | ArXiv |
2024년 | 대략적인 관심 | LoMA: 무손실 압축 메모리 주의 | ArXiv |
2024년 | 대략적인 관심 | 두 개의 돌이 하나의 새에 부딪히다: 더 나은 길이 추정을 위한 이중 레벨 위치 인코딩 | ICML |
2024년 | 하드웨어 최적화 | FlashAttention-2: 더 나은 병렬성과 작업 분할로 더 빠른 주의 집중 | ICLR |
2023년 | 하드웨어 최적화 | Flashattention: IO 인식을 통한 빠르고 메모리 효율적인 정확한 주의 | NeurIPS |
2023년 | 대략적인 관심 | KDEformer: 커널 밀도 추정을 통해 변환기 가속화 | ICML |
2023년 | 대략적인 관심 | 메가: 이동 평균 장착 Gated Attention | ICLR |
2022년 | 하드웨어 최적화 | xFormers - 변압기 연구를 가속화하는 도구 상자 | GitHub |
2021 | 대략적인 관심 | 효율적인 주의: 선형 복잡성에 대한 주의 | WACV |
2021 | 대략적인 관심 | 주의가 필요 없는 변압기 | ArXiv |
2021 | 대략적인 관심 | Self-attention에는 O(n^2) 메모리가 필요하지 않습니다. | ArXiv |
2021 | 하드웨어 최적화 | LightSeq: 변환기용 고성능 추론 라이브러리 | NAACL |
2021 | 하드웨어 최적화 | FasterTransformer: 더욱 빨라진 Transformer 프레임워크 | GitHub |
2020 | 대략적인 관심 | Transformer는 RNN입니다. 선형 주의를 기울이는 빠른 자동 회귀 변환기 | ICML |
2019 | 대략적인 관심 | 리포머: 효율적인 변압기 | ICLR |
날짜 | 키워드 | 종이 | 장소 |
---|---|---|---|
2024년 | 디코더 | 한 번만 캐시하면 됩니다: 언어 모델을 위한 디코더-디코더 아키텍처 | ArXiv |
2024년 | BitLinear 레이어 | 확장 가능한 MatMul이 없는 언어 모델링 | ArXiv |
2023년 | RNN LM | RWKV: 트랜스포머 시대를 위한 RNN 재창조 | EMNLP-결과 |
2023년 | MLP | 자동 회귀 다음 토큰 예측자는 범용 학습기입니다. | ArXiv |
2023년 | 컨벌루션 LM | 하이에나 계층 구조: 더 큰 컨볼루셔널 언어 모델을 향하여 | ICML |
2023년 | 하위 2차 행렬 기반 | Monarch Mixer: 간단한 Sub-Quadratic GEMM 기반 아키텍처 | NeurIPS |
2023년 | 선택적 상태 공간 모델 | Mamba: 선택적 상태 공간을 사용한 선형-시간 시퀀스 모델링 | ArXiv |
2022년 | 전문가의 혼합 | 스위치 변압기: 간단하고 효율적인 희소성을 통해 수조 개의 매개변수 모델로 확장 | JMLR |
2022년 | 전문가의 혼합 | GLaM: 전문가 혼합을 통한 언어 모델의 효율적인 확장 | ICML |
2022년 | 전문가의 혼합 | 전문가 선택 라우팅을 통한 전문가 혼합 | NeurIPS |
2022년 | 전문가의 혼합 | 다양한 전문가를 활용한 효율적인 대규모 언어 모델링 | EMNLP |
2017년 | 전문가의 혼합 | 엄청나게 큰 신경망: 드물게 게이트된 전문가 혼합 계층 | ICLR |
날짜 | 키워드 | 종이 | 장소 |
---|---|---|---|
2024년 | 모델 병렬성 | ProTrain: 적응형 메모리 관리를 통한 효율적인 LLM 교육 | 아르크시브 |
2024년 | 모델 병렬성 | MegaScale: 대규모 언어 모델 훈련을 10,000개 이상의 GPU로 확장 | 아르크시브 |
2023년 | 데이터 병렬성 | Palm: 경로를 통한 언어 모델링 확장 | Github |
2023년 | 모델 병렬성 | Bpipe: 대규모 언어 모델 훈련을 위한 메모리 균형 파이프라인 병렬 처리 | JMLR |
2022년 | 모델 병렬성 | Alpa: 분산 딥 러닝을 위한 연산자 간 및 연산자 내 병렬 처리 자동화 | OSDI |
2021 | 데이터 병렬성 | FairScale: 고성능 및 대규모 교육을 위한 범용 모듈형 PyTorch 라이브러리 | JMLR |
2020 | 데이터 병렬성 | Zero: 1조 개의 매개변수 모델 훈련을 위한 메모리 최적화 | IEEE SC20 |
2019 | 모델 병렬성 | GPipe: 파이프라인 병렬성을 사용한 거대한 신경망의 효율적인 훈련 | NeurIPS |
2019 | 모델 병렬성 | Megatron-LM: 모델 병렬성을 사용하여 수십억 매개변수 언어 모델 교육 | 아르크시브 |
2019 | 모델 병렬성 | PipeDream: DNN 교육을 위한 일반화된 파이프라인 병렬 처리 | SOSP |
2018 | 모델 병렬성 | Mesh-tensorflow: 슈퍼컴퓨터를 위한 딥 러닝 | NeurIPS |
날짜 | 키워드 | 종이 | 장소 |
---|---|---|---|
2022년 | 혼합 정밀 훈련 | BLOOM: 176B 매개변수 개방형 액세스 다국어 언어 모델 | 아르크시브 |
2018 | 혼합 정밀 훈련 | Bert: 언어 이해를 위한 심층 양방향 변환기 사전 훈련 | ACL |
2017년 | 혼합 정밀 훈련 | 혼합 정밀 훈련 | ICLR |
날짜 | 키워드 | 종이 | 장소 |
---|---|---|---|
2024년 | 중요도 샘플링 | LISA: 메모리 효율적인 대규모 언어 모델 미세 조정을 위한 계층별 중요도 샘플링 | 아르크시브 |
2023년 | 중요도 샘플링 조사 | 변압기의 효율적인 훈련에 관한 조사 | IJCAI |
2023년 | 중요도 샘플링 | Data-Juicer: 대규모 언어 모델을 위한 원스톱 데이터 처리 시스템 | 아르크시브 |
2023년 | 중요도 샘플링 | 독창적인: 언어 모델의 효율적인 사전 훈련을 위해 유익한 데이터 하위 집합 사용 | EMNLP |
2023년 | 중요도 샘플링 | 데이터 비용 인식 교육을 통한 기계 학습 역장 | ICML |
2022년 | 중요도 샘플링 | 신경 확장 법칙을 넘어서: 데이터 프루닝을 통해 멱함수 확장을 이김 | NeurIPS |
2021 | 중요도 샘플링 | 데이터 다이어트에 대한 딥 러닝: 훈련 초기에 중요한 사례 찾기 | NeurIPS |
2018 | 중요도 샘플링 | 강력하고 대략적인 중요도 샘플링을 통해 심층 모델을 더 빠르게 훈련 | NeurIPS |
2018 | 중요도 샘플링 | 모든 샘플이 동일하게 생성되는 것은 아닙니다: 중요도 샘플링을 사용한 딥러닝 | ICML |
날짜 | 키워드 | 종이 | 장소 |
---|---|---|---|
2024년 | 데이터 증대 | LLMRec: 추천을 위한 그래프 확대 기능을 갖춘 대규모 언어 모델 | WSDM |
2024년 | 데이터 증대 | LLM-DA: Few-Shot 명명된 엔터티 인식을 위한 대규모 언어 모델을 통한 데이터 확대 | 아르크시브 |
2023년 | 데이터 증대 | MixGen: 새로운 다중 모드 데이터 확장 | WACV |
2023년 | 데이터 증대 | 데이터 효율적인 GAN 훈련을 위한 증강 인식 자가 감독 | NeurIPS |
2023년 | 데이터 증대 | 잠재 합성을 통한 효율적인 텍스트 데이터 활용으로 엔드투엔드 음성 처리 개선 | EMNLP |
2023년 | 데이터 증대 | FaMeSumm: 의료 요약의 충실도 조사 및 개선 | EMNLP |
날짜 | 키워드 | 종이 | 장소 |
---|---|---|---|
2023년 | 훈련 목표 | 대규모 언어 모델의 과제와 적용 | 아르크시브 |
2023년 | 훈련 목표 | 사전 훈련된 언어 모델을 사용한 개방형 정보 추출을 위한 효율적인 데이터 학습 | EMNLP |
2023년 | 마스크된 언어-이미지 모델링 | 마스킹을 통한 스케일링 언어-이미지 사전 훈련 | CVPR |
2022년 | 마스크된 이미지 모델링 | Masked Autoencoder는 확장 가능한 비전 학습기입니다. | CVPR |
2019 | 마스크된 언어 모델링 | MASS: 언어 생성을 위한 마스크된 시퀀스 대 시퀀스 사전 훈련 | ICML |
날짜 | 키워드 | 종이 | 장소 |
---|---|---|---|
2024년 | LoRA 기반 미세 조정 | Dlora: 대규모 언어 모델을 위한 분산 매개변수 효율적인 미세 조정 솔루션 | 아르크시브 |
2024년 | LoRA 기반 미세 조정 | SplitLoRA: 대규모 언어 모델을 위한 분할 매개변수 효율적인 미세 조정 프레임워크 | 아르크시브 |
2024년 | LoRA 기반 미세 조정 | LLM 기반 추천을 위한 데이터 효율적인 미세 조정 | 시기르 |
2024년 | LoRA 기반 미세 조정 | MEFT: 스파스 어댑터를 통한 메모리 효율적인 미세 조정 | ACL |
2023년 | LoRA 기반 미세 조정 | DyLoRA: 동적 검색 없는 낮은 순위 적응을 사용하여 사전 훈련된 모델의 매개변수 효율적인 튜닝 | EACL |
2022년 | 마스킹 기반 미세 조정 | 하위 네트워크를 적응적으로 최적화하여 사전 훈련된 언어 모델을 효과적으로 미세 조정 | NeurIPS |
2021 | 마스킹 기반 미세 조정 | BitFit: 변환기 기반 마스크 언어 모델을 위한 간단한 매개변수 효율적인 미세 조정 | ACL |
2021 | 마스킹 기반 미세 조정 | 큰 언어 모델로 아이 키우기: 효과적이고 일반화 가능한 미세 조정을 향하여 | EMNLP |
2021 | 마스킹 기반 미세 조정 | 그라디언트 분할을 통해 언어 모델의 편향 제거 | ACL |
2019 | 마스킹 기반 미세 조정 | SMART: 원칙에 입각한 정규화된 최적화를 통해 사전 훈련된 자연어 모델을 위한 강력하고 효율적인 미세 조정 | ACL |
날짜 | 키워드 | 종이 | 장소 |
---|---|---|---|
2024년 | 전체 매개변수 미세 조정 | Hift: 계층적 전체 매개변수 미세 조정 전략 | 아르크시브 |
2024년 | 전체 매개변수 미세 조정 최적화 연구 | 대규모 언어 모델 미세 조정을 위한 최적화 연구 | 아르크시브 |
2023년 | 전체 매개변수와 LoRA 기반 미세 조정 간의 비교 연구 | 대규모 언어 모델에 따른 중국어 명령어 데이터의 Full-Parameter와 LoRA 기반 미세 조정 비교 연구 | 아르크시브 |
2023년 | 전체 매개변수와 매개변수 효율적인 미세 조정 간의 비교 연구 | 매개변수 효율적 기법과 Full Fine-tuning의 비교: 다국어 뉴스 기사 분류 사례 연구 | 아르크시브 |
2023년 | 제한된 리소스로 전체 매개변수 미세 조정 | 제한된 리소스를 사용하는 대규모 언어 모델을 위한 전체 매개변수 미세 조정 | 아르크시브 |
2023년 | 메모리 효율적인 미세 조정 | Just Forward Pass를 사용한 미세 조정 언어 모델 | NeurIPS |
2023년 | 의학 응용 분야를 위한 전체 매개변수 미세 조정 | PMC-LLaMA: 의학용 오픈 소스 언어 모델 구축을 향하여 | 아르크시브 |
2022년 | 전체 매개변수 미세 조정의 단점 | 미세 조정은 사전 학습된 기능을 왜곡하고 Out-of-Distribution의 성능을 저하시킬 수 있습니다. | ICLR |
날짜 | 키워드 | 종이 | 장소 |
---|---|---|---|
2024년 | 구조화되지 않은 가지치기 | SparseLLM: 사전 훈련된 언어 모델을 위한 전역 가지치기를 향하여 | NeurIPS |
2024년 | 구조화된 가지치기 | 당혹감으로 인한 당혹감: 작은 참조 모델을 사용한 당혹감 기반 데이터 정리 | 아르크시브 |
2024년 | 구조화된 가지치기 | BESA: 블록별 매개변수 효율적인 희소성 할당을 사용하여 대규모 언어 모델 정리 | 아르크시브 |
2024년 | 구조화된 가지치기 | ShortGPT: 대규모 언어 모델의 레이어가 예상보다 더 중복됩니다. | 아르크시브 |
2024년 | 구조화된 가지치기 | NutePrune: 대규모 언어 모델을 위한 수많은 교사와 효율적인 점진적 가지치기 | 아르크시브 |
2024년 | 구조화된 가지치기 | SliceGPT: 행과 열을 삭제하여 대규모 언어 모델 압축 | ICLR |
2024년 | 구조화되지 않은 가지치기 | Dynamic Sparse No Training: 훈련이 필요 없는 Sparse LLM을 위한 미세 조정 | ICLR |
2024년 | 구조화된 가지치기 | 플러그 앤 플레이: 대규모 언어 모델을 위한 효율적인 훈련 후 가지치기 방법 | ICLR |
2023년 | 구조화되지 않은 가지치기 | 대규모 언어 모델을 위한 원샷 민감도 인식 혼합 희소성 가지치기 | 아르크시브 |
2023년 | 구조화되지 않은 가지치기 | SparseGPT: 대규모 언어 모델을 한 번에 정확하게 정리할 수 있음 | ICML |
2023년 | 구조화되지 않은 가지치기 | 대규모 언어 모델을 위한 간단하고 효과적인 가지치기 접근 방식 | ICLR |
2023년 | 구조화되지 않은 가지치기 | AccelTran: 변환기를 사용한 동적 추론을 위한 희소성 인식 가속기 | TCAD |
2023년 | 구조화된 가지치기 | LLM-Pruner: 대규모 언어 모델의 구조적 가지치기에 대하여 | NeurIPS |
2023년 | 구조화된 가지치기 | LoSparse: 저순위 및 희소 근사법을 기반으로 한 대규모 언어 모델의 구조적 압축 | ICML |
2023년 | 구조화된 가지치기 | 효율적인 생성적 사전 훈련 언어 모델을 위한 구조화된 가지치기 | ACL |
2023년 | 구조화된 가지치기 | ZipLM: 언어 모델의 추론 인식 구조적 가지치기 | NeurIPS |
2023년 | 상황에 따른 가지치기 | Deja Vu: 추론 시 효율적인 LLM을 위한 상황별 희소성 | ICML |
날짜 | 키워드 | 종이 | 장소 |
---|---|---|---|
2024년 | 무게 양자화 | 양자화된 대규모 언어 모델 평가 | 아르크시브 |
2024년 | 무게 양자화 | I-LLM: 완전 양자화된 저비트 대형 언어 모델을 위한 효율적인 정수 전용 추론 | 아르크시브 |
2024년 | 무게 양자화 | ABQ-LLM: 대규모 언어 모델을 위한 임의 비트 양자화 추론 가속 | 아르크시브 |
2024년 | 가중치 활성화 공동 양자화 | 고급 이상값 관리 및 LLM의 효율적인 양자화를 위한 회전 및 순열 | NeurIPS |
2024년 | 무게 양자화 | OmniQuant: 대규모 언어 모델을 위해 전방향으로 보정된 양자화 | ICLR |
2023년 | 무게 양자화 | Flexround: 학습 후 양자화를 위한 요소별 분할을 기반으로 하는 학습 가능한 반올림 | ICML |
2023년 | 무게 양자화 | 이상값 억제+: 동등하고 최적의 이동 및 크기 조정을 통해 대규모 언어 모델의 정확한 양자화 | EMNLP |
2023년 | 무게 양자화 | OWQ: 대규모 언어 모델의 효율적인 미세 조정 및 추론을 위한 이상값 인식 가중치 양자화 | AAAI |
2023년 | 무게 양자화 | Gptq: 생성적 사전 훈련된 변환기를 위한 정확한 사후 훈련 양자화 | ICLR |
2023년 | 무게 양자화 | 효율적인 변압기 훈련을 위한 동적 스태싱 양자화 | EMNLP |
2023년 | 무게 양자화 | 자연어 이해를 위한 변환기의 양자화 인식 및 텐서 압축 훈련 | 인터스피치 |
2023년 | 무게 양자화 | QLoRA: 양자화된 LLM의 효율적인 미세 조정 | NeurIPS |
2023년 | 무게 양자화 | 대규모 비전 언어 모델을 위한 안정적이고 정밀도가 낮은 훈련 | NeurIPS |
2023년 | 무게 양자화 | PreQuant: 사전 훈련된 언어 모델을 위한 작업 독립적인 양자화 접근 방식 | ACL |
2023년 | 무게 양자화 | Olive: 하드웨어 친화적인 이상치 피해자 쌍 양자화를 통해 대규모 언어 모델 가속화 | 이스카 |
2023년 | 무게 양자화 | Awq: LLM 압축 및 가속을 위한 활성화 인식 가중치 양자화 | arXiv |
2023년 | 무게 양자화 | Spqr: 거의 무손실 LLM 가중치 압축을 위한 희소양자화 표현 | arXiv |
2023년 | 무게 양자화 | SqueezeLLM: 조밀하고 희소한 양자화 | arXiv |
2023년 | 무게 양자화 | LLM-QAT: 대규모 언어 모델을 위한 데이터 없는 양자화 인식 교육 | arXiv |
2022년 | 활성화 양자화 | Gact: 일반 네트워크 아키텍처에 대한 활성화 압축 교육 | ICML |
2022년 | 고정 소수점 양자화 | GPU 친화적인 희소성 및 양자화로 Vision Transformer 향상 | ACL |
2021 | 활성화 양자화 | Ac-gc: 수렴이 보장된 손실 있는 활성화 압축 | NeurIPS |
날짜 | 키워드 | 종이 | 장소 |
---|---|---|---|
2024년 | 점수 기반 토큰 제거 | 효율적인 LLM 생성을 위한 즉각적인 적응형 구조적 정리 | 콜름 |
2024년 | 점수 기반 토큰 제거 | LazyLLM: 효율적인 긴 컨텍스트 LLM 추론을 위한 동적 토큰 정리 | 아르크시브 |
2024년 | 학습 기반 토큰 제거 | LLMLingua-2: 효율적이고 충실한 작업 독립적 프롬프트 압축을 위한 데이터 증류 | ACL |
2024년 | 학습 기반 토큰 제거 | 온라인 언어 모델 상호 작용을 위한 압축 컨텍스트 메모리 | ICLR |
2023년 | 점수 기반 토큰 제거 | 효율적인 변환기 추론을 위한 제약 조건 인식 및 순위 추출 토큰 프루닝 | KDD |
2023년 | 학습 기반 토큰 제거 | PuMer: 효율적인 비전 언어 모델을 위한 토큰 정리 및 병합 | ACL |
2023년 | 학습 기반 토큰 제거 | Infor-Coef: 작고 효율적인 언어 모델을 위한 정보 병목 현상 기반 동적 토큰 다운샘플링 | arXiv |
2023년 | 학습 기반 토큰 제거 | SmartTrim: 효율적인 비전 언어 모델을 위한 적응형 토큰 및 매개변수 정리 | arXiv |
2022년 | 학습 기반 토큰 제거 | Transkimmer: Transformer가 레이어별 스키밍을 학습합니다. | ACL |
2022년 | 점수 기반 토큰 제거 | Transformers를 위한 학습된 토큰 프루닝 | KDD |
2021 | 학습 기반 토큰 제거 | TR-BERT: BERT 추론 가속화를 위한 동적 토큰 감소 | NAACL |
2021 | 점수 기반 토큰 제거 | 캐스케이드 토큰과 헤드 프루닝을 갖춘 효율적인 희소 어텐션 아키텍처 | HPCA |
날짜 | 키워드 | 종이 | 장소 |
---|---|---|---|
2024년 | 하드웨어 최적화 | LUT TENSOR CORE: 조회 테이블을 통해 효율적인 저비트 LLM 추론 가속 가능 | 아르크시브 |
2023년 | 하드웨어 오프로딩 | FlexGen: 단일 GPU를 사용한 대규모 언어 모델의 높은 처리량 생성 추론 | PMLR |
2023년 | 하드웨어 오프로딩 | 대규모 언어 모델을 위한 빠른 분산 추론 제공 | arXiv |
2022년 | 협력적 추론 | Petals: 대형 모델의 공동 추론 및 미세 조정 | arXiv |
2022년 | 하드웨어 오프로딩 | DeepSpeed 추론: 전례 없는 규모로 변압기 모델의 효율적인 추론 지원 | IEEE SC22 |
날짜 | 키워드 | 종이 | 장소 |
---|---|---|---|
2024년 | 엣지 디바이스 | MobileLLM: 기기 내 사용 사례를 위한 10억 미만 매개변수 언어 모델 최적화 | ICML |
2024년 | 엣지 디바이스 | EdgeShard: 협업 엣지 컴퓨팅을 통한 효율적인 LLM 추론 | 아르크시브 |
2024년 | 엣지 디바이스 | 모든 정밀도 LLM: 다양한 크기의 여러 LLM을 저렴한 비용으로 배포 | ICML |
2024년 | 엣지 디바이스 | LLM 추론 성능 향상을 위한 획기적인 메모리 솔루션 | IEEE 마이크로 |
2024년 | 엣지 디바이스 | 용융점: 언어 변환기의 모바일 평가 | 모비컴 |
2024년 | 엣지 디바이스 | 모바일 장치의 시스템 서비스로서의 LLM | 아르크시브 |
2024년 | 엣지 디바이스 | LocMoE: 대규모 언어 모델 훈련을 위한 낮은 오버헤드 MoE | 아르크시브 |
2024년 | 엣지 디바이스 | Jetmoe: 100만 달러로 llama2 성능 달성 | 아르크시브 |
2023년 | 엣지 디바이스 | 리소스가 제한된 장치를 위한 프라이빗 연합 학습을 통한 대규모 어휘 신경 언어 모델 훈련 | ICASSP |
2023년 | 엣지 디바이스 | 가장자리에 있는 LLM의 연합 미세 조정: 좋은 것, 나쁜 것, 추한 것 | arXiv |
2023년 | 도서관 | Colossal-AI: 대규모 병렬 훈련을 위한 통합 딥 러닝 시스템 | ICPP |
2023년 | 도서관 | GPT-NeoX-20B: 오픈 소스 자동 회귀 언어 모델 | ACL |
2023년 | 엣지 디바이스 | 연결된 지능을 위한 자율 엣지 AI를 강화한 대규모 언어 모델 | arXiv |
2022년 | 도서관 | DeepSpeed 추론: 전례 없는 규모로 변압기 모델의 효율적인 추론 지원 | IEEE SC22 |
2022년 | 도서관 | Alpa: 분산 딥 러닝을 위한 연산자 간 및 연산자 내 병렬 처리 자동화 | OSDI |
2022년 | 엣지 디바이스 | EdgeFormer: 온디바이스 Seq2seq 생성을 위한 매개변수 효율적인 변환기 | arXiv |
2022년 | 엣지 디바이스 | ProFormer: 온디바이스 LSH 투영 기반 변압기를 향하여 | ACL |
2021 | 엣지 디바이스 | BERT를 위한 저렴한 작업으로 더 많은 기능 생성 | ACL |
2021 | 엣지 디바이스 | SqueezeBERT: 컴퓨터 비전이 NLP에게 효율적인 신경망에 대해 가르칠 수 있는 것은 무엇입니까? | SustaiNLP |
2020 | 엣지 디바이스 | 장단거리 어텐션을 갖춘 Lite Transformer | arXiv |
2019 | 도서관 | Megatron-LM: 모델 병렬성을 사용하여 수십억 매개변수 언어 모델 교육 | IEEE SC22 |
2018 | 도서관 | Mesh-TensorFlow: 슈퍼컴퓨터를 위한 딥 러닝 | NeurIPS |
날짜 | 키워드 | 종이 | 장소 |
---|---|---|---|
2023년 | 기타 시스템 | Tabi: 대규모 언어 모델을 위한 효율적인 다단계 추론 시스템 | 유로시스 |
2023년 | 기타 시스템 | 대규모 언어 모델 암기 평가를 위한 규모에 맞는 거의 중복된 시퀀스 검색 | PACMMOD |
미터법 | 설명 | 사용 예 |
---|---|---|
FLOP(부동 소수점 연산) | 부동 소수점 숫자에 대한 산술 연산의 수 | [플롭] |
훈련시간 | 일반적으로 벽시계 분, 시간 또는 일 단위로 측정되는 훈련에 필요한 총 기간입니다. | [분, 일] [시간] |
추론 시간/지연 시간 | 입력을 받은 후 출력을 생성하는 데 필요한 평균 시간으로, 일반적으로 벽시계 시간 또는 CPU/GPU/TPU 시계 시간(밀리초 또는 초)으로 측정됩니다. | [종단 간 대기 시간(초)] [다음 토큰 생성 지연 시간(밀리초)] |
처리량 | 일반적으로 초당 토큰(TPS) 또는 초당 쿼리(QPS)로 측정되는 출력 토큰 생성 또는 작업 완료 속도입니다. | [토큰/초] [쿼리/초] |
속도 향상 비율 | 기본 모델에 비해 추론 속도 향상 | [추론 시간 가속] [처리 속도 향상] |
미터법 | 설명 | 사용 예 |
---|---|---|
매개변수 수 | LLM 신경망의 조정 가능한 변수 수 | [매개변수 수] |
모델 크기 | 전체 모델을 저장하는 데 필요한 저장 공간 | [최대 메모리 사용량(GB)] |
미터법 | 설명 | 사용 예 |
---|---|---|
에너지 소비 | LLM의 수명주기 동안 사용되는 전력 | [kWh] |
탄소 배출 | 모델의 에너지 사용과 관련된 온실가스 배출 | [kgCO2eq] |
다음은 에너지 소비 및 탄소 배출을 실시간으로 추적하도록 설계된 사용 가능한 소프트웨어 패키지입니다.
- 코드카본
- 카본트래커
- 실험 영향 추적기
실제 훈련 전에 에너지 사용량과 탄소 배출량을 예측하는 데 다음이 도움이 될 수도 있습니다.
- ML CO2 영향
- LLM카본
미터법 | 설명 | 사용 예 |
---|---|---|
매개변수당 달러 | 매개변수 수에 따른 LLM 교육(또는 실행)의 총 비용 |
미터법 | 설명 | 사용 예 |
---|---|---|
소통량 | 특정 LLM 실행 또는 교육 실행 중에 네트워크를 통해 전송된 데이터의 총량 | [TB 단위의 통신량] |
미터법 | 설명 | 사용 예 |
---|---|---|
압축비 | 원본 모델에 비해 압축된 모델의 크기 감소 | [압축률] [남은 무게의 백분율] |
충성도/충성도 | 예측 일관성과 예측 확률 분포 정렬 측면에서 교사와 학생 모델 간의 유사성 | [충의] [충실도] |
견고성 | 약간의 입력 수정으로 잠재적으로 모델의 출력을 조작할 수 있는 적대적 공격에 대한 저항 | [공격 후 정확도, 쿼리 번호] |
파레토 최적성 | 다양한 경쟁 요소 간의 최적의 균형 | [파레토 프론티어(비용 및 정확도)] [파레토 프론티어(성능 및 FLOP)] |
기준 | 설명 | 종이 |
---|---|---|
일반 NLP 벤치마크 | GLUE, SuperGLUE, WMT, SQuAD 등과 같은 광범위한 일반 NLP 벤치마크 모음 | 대규모 언어 모델의 포괄적인 개요 |
다이나보드 | 클라우드에서 NLP 모델을 평가하기 위한 오픈 소스 플랫폼으로, 맞춤형 Dynascore를 통해 실시간 상호 작용과 모델 품질에 대한 전체적인 평가를 제공합니다. | Dynaboard: 전체적인 차세대 벤치마킹을 위한 서비스로서의 평가 플랫폼 |
효율적인QA | 정확하고 메모리 효율적인 QA 시스템 구축에 초점을 맞춘 NeurIPS 2020의 오픈 도메인 QA(질문 응답) 챌린지 | NeurIPS 2020 EfficientQA 대회: 시스템, 분석 및 교훈 |
SustaiNLP 2020 공유 작업 | SuperGLUE 측정항목을 사용하여 8개 NLU 작업에 대한 성능을 평가하고 추론 중 에너지 소비를 평가하여 에너지 효율적인 NLP 모델 개발에 대한 과제 | SustaiNLP 2020 공유 작업 개요 |
ELUE (효율적인 언어 이해 평가) | 다양한 작업 전반에 걸쳐 NLP 모델 효율성을 평가하기 위한 벤치마크 플랫폼으로, 온라인 지표를 제공하고 Python 모델 정의 파일만 제출하면 됩니다. | 효율적인 NLP를 향하여: 표준 평가 및 강력한 기준선 |
VLUE(시각-언어 이해 평가) | 여러 작업에 걸쳐 비전 언어 모델을 평가하기 위한 포괄적인 벤치마크로서 평가 및 비교를 위한 온라인 플랫폼을 제공합니다. | VLUE: 비전 언어 모델 평가를 위한 다중 작업 벤치마크 |
장거리 경기장(LAG) | 다양한 양상과 추론 유형을 포괄하는 긴 상황의 작업에서 효율적인 Transformer 모델을 평가하는 동시에 통제된 리소스 제약 하에서 평가를 허용하고 실제 효율성을 강조하는 벤치마크 제품군입니다. | 장거리 경기장: 효율적인 변압기를 위한 벤치마크 |
효율성을 고려한 MS MARCO | 쿼리당 대기 시간 및 비용과 같은 효율성 지표를 정확성과 함께 통합하여 IR 시스템에 대한 포괄적인 평가를 촉진하는 향상된 MS MARCO 정보 검색 벤치마크 | 정보 검색 벤치마킹을 위한 다운스트림 작업 정확도를 뛰어넘습니다. |
이 논문 목록이 귀하의 연구에 유용하다고 생각되면 다음을 인용해 보십시오.
@article{bai2024beyond,
title={Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models},
author={Bai, Guangji and Chai, Zheng and Ling, Chen and Wang, Shiyu and Lu, Jiaying and Zhang, Nan and Shi, Tingwei and Yu, Ziyang and Zhu, Mengdan and Zhang, Yifei and others},
journal={arXiv preprint arXiv:2401.00625},
year={2024}
}