2017年 | 變壓器 | 注意力就是你所需要的 | 最初研究的重點是翻譯任務。 | TensorFlow + 文章 |
2018年 | GPT | 透過生成預訓練提高語言理解 | 第一個預先訓練的 Transformer 模型,用於對各種 NLP 任務進行微調並獲得了最先進的結果 | |
2018年 | 伯特 | BERT:用於語言理解的深度雙向變壓器的預訓練 | 另一種大型預訓練模型,旨在產生更好的句子摘要 | 火炬 |
2019年 | GPT-2 | 語言模型是無監督的多任務學習者 | GPT 的改進(和更大)版本,由於道德問題沒有立即公開發布 | |
2019年 | DistilBERT - 蒸餾 BERT | DistilBERT,BERT 的精煉版:更小、更快、更便宜、更輕 | BERT 的精煉版本,速度提高了 60%,記憶體減少了 40%,但仍保留了 BERT 97% 的效能 | |
2019年 | 捷運 | BART:用於自然語言生成、翻譯和理解的去噪序列到序列預訓練 | 使用與原始 Transformer 模型相同的架構的大型預訓練模型。 | |
2019年 | T5 | 使用統一的文字到文字轉換器來探索遷移學習的局限性 | 使用與原始 Transformer 模型相同的架構的大型預訓練模型。 | |
2019年 | 阿爾伯特 | ALBERT:用於語言表示自監督學習的 Lite BERT | | |
2019年 | RoBERTa - 一種穩健最佳化的 BERT 預訓練方法 | RoBERTa:一種穩健最佳化的 BERT 預訓練方法 | | |
2019年 | 控制鍵 | CTRL:用於可控生成的條件變壓器語言模型 | | |
2019年 | 特大號變形金剛 | Transformer-XL:超越固定長度情境的細心語言模型 | 對過去的狀態採用遞歸方法,並結合相對位置編碼,實現長期依賴 | |
2019年 | 暗黑破壞神GPT | DialoGPT:用於對話回應產生的大規模生成預訓練 | 對 2005 年至 2017 年期間從 Reddit 評論鏈中提取的 1.47 億條類似對話的交流進行了訓練 | 火炬 |
2019年 | 厄尼 | ERNIE:透過資訊實體增強語言表示 | 在本文中,我們利用大規模文本語料庫和知識圖譜來訓練增強語言表示模型(ERNIE),該模型可以同時充分利用詞彙、句法和知識資訊。 | |
2020年 | GPT-3 | 語言模型是小樣本學習者 | GPT-2 的更大版本,能夠在各種任務上表現良好,無需微調(稱為零樣本學習) | |
2020年 | 伊萊克特拉 | Electra:將文字編碼器預先訓練為判別器而不是生成器 | | |
2020年 | 捷運系統 | 神經機器翻譯的多語言去雜訊預訓練 | | |
2021年 | CLIP(對比語言-影像預訓練) | 從自然語言督導中學習可遷移的視覺模型 | CLIP 是一種在各種(圖像、文字)對上進行訓練的神經網路。可以用自然語言指示它在給定圖像的情況下預測最相關的文字片段,而無需直接優化任務,類似於 GPT-2 和 3 的零樣本功能。 | 火炬 |
2021年 | 達爾-E | 零樣本文字到圖像生成 | | 火炬 |
2021年 | 地鼠 | 擴展語言模型:訓練 Gopher 的方法、分析和見解 | | |
2021年 | 決策變壓器 | Decision Transformer:透過序列建模進行強化學習 | 將強化學習問題轉化為條件序列建模的架構。 | 火炬 |
2021年 | GLam(通才語言模型) | GLaM:利用混合專家有效擴展語言模型 | 在本文中,我們提出並開發了一系列名為 GLaM(通才語言模型)的語言模型,它使用稀疏激活的專家混合架構來擴展模型容量,同時與密集變體相比,訓練成本也大大降低。 | |
2022年 | 聊聊GPT/指導GPT | 訓練語言模型遵循人類回饋的指令 | 這種經過訓練的語言模型在遵循使用者意圖方面比 GPT-3 更好。該模型使用人類回饋強化學習 (RLHF) 進行最佳化(微調),以實現會話對話。該模型使用人們編寫的各種數據進行訓練,以獲得聽起來像人類的回應。 | :-: |
2022年 | 龍貓 | 訓練計算最優的大型語言模型 | 使用與 Gopher 相同的計算預算,但具有 70B 參數和 4 倍以上的數據。 | :-: |
2022年 | LaMDA - 對話應用程式的語言模型 | 拉MDA | 它是一系列基於 Transformer 的神經語言模型,專門用於對話 | |
2022年 | DQ捷運 | DQ-BART:透過聯合蒸餾和量化的高效序列到序列模型 | 提出聯合蒸餾和量化模型,將知識從全精度教師模型轉移到量化和蒸餾的低精度學生模型。 | |
2022年 | 火烈鳥 | Flamingo:用於少樣本學習的視覺語言模型 | 僅使用少量註釋的範例來建立可以快速適應新任務的模型對於多模態機器學習研究來說是一個公開的挑戰。我們介紹 Flamingo,它是具有此功能的視覺語言模型 (VLM) 系列。 | |
2022年 | 加托 | 多面手代理 | 受到大規模語言建模進展的啟發,我們應用類似的方法來建立超出文本輸出領域的單一通用代理。該代理,我們稱為 Gato,作為多模式、多任務、多實施例的通才策略。 | |
2022年 | GODEL:目標導向對話的大規模預訓練 | GODEL:目標導向對話的大規模預訓練 | 與 DialoGPT 等早期模型相比,GODEL 利用了新的基礎預訓練階段,旨在更好地支援 GODEL 適應各種下游對話任務,這些任務需要當前對話外部的資訊(例如資料庫或文件)來產生良好的反應。 | 火炬 |
2023年 | GPT-4 | GPT-4 技術報告 | 該模型現在接受多模式輸入:圖像和文本 | :-: |
2023年 | 彭博GPT | BloombergGPT:大型金融語言模型 | 專門從事金融領域的法學碩士,並接受彭博廣泛資料來源的培訓 | |
2023年 | 盛開 | BLOOM:176B 參數的開放存取多語言語言模型 | BLOOM(BigScience 大型開放科學開放存取多語言語言模型)是一種僅解碼器的Transformer 語言模型,在ROOTS 語料庫上進行訓練,該資料集包含46 種自然語言和13 種程式語言(總共59 種)的數百個來源 | |
2023年 | 駱駝2 | Llama 2:開放基礎與微調聊天模型 | | PyTorch #1 PyTorch #2 |
2023年 | 克洛德 | 克洛德 | Claude 可以分析 75k 個單字(100k 個標記)。 GPT4 只能處理 32.7k 代幣。 | |
2023年 | 自檢GPT | SelfCheckGPT:產生大語言模型的零資源黑盒子幻覺偵測 | 一種簡單的基於採樣的方法,可用於以零資源方式(即無需外部資料庫)對黑盒模型進行事實檢查。 | |