生成式人工智慧正在快速發展,這個儲存庫是生成式人工智慧研究、訪談資料、筆記本等更新的綜合中心!
探索以下資源:
我們將定期更新此存儲庫,因此請留意最新的添加內容!
快樂學習!
*每月月底更新
日期 | 標題 | 抽象的 | 主題 |
---|---|---|---|
2024 年 5 月 31 日 | 法學碩士在高階心理理論任務中達到了成人的表現 | 本文探討了大型語言模型 (LLM) 在多大程度上發展了高階心理理論 (ToM);人類以遞歸方式推理多種精神和情緒狀態的能力(例如,我認為你相信她知道)。本文以先前的工作為基礎,介紹了一個手寫的測試套件——多階心理理論問答——並用它來比較五位法學碩士與新收集的成年人基準的表現。我們發現 GPT-4 和 Flan-PaLM 在 ToM 任務上總體上達到了成人水平和接近成人水平的表現,並且 GPT-4 在六階推理上超過了成人表現。我們的結果表明,模型大小和實現 ToM 能力的微調之間存在相互作用,並且表現最好的法學碩士已經開發了 ToM 的通用能力。鑑於高階 ToM 在廣泛的合作和競爭人類行為中發揮的作用,這些發現對於面向使用者的法學碩士應用具有重大意義。 | 心智理論 |
2024 年 5 月 30 日 | JINA CLIP:您的 CLIP 模型也是您的文字擷取器 | 對比語言圖像預訓練 (CLIP) 廣泛用於訓練模型,透過將圖像和文字映射到固定大小的向量,在公共嵌入空間中對齊圖像和文字。這些模型是多模式資訊檢索和相關任務的關鍵。然而,與專門的文字模型相比,CLIP 模型在純文字任務中通常表現不佳。這會導致資訊檢索系統效率低下,這些系統為純文字和多模式任務保留單獨的嵌入和模型。我們提出了一種新穎的多任務對比訓練方法來解決這個問題,我們用它來訓練 jina-clip-v1 模型,以在文字-圖像和文字-文字檢索任務上實現最先進的效能。 | 多式聯運模型 |
2024 年 5 月 30 日 | Parrot:利用語義變數高效服務基於 LLM 的應用程式 | 大語言模型 (LLM) 的興起使得基於 LLM 的應用程式(又稱 AI 代理或副駕駛)成為可能,這是一種結合了 LLM 和傳統軟體優勢的新軟體範例。來自不同租戶的不同 LLM 申請可以使用多個 LLM 請求來設計複雜的工作流程來完成一項任務。然而,他們必須使用當今公共 LLM 服務提供的過於簡化的請求級 API,從而丟失了重要的應用程式級資訊。公共 LLM 服務必須盲目優化各個 LLM 請求,導致 LLM 申請的端到端效能次優。本文介紹Parrot,一個LLM服務系統,專注於LLM應用的端到端體驗。 Parrot 提出了語義變量,這是一種將應用程式級知識公開給公共 LLM 服務的統一抽象。語義變數在請求提示中註釋輸入/輸出變量,並在連接多個 LLM 請求時建立資料管道,從而提供對 LLM 應用程式進行程式設計的自然方法。向公共 LLM 服務公開語義變數使其能夠執行傳統的資料流分析,以揭示多個 LLM 請求之間的相關性。這種相關性為基於 LLM 的應用程式的端到端效能開啟了全新的最佳化空間。廣泛的評估表明,Parrot 可以為 LLM 應用程式的流行和實際用例實現高達數量級的改進 | 法學碩士代理 |
2024 年 5 月 30 日 | 被困惑所困擾:使用小參考模型進行基於困惑的資料修剪 | 在這項工作中,我們研究小型語言模型是否可以確定大規模文字資料集的高品質子集,從而提高大型語言模型的效能。雖然現有的工作表明基於較大模型的困惑度的剪枝可以產生高品質的數據,但我們研究了較小的模型是否可以用於基於困惑度的剪枝以及剪枝如何受到被剪枝數據的域組成的影響。我們證明,對於多個資料集組成,基於困惑度的預訓練資料修剪可以顯著提高下游任務效能:基於使用1.25 億參數模型計算的困惑度的修剪將30 億參數模型的下游任務的平均效能提高高達2.04並實現預訓練步驟最多減少 1.45 倍,以達到相應的基線表現。此外,我們證明這種基於困惑的資料修剪還可以在過度訓練和資料約束的情況下產生下游效能增益。 | 小語言模型 |
2024 年 5 月 30 日 | GNN-RAG:用於大型語言模型推理的圖神經檢索 | 知識圖(KG)以三元組(頭、關係、尾)的形式表示人工製作的事實知識,它們共同形成一個圖。 KG 問答 (KGQA) 是根據 KG 提供的資訊回答自然問題的任務。大型語言模型 (LLM) 因其卓越的自然語言理解能力而成為 QA 任務的最先進模型。另一方面,圖神經網路(GNN)已廣泛用於 KGQA,因為它們可以處理儲存在 KG 中的複雜圖資訊。在這項工作中,我們介紹了 GNN-RAG,這是一種以檢索增強生成(RAG)風格將 LLM 的語言理解能力與 GNN 的推理能力相結合的新方法。首先,GNN 對密集的 KG 子圖進行推理,以檢索給定問題的候選答案。其次,提取知識圖譜中連接問題實體和候選答案的最短路徑來表示知識圖譜推理路徑。提取的路徑被語言化並作為 RAG 的 LLM 推理的輸入。在我們的 GNN-RAG 框架中,GNN 充當密集子圖推理器來提取有用的圖信息,而 LLM 利用其自然語言處理能力實現最終的 KGQA。此外,我們開發了一種檢索增強(RA)技術,以進一步提高 GNN-RAG 的 KGQA 性能。實驗結果表明,GNN-RAG 在兩個廣泛使用的 KGQA 基準(WebQSP 和 CWQ)中實現了最先進的性能,優於或與 7B 調整的 LLM 的 GPT-4 性能相匹配。此外,GNN-RAG 在多跳和多實體問題上表現出色,在答案 F1 時比競爭方法高出 8.9-15.5%。我們在 https://github.com/cmavro/GNN-RAG 提供程式碼和 KGQA 結果。 | 知識圖譜上的 RAG |
2024 年 5 月 29 日 | 自我探索語言模型:在線對齊的主動偏好誘導 | 偏好優化,特別是透過人類回饋強化學習 (RLHF),在調整大型語言模型 (LLM) 以遵循人類意圖方面取得了重大成功。與與固定資料集的離線對齊不同,人類或人工智慧對模型生成的線上回饋收集通常會透過迭代過程產生更強大的獎勵模型和更好對齊的法學碩士。然而,實現全球準確的獎勵模型需要係統探索,以產生跨越自然語言廣闊空間的多樣化回應。僅從標準獎勵最大化法學碩士中隨機抽樣不足以滿足此要求。為了解決這個問題,我們提出了一個雙層目標,樂觀地偏向潛在的高回報反應,以積極探索分佈外區域。透過使用重新參數化的獎勵函數來解決內部層問題,產生的演算法稱為自探索語言模型 (SELM),消除了對單獨 RM 的需要,並以簡單的目標迭代更新 LLM。與直接偏好優化 (DPO) 相比,SELM 目標減少了對未見外推的不加區別的偏向,並提高了探索效率。我們的實驗結果表明,當在Zephyr-7B-SFT 和Llama-3-8B-Instruct 模型上進行微調時,SELM 顯著提高了MT-Bench 和AlpacaEval 2.0 等指令追蹤基準以及不同設定下的各種標準學術基準的性能。我們的程式碼和模型可在 https://github.com/shenao-zhang/SELM 取得。 | 對齊、偏好優化 |
2024 年 5 月 28 日 | OpenRLHF:易於使用、可擴展且高效能的 RLHF 框架 | 隨著大型語言模型(LLM)透過縮放法則不斷發展,來自人類回饋的強化學習(RLHF)因其出色的表現而受到廣泛關注。然而,與預訓練或微調單一模型不同,透過人類回饋(RLHF)擴展強化學習來訓練大型語言模型給四個模型之間的協調帶來了挑戰。我們推出 OpenRLHF,這是一個能夠實現高效 RLHF 擴充的開源框架。與在同一 GPU 上共置四個模型的現有 RLHF 框架不同,OpenRLHF 使用 Ray、vLLM 和 DeepSpeed 重新設計了超過 70B 參數的模型調度,利用改進的資源利用率和多樣化的訓練方法。 OpenRLHF 與 Hugging Face 無縫集成,提供具有優化演算法和啟動腳本的開箱即用解決方案,確保用戶友好性。 OpenRLHF 實現了 RLHF、DPO、拒絕採樣和其他對齊技術。 OpenRLHF 的程式碼支援最先進的 LLM 開發,可從 https://github.com/OpenLLMAI/OpenRLHF 取得。 | RLHF,工具包 |
2024 年 5 月 28 日 | LLAMA-NAS:大型語言模型的高效神經架構搜索 | 現代大語言模型(LLM)在解決自然語言處理、複雜推理、情感分析和其他任務方面的能力非常出色,這促使它們被廣泛採用。不幸的是,這些能力伴隨著非常高的記憶體和計算成本,這使得法學碩士無法在大多數硬體平台上使用。為了緩解這個問題,我們提出了一種使用一次性 NAS 尋找基於 LLaMA2-7B 的帕累托最優網路架構的有效方法。特別是,我們僅對 LLaMA2-7B 進行一次微調,然後應用基於遺傳演算法的搜尋來尋找較小、計算複雜度較低的網路架構。我們表明,對於某些標準基準測試任務,預先訓練的 LLaMA2-7B 網路不必要地龐大和複雜。更具體地說,我們證明了某些任務的模型大小減少了 1.5 倍,吞吐量提高了 1.3 倍,而精度下降可以忽略不計。除了尋找更小、效能更高的網路架構之外,我們的方法比某些修剪或稀疏技術更有效和更有效率。最後,我們示範了量化如何與我們的方法互補,以及我們發現的網路的大小和複雜性可以使用量化進一步降低。我們相信,我們的工作提供了一種自動創建法學碩士的方法,可以在更便宜且更容易獲得的硬體平台上使用。 | 神經架構搜索,模型尺寸縮小 |
2024 年 5 月 28 日 | 不要忘記連接!透過基於圖的重新排名改進 RAG | 檢索增強生成 (RAG) 透過將生成與現有文件的上下文結合起來,大大提高了大型語言模型 (LLM) 回應的效能。當文件與問題上下文明顯相關時,這些系統可以很好地發揮作用。但是,當文件包含部分資訊或與上下文的聯繫不太明顯時該怎麼辦?我們應該如何推理文檔之間的聯繫?在這項工作中,我們試圖回答有關 RAG 生成的兩個核心問題。我們引入了 G-RAG,這是一個基於 RAG 中檢索器和閱讀器之間的圖神經網路 (GNN) 的重新排序器。我們的方法結合了文件和語義資訊之間的聯繫(透過抽象含義表示圖),為 RAG 提供上下文通知的排名器。 G-RAG 的效能優於最先進的方法,同時具有較小的運算佔用量。此外,我們評估了 PaLM 2 作為重新排序器的效能,發現它的效能明顯低於 G-RAG。這一結果強調了即使在使用大型語言模型時,RAG 重新排序的重要性。 | RAG 推理 |
2024 年 5 月 27 日 | Meteor:基於 Mamba 的大型語言和視覺模型原理遍歷 | 視覺指令調優的進步推動了大型語言和視覺模型(LLVM)的快速發展。最近,開源 LLVM 已經策劃了高品質的視覺指令調整資料集,並利用了額外的視覺編碼器或多個電腦視覺模型,以縮小與強大的閉源 LLVM 的效能差距。這些進步歸因於不同能力所需的多方面信息,包括基本的圖像理解、有關常識和非對象概念(例如圖表、圖表、符號、符號和數學問題)的現實知識以及逐步的知識。問題的步驟程序。借鑒多方面的信息,我們提出了一種新的高效的LLVM、基於Mamba的理據遍歷(Meteor),它利用多方面的理據來增強理解和回答能力。為了嵌入包含豐富資訊的冗長原理,我們採用了 Mamba 架構,能夠以線性時間複雜度處理順序資料。我們引入了基本原理遍歷的新概念,有助於有效嵌入基本原理。隨後,對主幹多模態語言模型(MLM)進行訓練,以在基本原理的幫助下產生答案。透過這些步驟,Meteor 在需要不同功能的多個評估基準中實現了視覺語言性能的顯著提高,而無需擴大模型大小或採用額外的視覺編碼器和電腦視覺模型。程式碼可在 https://github.com/ByungKwanLee/Meteor 中找到。 | 狀態空間模型、多模態模型 |
2024 年 5 月 27 日 | 視覺語言建模簡介 | 隨著大型語言模型 (LLM) 最近的流行,人們進行了多次嘗試將其擴展到視覺領域。從可以引導我們穿過陌生環境的視覺助手到僅使用高級文字描述生成圖像的生成模型,視覺語言模型(VLM)應用程式將極大地影響我們與技術的關係。然而,為了提高這些模型的可靠性,需要解決許多挑戰。雖然語言是離散的,但視覺是在更高維度的空間中演化的,在這個空間中,概念並不總是容易離散化。為了更好地理解將視覺映射到語言背後的機制,我們介紹了 VLM,希望能夠幫助任何想要進入該領域的人。首先,我們介紹什麼是 VLM、它們如何運作以及如何訓練它們。然後,我們提出並討論評估 VLM 的方法。雖然這項工作主要側重於將圖像映射到語言,但我們也討論了將 VLM 擴展到視訊。 | 多模式模型、調查 |
2024 年 5 月 27 日 | 俄羅斯娃娃多式聯運模型 | LLaVA 等大型多模態模型 (LMM) 在視覺語言推理方面表現出了強大的表現。這些模型首先將影像嵌入到固定的大量視覺標記中,然後將它們輸入到大型語言模型(LLM)中。然而,這種設計導致對於高解析度圖像和視訊等密集視覺場景,令牌數量過多,導致效率極低。雖然存在標記修剪和合併方法,但它們為每個影像產生單一長度的輸出,並且無法在資訊密度與效率之間提供靈活性。受俄羅斯娃娃概念的啟發,我們提出了 M3:俄羅斯娃娃多模態模型,它學習將視覺內容表示為嵌套的視覺標記集,這些標記集跨多個從粗到細的粒度捕獲資訊。我們的方法為LMM 提供了幾個獨特的好處:(1)可以在推理過程中明確控制每個測試實例的視覺粒度,例如,根據預期的內容複雜性或簡單性來調整用於表示圖像的標記數量; (2) M3 提供了一個分析現有資料集所需粒度的框架,我們發現 COCO 式基準僅需要大約 9 個視覺標記即可獲得與使用所有 576 個標記類似的準確性; (3) 我們的方法為探索樣本層級的表現和視覺標記長度之間的最佳權衡奠定了基礎,我們的調查表明,預言機上限和當前固定規模表示之間存在很大差距。 | 多式聯運模型 |
2024 年 5 月 27 日 | Trans-LoRA:實現無資料可傳遞參數高效能微調 | 低秩適配器 (LoRA) 及其變體是一種流行的參數高效微調 (PEFT) 技術,與完整模型微調性能緊密匹配,同時僅需要少量附加參數。這些額外的 LoRA 參數特定於正在調整的基本模型。當需要棄用基礎模型並用新模型替換時,所有相關的 LoRA 模組都需要重新訓練。此類重新訓練需要存取用於為原始基礎模型訓練 LoRA 的資料。對於商業雲端應用程式來說,這尤其成問題,其中 LoRA 模組和基本模型由服務提供者託管,而服務提供者可能不被允許託管專有的客戶端任務資料。為了應對這項挑戰,我們提出了 Trans-LoRA——一種跨基礎模型無損、幾乎無資料傳輸 LoRA 的新方法。我們的方法依賴合成資料來傳輸 LoRA 模組。使用大型語言模型,我們設計了一個合成資料產生器來近似觀察任務資料子集的資料生成過程。對產生的合成資料集進行訓練可將 LoRA 模組轉移到新模型。我們使用 LLama 和 Gemma 模型系列展示了我們方法的有效性。我們的方法在各種任務中實現了不同基礎模型系列內和不同基礎模型系列之間的模型之間,甚至不同 PEFT 方法之間的無損(大部分改進)LoRA 傳輸。 | PEFT 方法,微調 |
2024 年 5 月 26 日 | 語言模型對齊的自玩偏好優化 | 傳統的人類回饋強化學習 (RLHF) 方法依賴 Bradley-Terry 模型等參數模型,無法捕捉人類偏好中的不及物性和非理性。最近的進展表明,直接使用偏好機率可以更準確地反映人類偏好,從而實現更靈活和準確的語言模型對齊。在本文中,我們提出了一種基於自我博弈的語言模型對齊方法,該方法將問題視為一個常數和兩人博弈,旨在確定納許均衡策略。我們的方法稱為自我博弈偏好最佳化(SPPO),透過迭代策略更新來逼近納許均衡,並享有理論上的收斂保證。我們的方法可以有效地增加所選響應的對數似然並降低被拒絕響應的對數似然,這是透過直接偏好優化(DPO)和身份偏好優化(IPO)等對稱成對損失無法輕鬆實現的。在我們的實驗中,僅使用來自 UltraFeedback 資料集的 60k 提示(無響應)並且沒有任何提示增強,透過利用僅具有 0.4B 參數的預訓練偏好模型 PairRM,SPPO 可以透過微調 Mistral-7B 來獲得模型Instruct- v0.2 在AlpacaEval 2.0 上對GPT-4-Turbo 實現了最先進的長度控制勝率28.53%。它在 MT-Bench 和 Open LLM 排行榜上也優於(迭代)DPO 和 IPO。值得注意的是,SPPO 的強大表現是在沒有來自 GPT-4 或其他更強的語言模型的額外外部監督(例如,回應、偏好等)的情況下實現的。 | 對齊、優化 |
2024 年 5 月 23 日 | 並非所有語言模型特徵都是線性的 | 最近的工作提出了線性表示假設:語言模型透過操縱激活空間中概念(「特徵」)的一維表示來執行計算。相反,我們探索某些語言模型表示是否本質上是多維的。我們首先根據不可約多維特徵是否可以分解為獨立或非共存的低維特徵來制定嚴格的定義。受這些定義的啟發,我們設計了一種可擴展的方法,使用稀疏自動編碼器自動尋找 GPT-2 和 Mistral 7B 中的多維特徵。這些自動發現的特徵包括引人注目的可解釋範例,例如代表一周中的幾天和一年中的月份的圓形特徵。我們確定使用這些精確的圓來解決涉及一周中的幾天和一年中的幾個月的模算術的計算問題的任務。最後,我們透過Mistral 7B 和Llama 3 8B 的干預實驗提供證據,證明這些圓形特徵確實是這些任務中的基本計算單位,並且透過將這些任務的隱藏狀態分解為可解釋的組件,我們找到了進一步的圓形表示。 | 線性表示分析 |
2024 年 5 月 23 日 | AlignGPT:具有自適應對齊能力的多模態大語言模型 | 多模態大語言模型(MLLM)被廣泛認為在通用人工智慧(AGI)的探索中至關重要。 MLLM 的核心在於其實現跨模式對齊的能力。為了實現這一目標,目前的 MLLM 通常遵循兩階段訓練範例:預訓練階段和指令調整階段。儘管取得了成功,但這些模型中的對齊能力建模仍有缺陷。首先,在預訓練階段,模型通常假設所有圖像文字對都是均勻對齊的,但實際上不同圖像文字對之間的對齊程度不一致。其次,目前用於微調的指令包含多種任務,不同任務的指令通常需要不同層級的對齊能力,但先前的MLLM忽略了這些差異化的對齊需求。為了解決這些問題,我們提出了一個新的多模態大語言模型 AlignGPT。在預訓練階段,我們沒有平等地對待所有圖像文字對,而是為不同的圖像文字對分配不同程度的對齊能力。然後,在指令調優階段,我們自適應地組合這些不同層級的對齊能力,以滿足不同指令的動態對齊需求。大量實驗結果表明,我們的模型在 12 個基準測試中實現了具有競爭力的性能。 | 對齊,多模式模型 |
2024 年 5 月 23 日 | HippoRAG:受神經生物學啟發的大型語言模型的長期記憶 | 為了在充滿敵意和不斷變化的自然環境中茁壯成長,哺乳動物的大腦不斷進化,能夠儲存大量關於世界的知識,並不斷整合新訊息,同時避免災難性的遺忘。儘管取得了令人印象深刻的成就,大型語言模型(LLM),即使具有檢索增強生成(RAG),在預訓練後仍然難以高效且有效地整合大量新經驗。在這項工作中,我們介紹了 HippoRAG,這是一種新穎的檢索框架,其靈感來自人類長期記憶的海馬索引理論,能夠對新體驗進行更深入、更有效的知識整合。 HippoRAG 協同協調 LLM、知識圖譜和個人化 PageRank 演算法,以模仿新皮質和海馬體在人類記憶中的不同作用。我們將 HippoRAG 與現有的 RAG 方法在多跳問答上進行比較,結果顯示我們的方法顯著優於最先進的方法,最高可達 20%。使用HippoRAG 的單步檢索可實現與IRCoT 等迭代檢索相當或更好的性能,同時價格便宜10-30 倍,速度提高6-13 倍,並且將HippoRAG 集成到IRCoT 中可帶來進一步的實質性收益。最後,我們證明我們的方法可以解決現有方法無法解決的新型場景。 | RAG優化 |
2024 年 5 月 21 日 | OmniGlue:具有基礎模型指導的可泛化特徵匹配 | 影像匹配領域不斷出現新穎的可學習特徵匹配技術,其在傳統基準測試上的性能不斷提高。然而,我們的調查表明,儘管取得了這些成果,但它們在現實世界中的應用潛力卻因其對新影像領域的泛化能力有限而受到限制。在本文中,我們介紹了 OmniGlue,這是第一個以泛化為核心原則設計的可學習圖像匹配器。 OmniGlue 利用視覺基礎模型中的廣泛知識來指導特徵匹配過程,從而促進對訓練時未見過的領域的泛化。此外,我們提出了一種新穎的關鍵點位置引導注意機制,該機制可以解開空間和外觀訊息,從而增強匹配描述符。我們對具有不同影像域的 7 個資料集進行了全面的實驗,包括場景層級影像、以物件為中心的影像和航空影像。相對於可直接比較的參考模型,OmniGlue 的新穎組件在未見過的領域上實現了 20.9% 的相對增益,同時也比最近的 LightGlue 方法相對提高了 9.5%。程式碼和模型可以在https://hwjian1510.github.io/OmniGlue找到。 | 多式聯運模型 |
2024 年 5 月 20 日 | MoRA:用於參數高效能微調的高階更新 | 低秩適應 (LoRA) 是一種流行的大型語言模型 (LLM) 參數高效微調 (PEFT) 方法。在本文中,我們分析了 LoRA 中實現的低秩更新的影響。我們的研究結果表明,低等級更新機制可能會限制法學碩士有效學習和記憶新知識的能力。受這項觀察的啟發,我們提出了一種名為 MoRA 的新方法,它採用方陣來實現高秩更新,同時保持相同數量的可訓練參數。為了實現這一點,我們引入對應的非參數運算子來減少方陣的輸入維度並增加輸出維度。此外,這些算子確保權重可以合併回 LLM,這使得我們的方法可以像 LoRA 一樣部署。我們對五項任務的方法進行了全面評估:指令調整、數學推理、持續預訓練、記憶和預訓練。我們的方法在記憶體密集型任務上優於 LoRA,並在其他任務上實現了相當大的效能。我們的程式碼將在 https://github.com/kongds/MoRA 上提供。 | PEFT 方法、微調 |
2024 年 5 月 19 日 | 你的變壓器是秘密線性的 | 本文揭示了 Transformer 解碼器獨有的新穎線性特性,包括 GPT、LLaMA、OPT、BLOOM 等模型。我們分析了連續層之間的嵌入變換,發現了近乎完美的線性關係(Procrustes 相似度得分為 0.99)。然而,當殘餘成分被移除時,由於變壓器層的輸出範數始終較低,因此線性度會降低。我們的實驗表明,刪除或線性近似一些最線性的變壓器區塊不會顯著影響損耗或模型性能。此外,在我們對較小模型的預訓練實驗中,我們引入了基於餘弦相似度的正則化,旨在降低層線性度。這種正則化提高了 Tiny Stories 和 SuperGLUE 等基準測試的效能指標,並成功降低了模型的線性度。這項研究挑戰了對變壓器架構的現有理解,表明它們的運作可能比先前假設的更加線性。 | 變壓器分析 |
2024 年 5 月 18 日 | 透過建構和重用 LoRA 庫邁向模組化法學碩士 | 基礎大語言模型 (LLM) 的參數高效適應數量不斷增加,需要研究我們是否可以重複使用此類訓練有素的適配器來提高新任務的效能。我們研究如何在給定多任務資料的情況下最好地建立適配器庫,並透過在此類庫中進行路由來設計零樣本和監督任務泛化的技術。我們對建構該庫的現有方法進行基準測試,並引入基於模型的聚類(MBC),這是一種根據適配器參數的相似性對任務進行分組的方法,從而間接優化跨多任務資料集的傳輸。為了重複使用該函式庫,我們提出了一種新穎的零樣本路由機制 Arrow,它可以為新輸入動態選擇最相關的適配器,而無需重新訓練。我們使用 Phi-2 和 Mistral 等多個 LLM 在一系列廣泛的保留任務上進行實驗,驗證基於 MBC 的適配器和 Arrow 路由能夠對新任務產生出色的泛化能力。我們採取措施創建模組化、適應性強的法學碩士,可以匹配或超越傳統的聯合培訓。 | PEFT 方法、微調、工具包 |
2024 年 5 月 16 日 | Chameleon:混合模態早期融合基礎模型 | 我們提出了 Chameleon,這是一系列基於早期融合令牌的混合模式模型,能夠理解和產生任意序列的圖像和文字。我們從一開始就概述了穩定的訓練方法、對齊方法以及為早期融合、基於令牌的混合模式設定量身定制的架構參數化。這些模型在一系列全面的任務上進行評估,包括視覺問答、圖像字幕、文字生成、圖像生成和長格式混合模態生成。 Chameleon 展示了廣泛而通用的功能,包括在圖像字幕任務中最先進的性能,在純文字任務中優於 Llama-2,同時與 Mixtral 8x7B 和 Gemini-Pro 等模型競爭,並執行非平凡的圖像一代,全部在一個模型中。根據人類對新的長形式混合模式生成評估的判斷,它還匹配或超過了更大模型(包括 Gemini Pro 和 GPT-4V)的性能,其中提示或輸出包含圖像和文本的混合序列。 Chameleon 標誌著完整多模式文件的統一建模向前邁出了重要一步。 | 多模態模型、基礎模型 |
2024 年 5 月 16 日 | 多模態基礎模型中的多鏡頭情境學習 | 眾所周知,大型語言模型在小樣本情境學習(ICL)方面非常有效。多模態基礎模型的最新進展實現了前所未有的長上下文窗口,為探索其執行 ICL 的能力提供了機會,並提供了更多演示範例。在這項工作中,我們評估了從少鏡頭到多鏡頭 ICL 的多模態基礎模型的性能。我們在跨越多個領域(自然影像、醫學影像、遙感和分子影像)和任務(多類、多標籤和細粒度分類)的 10 個資料集上對 GPT-4o 和 Gemini 1.5 Pro 進行基準測試。我們觀察到,在所有資料集中,與少樣本(<100 個樣本)ICL 相比,多樣本 ICL(包括多達近 2,000 個多模態演示範例)帶來了顯著改進。此外,Gemini 1.5 Pro 的效能繼續以對數線性方式提高,直到許多資料集上測試範例的最大數量。考慮到與多次 ICL 所需的長提示相關的高推理成本,我們也探討了在單一 API 呼叫中批次處理多個查詢的影響。我們表明,批次最多 50 個查詢可以在零樣本和多樣本 ICL 下提高效能,在多個資料集上的零樣本設定中獲得顯著收益,同時大幅降低每個查詢的成本和延遲。最後,我們測量模型的 ICL 資料效率,或模型從更多演示範例中學習的速率。我們發現,雖然 GPT-4o 和 Gemini 1.5 Pro 在整個資料集上實現了相似的零樣本效能,但 Gemini 1.5 Pro 在大多數資料集上表現出比 GPT-4o 更高的 ICL 資料效率。我們的結果表明,多次 ICL 可以使用戶有效地將多模態基礎模型適應新的應用和領域。我們的程式碼庫可在 https://github.com/stanfordmlgroup/ManyICL 上公開取得。 | ICL,多模式模型 |
2024 年 5 月 15 日 | LoRA 學到的東西更少,忘記的東西也更少 | 低秩適應(LoRA)是一種廣泛用於大型語言模型的參數高效微調方法。 LoRA 透過僅訓練對選定權重矩陣的低秩擾動來節省記憶體。在這項工作中,我們比較了 LoRA 和完全微調在兩個目標領域(程式設計和數學)上的表現。我們考慮指令微調(約 100K 提示反應對)和持續預訓練(約 10B 非結構化標記)資料機制。我們的結果表明,在大多數設定中,LoRA 的性能明顯低於完全微調。儘管如此,LoRA 展現了一種理想的正則化形式:它更好地保持了基礎模型在目標域之外的任務上的表現。我們表明,與諸如體重衰減和輟學之類的常見技術相比,洛拉提供了更強的正則化。它還有助於維持更多的世代。我們表明,完整的芬太尼學習擾動的等級比典型的洛拉配置要大10-100倍,這可能解釋了一些報告的差距。我們以提出與洛拉(Lora)進行填補的最佳實踐來結束。 | PEFT方法,微調 |
2024 年 5 月 14 日 | 了解線上和離線對齊演算法之間的效能差距 | 從人類回饋(RLHF)中學習的強化是大型語言模型對齊的規範框架。但是,離線對齊演算法的普及性降低了RLHF中的policy採樣的需求。在獎勵過度優化的背景下,我們從開放的實驗集開始,這些實驗證明了線上方法比離線方法的明顯優勢。這促使我們透過一系列精心設計的實驗消融研究了性能差異的原因。我們從經驗上表明,諸如離線資料覆蓋率和資料品質之類的假設本身無法令人信服地解釋效能差異。我們還發現,雖然離線演算法訓練政策以變得擅長成對分類,但幾代人都更糟。同時,透過線上演算法培訓的政策在幾代人方面都很好,而在成對分類時則更糟。這暗示了判別和生成能力之間的獨特交互作用,這受到採樣過程的極大影響。最後,我們觀察到,對比度和非對抗性損失函數的效能差異持續存在,並且似乎透過簡單地擴大策略網路而無法解決。綜上所述,我們的研究闡明了policy採樣在AI對齊中的關鍵作用,並暗示了離線比對演算法的某些基本挑戰。 | 結盟 |
2024 年 5 月 13 日 | RLHF工作流程:從獎勵建模到線上RLHF | 我們在這份技術報告中介紹了從人類回饋(RLHF)中學習的線上迭代增強學習的工作流程,該報告被廣泛報道,在最近的大型語言模型(LLM)文獻中,它的大幅度優於其離線範圍。但是,現有的開源RLHF專案仍主要限於離線學習設定。在這份技術報告中,我們旨在填補這一空白,並提供易於複製的詳細食譜,用於線上迭代RLHF。特別是,由於線上人類回饋通常對於資源有限的開源社群來說是不可行的,因此我們首先使用一組開源資料集來建立偏好模型,並使用建構的替代偏好模型來近似人類的回饋。然後,我們討論線上迭代RLHF背後的理論見解和演算法原則,然後進行詳細的實際實作。我們訓練有素的LLM SFR-DPO-LALAMA-3-8B-R在LLM ChatBot基準中取得了令人印象深刻的表現,包括Alpacaeval-2,Arena-Hard和MT Bench,以及其他學術基準,例如Humaneval和Humaneval和Humaneval和真實。我們已經證明,有監督的微調(SFT)和迭代RLHF可以透過完全開源資料集獲得最先進的效能。此外,我們製作了模型,策劃的資料集和全面的逐步程式碼指南。請參閱https://github.com/rlhflow/rlhf-reward-modeling和https://github.com/rlhflow/online-rlhf,以獲取更多詳細資訊。 | 偏好優化,RLHF |
2024 年 5 月 2 日 | PROMETHEUS 2:專門用於評估其他語言模型的開源語言模型 | 專有的LMS(例如GPT-4)通常被用來評估來自各種LMS的反應品質。但是,包括透明度,可控性和可負擔性在內的擔憂強烈激發了專門從事評估的Opensource LMS的發展。另一方面,現有的開放式評估員LMS表現出重要的缺點:1)它們發出的分數與人類分配的分數顯著不同,2)他們缺乏執行直接評估和成對排名的靈活性,這是兩種最普遍的評估形式。此外,他們沒有根據自訂評估標準進行評估的能力,而是專注於有用和無害性等一般屬性。為了解決這些問題,我們介紹了Prometheus 2,這是一種比前任更強大的評估者LM,它密切反映了人類和GPT-4的判斷。此外,它能夠處理與用戶定義的評估標準分組的直接評估和配對排名格式。在四個直接評估基準和四個成對排名的基準上,Prometheus 2在所有經過測試的開放評估者LMS中,與人類和專有LM法官的相關性和一致性最高。我們的模型,程式碼和資料均可公開使用1。 | 評估,代理 |
2024 年 5 月 2 日 | Wildchat:1M Chatgpt互動日誌 | GPT-4 和 ChatGPT 等聊天機器人現在正在為數百萬用戶提供服務。儘管它們被廣泛使用,但仍缺乏公共資料集來展示這些工具在實踐中如何被使用者群體使用。為了彌補這一差距,我們為線上用戶提供了免費存取 ChatGPT 的機會,以換取他們肯定、同意的選擇,以匿名方式收集他們的聊天記錄和請求標頭。由此,我們彙編了Wildchat,這是一個由100萬用戶聊天對話的語料庫,其中包括超過250萬的互動轉彎。我們將Wildchat與其他流行的用戶- chatbot交互數據集進行了比較,並發現我們的數據集提供了最多樣化的用戶提示,其中包含最多的語言,並提供了最豐富的潛在有毒用例,供研究人員研究。除了帶有時間戳記的聊天記錄之外,我們還使用人口統計資料豐富了資料集,包括州、國家/地區和雜湊 IP 位址以及請求標頭。這種增強可以對不同地理區域和時間維度的使用者行為進行更詳細的分析。最後,由於它捕捉了廣泛的用例,我們展示了該資料集在微調指令追蹤模型方面的潛在效用。 Wildchat根據AI2 Impact許可證在https://wildchat.allen.ai上發布。 | 基準,評估 |
2024 年 5 月 2 日 | 故事散文:長期圖像和視頻生成的一致自我注意 | 對於最新的基於擴散的生成模型,在一系列生成的圖像中保持一致的內容,尤其是包含受試者和複雜細節的圖像,這是一個重大挑戰。在本文中,我們提出了一種新的自我注意計算方式,稱為一致的自我注意力,可以顯著提高生成的圖像和增強以零拍的方式增強基於預處理的基於擴散的文本對圖像模型。為了將我們的方法擴展到遠端視訊生成,我們進一步介紹了一個新型的語義空間時間運動預測模組,稱為語義運動預測指標。經過訓練,可以估計語義空間中兩個提供的圖像之間的運動條件。該模組將生成的圖像序列轉換為具有平滑過渡和一致主題的視頻,這些視頻比僅基於潛在空間的模組要穩定得多,尤其是在長視頻生成的背景下。透過合併這兩個新穎的組成部分,我們的框架(稱為故事散文)可以描述一個基於文字的故事,其中包含各種內容的圖像或影片。建議的故事散文包含圖像和影片的呈現,涵蓋了視覺故事生成中的開創性探索,我們希望這可以從建築修改方面激發更多的研究。 | 多模型模型,擴散 |
2024 年 5 月 2 日 | 火焰:大語言模型的事實意識到的一致性 | 對齊方式是微調預訓練的大語言模型(LLMS)的標準程序,以遵循自然語言說明並作為有用的AI助理。但是,我們觀察到,常規的一致過程無法提高LLM的事實準確性,並且通常會導致產生更多的虛假事實(即幻覺)。在本文中,我們透過首先確定導致兩個對齊步驟的幻覺的因素來研究如何使LLM對齊過程更加事實:受監督的微調(SFT)和加固學習(RL)。特別是,我們發現訓練LLM關於新知識或陌生文本可以鼓勵幻覺。這使得SFT在可能是新穎的LLM的人類標記的數據上訓練的事實。此外,標準RL中使用的獎勵功能也可以鼓勵幻覺,因為它指導LLM對各種說明提供更有幫助的回應,通常更喜歡更長,更詳細的回應。基於這些觀察結果,我們提出了透過直接偏好優化的事實感知的SFT和事實感知的RL組成的事實意識對準(火焰)。實驗表明,我們提出的事實意識的一致性指導LLMS在保持指導跟隨能力的同時輸出更多的事實響應 | 一致性,事實 |
2024 年 5 月 2 日 | NeMo-Aligner:用於高效能模型對齊的可擴展工具包 | 將大型語言模型(LLM)與人類價值和偏好保持一致,對於使其有用和安全至關重要。但是,建立有效的執行對齊方式的工具可能具有挑戰性,尤其是對於通常包含數萬美元或數千億個參數的最大和最有能力的LLM。我們創建了Nemo-Aligner,這是一個用於模型對齊的工具包,可以有效地擴展使用數百個GPU進行訓練。 Nemo-Aligner具有高度優化和可擴展的實現模型對齊範式的實現,例如:從人類反饋中學習(RLHF),直接偏好優化(DPO),Steerlm和自我播放微調(Spin)。此外,我們的工具包還支援在參數有效微調(PEFT)設定中運行大多數對齊技術。 Nemo-Aligner設計用於可擴展性,以最少的精力為其他對準技術提供支援。它是透過Apache 2.0許可證開源的,我們在https://github.com/nvidia/nemo-aligner上邀請社區捐款。 | 對齊,工具包 |
2024 年 5 月 1 日 | 更大的編輯批量尺寸總是更好嗎? - 一項關於Llama-3模型編輯的實證研究 | 這項研究提出了針對性的模型編輯分析,該分析的重點是最新的大語言模型Llama-3。我們探討了流行模型編輯技術的功效 - 羅馬,MEMIT和EMMET,這些技術專為精確的層幹預而設計。我們透過評估來確定針對目標編輯的最有效層,該評估包含三種不同策略的4096個編輯:順序編輯,批次編輯以及我們稱為順序批次編輯的混合方法。我們的發現表明,增加的編輯批量尺寸可能比順序使用較小的編輯批量進行相等數量的編輯,更明顯地降低了模型性能。這樣一來,我們認為順序模型編輯是縮放模型編輯方法的重要組成部分,未來的研究應集中在結合批次和順序編輯的方法上。該觀察結果表明,在當前模型編輯方法中有一個潛在的限制,該方法推向了更大的編輯批量尺寸,我們希望它為未來的調查鋪平道路,以優化批次尺寸和模型編輯性能。 | 模型編輯 |
2024 年 5 月 1 日 | Lora Land:310微型LLM,可與GPT-4匹配,技術報告 | 低階適應性(LORA)已成為大型語言模型(LLMS)的參數有效微調(PEFT)的最廣泛採用的方法之一。洛拉(Lora)減少了可訓練的參數和記憶體使用量的數量,同時達到了與完整微調的可比較能。我們旨在評估在現實世界應用中對Lora進行微調的培訓和LLMS的生存能力。首先,我們在10個基本模型中以量化的低階適配器和31個任務的LLMS品質進行了微調的質量,總計310個模型。我們發現,4位Lora微型模型平均比基本模型平均優於34點,而GPT-4乘以10點。其次,我們研究了微調的最有效的基礎模型,並評估任務複雜性啟發式方法的相關性和預測能力,以預測微調的結果。最後,我們評估了Lorax的潛伏期和並發功能,Lorax是一種開源多Lora推理伺服器,可利用使用共享的基本模型權重和動態適配器載入來促進單一GPU上多個Lora微縮模型的部署。 Lorax Powers Lora Land,這是一個Web應用程序,可在單一NVIDIA A100 GPU上託管25個Lora微調Mistral-7B LLM,具有80GB記憶體。 Lora Land強調了在單一通用LLM上使用多個專業LLM的品質和成本效益。 | PEFT方法,微調 |
加入1000多名學生參加這項為期10週的冒險,當我們深入研究LLM在各種用例中的應用
?
?
?
?
?
?
?
?
?
?
?
Eth Zurich的大型語言模型
了解普林斯頓的大型語言模型
擁抱面的變壓器課程
NLP課程透過擁抱面
CS324-史丹佛的大型語言模型
Coursera的生成性AI具有大型語言模型
Coursera的生成AI簡介
Google Cloud的生成AI基礎知識
Google Cloud的大型語言模式簡介
Google Cloud 生成式 AI 簡介
Datacamp的生成AI概念(Daniel Tedesco Data Lead @ Google)
Weclouddata的1小時LLM(大語模型)簡介
LLM Foundation Models從頭開始| Databricks的底漆
Nvidia解釋的生成AI
Google Cloud的變壓器模式與BERT模型
AWS為決策者的生成AI學習計劃
Google Cloud負責人AI簡介
Microsoft Azure的生成AI的基礎
Microsoft的初學者的生成AI
初學者的chatgpt:udemy的每個人的最終用例
[1小時談話] Andrej Karpathy的大型語言模式介紹
透過學習提示來為每個人聊天
大型語言模型(LLMS)(英語)撰寫的Kshitiz Verma(JK Lakshmipat University,印度齋浦爾)
LLMOPS:使用大語言模型建立現實世界應用程式
FSDL完整堆疊LLM訓練營
Microsoft的初學者的生成AI
大型語言模型:透過Databricks透過生產應用
AWS產生的AI基礎
Ineuron的生成AI社群課程簡介
LLM University by Cohere
LLM學習實驗室透過閃電AI
透過DeepLearning.AI進行llm llm應用程式開發的Langchain
llmops by deeplearning.ai
透過DeepLearning.AI自動測試LLMOP
使用AWS的Amazon Bedrock建造生成的AI應用
透過深度學習有效地服務LLM
透過DeepLearning.AI與Chatgpt API建造系統
無服務的LLM應用程式與Amazon Bedrock透過DeepLearning.AI
透過DeepLearning.AI透過向量資料庫建立應用程式
透過DeepLearning.AI自動測試LLMOP
llmops by deeplearning.ai
用langchain.js建立LLM應用程式
透過DeepLearning.AI進行AI的高階檢索
透過Coursera在Azure上操作LLMS
產生AI完整課程 - Gemini Pro,Openai,Llama,Langchain,Pinecone,Vector Databases等
Activeloop培訓和微調LLM生產的LLM
langchain&向量資料庫生產中的Activeloop
透過深度學習從人類回饋中學習的強化。
透過DeepLearning.AI透過向量資料庫建立應用程式
透過DeepLearning.AI填補大型語言模型
Langchain:透過DeepLearning.AI與您的資料聊天
透過DeepLearning.AI與Chatgpt API建造系統
透過DeepLearning.AI與Llama 2的及時工程
透過DeepLearning.AI透過向量資料庫建立應用程式
CHATGPT提示開發人員的工程deeplearning.ai
LlamainDex的高級RAG編排系列
Coursera的及時工程專業
使用NVIDIA的檢索增強產生來增強您的LLM
透過DeepLearning.AI的抹布知識圖
帶有深度學習的擁抱臉的開源模型
向量資料庫:從嵌入到應用程式。
透過深度學習來理解和應用文本嵌入。
JavaScript RAG Web應用程式附帶llamaindex by DeepLearning.ai
量化基本面,透過深度學習。
透過DeepLearning.AI為LLM應用程式的非結構化資料進行預處理
透過langchain&llamaindex的Activeloop檢索增強發電
深度學習深度量化
如果您想新增至儲存庫或發現任何問題,請隨時提出PR並確保在相關部分或類別中正確放置。
若要引用本指南,請使用以下格式:
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[MIT許可證]