生成式人工智慧正在快速發展,這個儲存庫是生成式人工智慧研究、訪談資料、筆記本等更新的綜合中心!
探索以下資源:
我們將定期更新此存儲庫,因此請留意最新的添加內容!
快樂學習!
*每月月底更新
日期 | 標題 | 抽象的 |
---|---|---|
2024 年 9 月 30 日 | MM1.5:多模式法學碩士微調的方法、分析與見解 | 我們推出了 MM1.5,這是一個新的多模態大語言模型 (MLLM) 系列,旨在增強豐富文字圖像理解、視覺參考和基礎以及多圖像推理的能力。 MM1.5 基於 MM1 架構,採用以資料為中心的模型訓練方法,系統地探索不同資料混合在整個模型訓練生命週期中的影響。這包括用於持續預訓練的高品質 OCR 資料和合成字幕,以及用於監督微調的優化視覺指令調整資料混合。我們的模型範圍從 1B 到 30B 參數,涵蓋密集和專家混合 (MoE) 變體,並證明即使在小規模(1B 和 3B)下,仔細的資料管理和訓練策略也可以產生強大的效能。此外,我們還引入了兩個專門的變體:MM1.5-Video(專為視訊理解而設計)和 MM1.5-UI(專為行動 UI 理解而設計)。透過廣泛的實證研究和消融,我們提供了對訓練過程和決策的詳細見解,為我們的最終設計提供了信息,為 MLLM 開發的未來研究提供了寶貴的指導。 |
2024 年 9 月 26 日 | MIO:多模式代幣的基礎模型 | 在本文中,我們介紹了 MIO,這是一種基於多模態令牌構建的新型基礎模型,能夠以端到端、自回歸的方式理解和生成語音、文字、圖像和視訊。雖然大語言模型(LLM)和多模態大語言模型(MM-LLM)的出現透過其多功能能力推動了通用人工智慧的進步,但它們仍然缺乏真正的任意理解和生成。最近,GPT-4o 的發布展示了any-to-any LLM 在複雜的現實世界任務中的巨大潛力,實現了圖像、語音和文字的全方位輸入和輸出。然而,它是閉源的,不支援多模態交錯序列的生成。為了解決這一差距,我們提出了 MIO,它使用因果多模態建模對跨四種模態的離散標記的混合進行訓練。 MIO 經歷了四個階段的訓練過程:(1) 對齊預訓練,(2) 交錯預訓練,(3) 語音增強預訓練,(4) 對各種文本、視覺、圖像等進行全面監督微調。演講任務。我們的實驗結果表明,與先前的雙模態基線、任意模型基線、甚至特定模態基線相比,MIO 表現出有競爭力的、在某些情況下更優越的性能。此外,MIO 展示了其任意功能固有的高級功能,例如交錯視訊文字生成、視覺思維鏈推理、視覺指南生成、教學圖像編輯等。 |
2024 年 9 月 26 日 | MaskLLM:大型語言模型的可學習半結構化稀疏性 | 大型語言模型 (LLM) 的特徵是參數數量龐大,這通常會導致大量冗餘。這項工作引入了 MaskLLM,這是一種可學習的修剪方法,可在 LLM 中建立半結構化(或「N:M」)稀疏性,旨在減少推理過程中的計算開銷。 MaskLLM 並沒有開發新的重要性標準,而是透過 Gumbel Softmax 取樣將 N:M 模式明確建模為可學習的分佈。這種方法有利於大規模資料集的端到端訓練,並提供兩個顯著的優勢:1)高品質掩模-我們的方法有效地擴展到大型資料集並學習準確的掩模; 2) 可遷移性-掩模分佈的機率建模使得稀疏性跨域或任務的遷移學習成為可能。我們在各種LLM(包括LLaMA-2、Nemotron-4 和GPT-3)上使用2:4 稀疏度評估MaskLLM,參數大小範圍從843M 到15B,我們的實證結果顯示比最先進的技術有顯著改進方法。例如,與密集模型的5.12 PPL 相比,領先方法在Wikitext 上實現了10 或更高的困惑度(PPL),但MaskLLM 僅透過學習具有凍結權重的掩模即可實現顯著較低的6.72 PPL 。此外,MaskLLM 的可學習性質允許自訂掩模,以將 2:4 稀疏性無損應用到下游任務或領域。程式碼可在 url{https://github.com/NVlabs/MaskLLM} 取得。 |
2024 年 9 月 25 日 | Molmo 和 PixMo:最先進的多模式模型的開放權重和開放數據 | 當今最先進的多式聯運模型仍然是專有的。最強大的開放權重模型在很大程度上依賴專有 VLM 的合成資料來實現良好的性能,從而有效地將這些封閉模型提煉為開放模型。因此,社群仍然缺乏有關如何從頭開始建立高效能 VLM 的基礎知識。我們推出 Molmo,這是一個新的 VLM 系列,在開放性方面是最先進的。我們的關鍵創新是一個新穎的、高度詳細的圖像標題資料集,該資料集完全從使用基於語音的描述的人類註釋者那裡收集。為了實現廣泛的用戶交互,我們還引入了用於微調的多樣化數據集混合物,其中包括野外問答和創新的 2D 指向數據。我們方法的成功取決於對模型架構細節的仔細選擇、精心調整的訓練管道,以及最關鍵的是我們新收集的資料集的質量,所有這些都將被發布。 Molmo 系列中一流的 72B 模型不僅在開放權重和資料模型類別中優於其他模型,而且在學術基準和人類評估方面也優於 GPT-4o、Claude 3.5 和 Gemini 1.5 等專有系統。我們將在不久的將來發布所有模型權重、字幕和微調資料以及原始程式碼。選擇模型權重、推理程式碼和演示可在 https://molmo.allenai.org 上取得。 |
2024 年 9 月 25 日 | VPTQ:大型語言模型的極低位向量訓練後量化 | 擴展模型大小對大型語言模型 (LLM) 的部署和推理提出了巨大挑戰。由於 LLM 權重的冗餘,最近的研究重點是將僅權重量化推向極低位(甚至低至 2 位)。它降低了記憶體需求,優化了儲存成本,並降低了推理過程中的記憶體頻寬需求。然而,由於數值表示的限制,傳統的基於標量的權重量化很難實現如此極端的低點。最近針對法學碩士的向量量化 (VQ) 的研究證明了透過使用查找表將向量壓縮為索引來實現極低位模型量化的潛力。在本文中,我們介紹了用於 LLM 極低位量化的向量訓練後量化 (VPTQ)。我們使用二階最佳化來製定LLM VQ問題,並透過求解最佳化來指導我們的量化演算法設計。我們使用與通道無關的二階最佳化來進一步細化權重,以實現粒度 VQ。此外,透過分解最佳化問題,我們提出了一個簡單有效的碼本初始化演算法。我們還擴展了 VPTQ 以支援殘差和異常值量化,從而提高了模型精度並進一步壓縮了模型。我們的實驗結果表明,VPTQ 透過以下方式降低了模型量化困惑: |
2024 年 9 月 24 日 | Time-MoE:由專家組成的十億級時間序列基礎模型 | 過去幾十年來,時間序列預測的深度學習取得了重大進展。然而,儘管大規模預訓練在語言和視覺領域取得了成功,但預訓練時間序列模型的規模仍然有限,並且運行成本很高,阻礙了在現實應用中開發更強大的預測模型。為此,我們引入了 Time-MoE,這是一種可擴展且統一的架構,旨在預先訓練更大、能力更強的預測基礎模型,同時降低推理成本。透過利用稀疏專家混合 (MoE) 設計,Time-MoE 透過僅激活每個預測的網路子集來提高運算效率,從而在保持高模型容量的同時減少計算負載。這使得 Time-MoE 能夠有效地擴展,而不會相應增加推理成本。 Time-MoE 包含一系列僅解碼器變壓器模型,這些模型以自回歸方式運行,並支援具有不同輸入上下文長度的靈活預測範圍。我們在新推出的大規模資料 Time-300B 上對這些模型進行了預訓練,該資料跨越 9 個領域,涵蓋超過 3000 億個時間點。我們首次將時間序列基礎模型擴展至 24 億個參數,顯著提高了預測精度。我們的結果驗證了時間序列預測背景下訓練標記和模型大小的縮放法則的適用性。與具有相同數量的激活參數或等效計算預算的密集模型相比,我們的模型始終大幅優於它們。這些進步使 Time-MoE 成為最先進的解決方案,能夠以卓越的功能、效率和靈活性來應對現實世界的時間序列預測挑戰。 |
2024 年 9 月 23 日 | o1在醫學上的初步研究:我們離人工智慧醫師更近了嗎? | 大型語言模型(LLM)在各個領域和任務中展現了卓越的能力,突破了我們在學習和認知方面的知識界限。最新模型 OpenAI 的 o1 是第一個採用強化學習策略的內化思維鏈技術的法學碩士。雖然它在各種通用語言任務上表現出了驚人的強大能力,但它在醫學等專業領域的表現仍然未知。為此,本報告對o1在不同醫療場景下進行了全面的探索,檢視了理解、推理和多語言能力3個關鍵面向。具體來說,我們的評估涵蓋6 個任務,使用來自37 個醫學數據集的數據,其中包括兩個基於《新英格蘭醫學雜誌》(NEJM) 和《柳葉刀》的專業醫學測驗的新構建的更具挑戰性的問答(QA) 任務。與 MedQA 等標準醫學 QA 基準相比,這些數據集提供了更大的臨床相關性,可以更有效地轉化為現實世界的臨床實用性。我們對 o1 的分析表明,法學碩士推理能力的增強可能(顯著)有利於他們理解各種醫療指令並透過複雜的臨床場景進行推理的能力。值得注意的是,o1 在 19 個資料集和兩個新建立的複雜 QA 場景中的準確率平均超過了先前的 GPT-4 6.2% 和 6.6%。但同時,我們發現模型能力和現有評估協議都存在一些弱點,包括幻覺、多語言能力不一致以及評估指標不一致。我們在 https://ucsc-vlaa.github.io/o1_medicine/ 發布原始資料和模型輸出以供未來研究。 |
2024 年 9 月 21 日 | 不進行指令調整而遵循指令 | 指令調優通常意味著在指令-響應對上微調語言模型。我們發現兩種形式的適應(調整)與指令調整相比有缺陷,但仍產生指令跟隨;我們稱之為隱式指令調整。我們首先發現指令-響應對是不必要的:僅根據響應進行訓練,沒有任何相應的指令,會產生指令跟隨。這表明預訓練模型具有指令-響應映射,透過向模型教授所需的響應分佈來揭示該映射。然而,我們發現沒有必要教導所需的反應分佈:對詩歌等窄域資料的指令反應訓練仍然會導致廣泛的指令遵循行為,如食譜生成。特別是,當指令與窄微調域中的指令非常不同時,模型的反應不遵循微調域的風格。為了開始解釋隱式指令調整,我們假設對語言模型的分佈進行非常簡單的變更會產生指令跟隨。我們透過手寫一個基於規則的語言模型來支援這一點,該模型在具有預訓練模型的專家產品中產生指令。規則是慢慢增加結束序列的機率,懲罰重複,統一改變15個字的機率。總之,沒有被設計成產生指令遵循的調整可以隱式地這樣做。 |
2024 年 9 月 20 日 | 想像一下你自己:免調整個人化影像生成 | 擴散模型在各種影像到影像任務中表現出了顯著的功效。在這項研究中,我們引入了 Imagine myself,這是專為個人化影像生成而設計的最先進模型。與傳統的基於調整的個人化技術不同,想像自己作為免調整模型運行,使所有用戶能夠利用共享框架而無需進行個性化調整。此外,先前的工作遇到了平衡身分保留、遵循複雜提示和保持良好視覺品質的挑戰,導致模型具有強大的參考影像複製貼上效果。因此,他們很難根據需要對參考圖像進行重大改變(例如改變面部表情、頭部和身體姿勢)的提示來生成圖像,並且生成的圖像的多樣性很低。為了解決這些限制,我們提出的方法引入了1) 一種新的合成配對資料生成機制,以鼓勵圖像多樣性,2) 具有三個文字編碼器和一個完全可訓練的視覺編碼器的完全並行注意架構,以提高文字忠實度,以及3)新穎的從粗到細的多階段微調方法,逐漸突破視覺品質的界限。我們的研究表明,Imagine myself 超越了最先進的個人化模型,在身份保存、視覺品質和文字對齊方面展現出卓越的能力。該模型為各種個人化應用程式奠定了堅實的基礎。人類評估結果驗證了該模型與先前的個人化模型相比在各個方面(身份保存、文字忠實度和視覺吸引力)的 SOTA 優越性。 |
2024 年 9 月 19 日 | 透過強化學習訓練語言模型進行自我修正 | 自我修正是大型語言模型 (LLM) 非常理想的功能,但人們一直發現它在現代 LLM 中基本上無效。目前的自我校正訓練方法通常依賴多個模型、更高級的模型或其他形式的監督。為了解決這些缺點,我們開發了一種多輪線上強化學習(RL)方法 SCoRe,該方法使用完全自我生成的數據顯著提高了法學碩士的自我糾正能力。為了建立 SCoRe,我們首先證明離線模型產生的校正軌跡上的監督微調 (SFT) 的變體通常不足以灌輸自我校正行為。特別是,我們觀察到,透過SFT 進行的訓練要么會受到資料收集策略所犯錯誤與模型自身反應之間的分佈不匹配的影響,要么會導致行為崩潰,其中學習隱含地只傾向於某種糾正行為模式,而這種模式通常是無法有效地自我糾正測試問題。 SCoRe 透過在模型本身的自生成校正軌跡分佈下進行訓練,並使用適當的正則化來引導學習過程學習在測試時有效的自我校正行為,而不是針對給定的高獎勵響應來解決這些挑戰迅速的。此正規化過程包括在基礎模型上進行多輪強化學習的初始階段,以產生不易崩潰的策略初始化,然後使用獎勵獎金來放大自我修正。透過 Gemini 1.0 Pro 和 1.5 Flash 模型,我們發現 SCoRe 實現了最先進的自校正性能,在 MATH 和 HumanEval 上將基礎模型的自校正分別提高了 15.6% 和 9.1%。 |
2024 年 9 月 19 日 | 智慧擴展:透過小模型初始化加速大型語言模型預訓練 | 語言模型的預訓練階段通常從隨機初始化參數開始。根據目前縮放模型的趨勢,訓練大量參數可能非常緩慢且成本高。相較之下,小型語言模型的訓練成本較低,但它們往往無法達到大型模型的準確性。在本文中,我們探索了一個有趣的想法來連結這兩種不同的機制:我們能否發展一種使用較小的預訓練模型來初始化大型語言模型的方法?這樣的初始化會在訓練時間和最終精確度方面帶來任何好處嗎?在本文中,我們介紹了超克隆,這是一種可以將預訓練語言模型的參數擴展到具有增加的隱藏維度的更大模型的參數的方法。我們的方法確保較大的模型保留較小模型的功能。因此,在訓練開始之前,較大的模型已經繼承了較小模型的預測能力和準確性。我們證明,訓練這樣的初始化模型可以顯著節省預訓練大型語言模型所需的 GPU 時間。 |
2024 年 9 月 18 日 | Qwen2.5-Coder技術報告 | 在本報告中,我們介紹了Qwen2.5-Coder系列,這是對其前身CodeQwen1.5的重大升級。該系列包括兩個型號:Qwen2.5-Coder-1.5B和Qwen2.5-Coder-7B。作為特定於程式碼的模型,Qwen2.5-Coder 基於 Qwen2.5 架構構建,並繼續在超過 5.5 兆個代幣的龐大語料庫上進行預訓練。透過細緻的資料清理、可擴展的合成資料產生和平衡的資料混合,Qwen2.5-Coder 展示了令人印象深刻的程式碼產生功能,同時保留了通用性。該模型已在廣泛的程式碼相關任務上進行了評估,在 10 多個基準測試中實現了最先進 (SOTA) 的性能,包括程式碼生成、完成、推理和修復,始終優於大型模型相同型號尺寸。我們相信,Qwen2.5-Coder 系列的發布不僅將突破程式碼智慧研究的界限,而且透過其寬鬆的許可,鼓勵開發人員在實際應用中更廣泛地採用。 |
2024 年 9 月 18 日 | 法學碩士中長上下文擴展和泛化的對照研究 | 廣泛的文本理解和上下文學習需要利用完整文件上下文的語言模型。由於與直接訓練長上下文模型相關的實現挑戰,人們提出了許多方法來擴展模型以處理長上下文。然而,由於數據和模型類別的差異,比較這些方法一直具有挑戰性,導致如何評估長上下文性能以及它是否與標準評估不同存在不確定性。我們利用一致的基礎模型和擴展數據,透過標準化評估實現了擴展方法的受控協議。我們的研究對長情境行為產生了一些見解。首先,我們重申困惑度作為通用績效指標的關鍵作用,即使在較長情境的任務中也是如此。其次,我們發現目前的近似注意力方法在長上下文任務中系統性地表現不佳。最後,我們確認基於精確微調的方法在其擴展範圍內通常是有效的,而外推仍然具有挑戰性。所有程式碼庫、模型和檢查點都將開源,從而提高透明度並促進人工智慧開發這一關鍵領域的進一步研究。 |
2024 年 9 月 18 日 | LLM + Persona-Plug = 個人化 LLM | 個人化在許多語言任務和應用程式中起著至關重要的作用,因為具有相同需求的使用者可能會根據個人興趣更喜歡不同的輸出。這導致了各種個人化方法的發展,旨在適應大型語言模型(LLM)以產生符合使用者偏好的客製化輸出。其中一些涉及為每個用戶微調獨特的個人化LLM,這對於廣泛應用來說太昂貴。替代方法透過檢索使用者的相關歷史文字作為演示,以即插即用的方式引入個人化資訊。然而,這種基於檢索的策略可能會破壞使用者歷史的連續性,並且無法捕捉使用者的整體風格和模式,從而導致效能次優。為了因應這些挑戰,我們提出了一個新穎的個人化 LLM 模型,ours{}。它透過輕量級插件用戶嵌入器模組對每個人的所有歷史上下文進行建模,為每個人建立特定於用戶的嵌入。透過將這種嵌入附加到任務輸入中,法學碩士可以更好地理解和捕捉使用者習慣和偏好,從而產生更個人化的輸出,而無需調整自己的參數。對語言模型個人化 (LaMP) 基準中的各種任務進行的廣泛實驗表明,所提出的模型顯著優於現有的個人化 LLM 方法。 |
2024 年 9 月 17 日 | NVLM:開放前沿級多模式法學碩士 | 我們推出了NVLM 1.0,這是一系列前沿級多模態大語言模型(LLM),可在視覺語言任務上取得最先進的結果,可與領先的專有模型(例如GPT-4o)和開放獲取相媲美型號(例如 Llama 3-V 405B 和 InternVL 2)。值得注意的是,在多模式訓練後,NVLM 1.0 在其 LLM 主幹上顯示出改進的純文字表現。在模型設計方面,我們對僅解碼器的多模態 LLM(例如 LLaVA)和基於交叉注意力的模型(例如 Flamingo)進行了全面比較。基於這兩種方法的優點和缺點,我們提出了一種新穎的架構,可以提高訓練效率和多模態推理能力。此外,我們也為基於圖塊的動態高解析度影像引入了一維圖塊標記設計,這顯著提高了多模態推理和 OCR 相關任務的效能。關於訓練數據,我們精心策劃並提供有關多模式預訓練和監督微調資料集的詳細資訊。我們的研究結果表明,即使在所有架構的預訓練階段,資料集品質和任務多樣性也比規模更重要。值得注意的是,我們為 NVLM-1.0 模型開發了生產級多模態,使它們能夠在視覺語言任務中表現出色,同時與 LLM 主幹相比,保持甚至提高純文字效能。為了實現這一目標,我們精心製作了高品質的純文字資料集,並將其與大量多模態數學和推理資料一起整合到多模態訓練中,從而增強了跨模態的數學和編碼能力。為了推進該領域的研究,我們正在發布模型權重,並將為社群開源程式碼:https://nvlm-project.github.io/。 |
2024 年 9 月 17 日 | Promptriever:經過指令訓練的檢索器可以像語言模型一樣進行提示 | 指令調整語言模型 (LM) 能夠回應命令式指令,提供比基本模型更自然的使用者介面。在這項工作中,我們提出了 Promptriever,這是第一個能夠像 LM 一樣提示的檢索模型。為了訓練 Promptriever,我們策劃並發布了 MS MARCO 的新實例級指令訓練集,涵蓋近 50 萬個實例。 Promptriever 不僅在標準檢索任務上表現出色,還能遵循指令。我們觀察到:(1)遵循詳細的相關指令(FollowIR 上+14.3 p-MRR / +3.1 nDCG)獲得巨大收益(達到SoTA),(2)查詢+指令中詞彙選擇/措辭的魯棒性顯著提高(+12.9) InstructIR 上的 Robustness@10),以及 (3) 透過提示執行超參數搜尋的能力,以可靠地提高檢索效能(BEIR 平均提高 1.4)。 Promptriever 示範了可以透過每個查詢的提示來控制檢索模型,為未來將 LM 提示技術與資訊檢索結合的工作奠定基礎。 |
2024 年 9 月 17 日 | 量化指令調整大型語言模型的綜合評估:高達 405B 的實驗分析 | 先前的研究工作使用有限的指標(例如困惑度或一些基本知識任務和舊數據集)評估了量化的法學碩士。此外,最近的大型車型(例如高達 405B 的 Llama 3.1)尚未經過徹底檢查。本文評估了指令調整的 LLM 在 7B 到 405B 模型上跨各種量化方法(GPTQ、AWQ、SmoothQuant 和 FP8)的表現。我們使用 13 個基準來評估六種任務類型的表現:常識問答、知識和語言理解、指示遵循、幻覺檢測、數學和對話。我們的主要發現表明,(1) 將較大的 LLM 量化為與較小的 FP16 LLM 相似的大小,通常在大多數基準測試中表現更好,除了幻覺檢測和指令遵循之外; (2) 性能隨著量化方法、模型大小和位寬的不同而顯著變化,僅權重方法通常在較大模型中產生更好的結果; (3) 任務難度不會顯著影響量化所導致的精確度下降; (4) MT-Bench 評估方法對近期表現優異的法學碩士的歧視能力有限。 |
2024 年 9 月 16 日 | RetrievalAttention:透過向量檢索加速長上下文 LLM 推理 | 基於 Transformer 的大型語言模型 (LLM) 變得越來越重要。然而,由於注意力計算的二次時間複雜度,將 LLM 擴展到更長的上下文會導致極慢的推理延遲和用於快取鍵值 (KV) 向量的高 GPU 記憶體消耗。本文提出了 RetrievalAttention,這是一種無需訓練的方法,可以加速注意力計算並減少 GPU 記憶體消耗。透過利用注意力機制的動態稀疏性,RetrievalAttention提出對CPU記憶體中的KV向量使用近似最近鄰搜尋(ANNS)索引,並在生成過程中透過向量搜尋檢索最相關的向量。不幸的是,我們觀察到,由於注意力機制中查詢向量和關鍵向量之間存在分佈外(OOD),現成的 ANNS 索引對於此類檢索任務通常無效。 RetrievalAttention 透過設計一種能夠適應查詢向量分佈的注意力感知向量搜尋演算法來解決 OOD 挑戰。我們的評估表明,RetrievalAttention 只需要存取 1--3% 的數據,同時保持較高的模型準確性。這可以顯著降低長上下文 LLM 的推理成本,同時 GPU 記憶體佔用量也低得多。特別是,RetrievalAttention 只需要一個 NVIDIA RTX4090 (24GB) 即可在具有 8B 參數的 LLM 中提供 128K 令牌,能夠在 0.188 秒內產生一個令牌。 |
2024 年 9 月 16 日 | 柯爾莫哥洛夫-阿諾德變壓器 | Transformer 是現代深度學習的基石。傳統上,這些模型依賴多層感知器 (MLP) 層來混合通道之間的資訊。在本文中,我們介紹了柯爾莫哥洛夫-阿諾德變換器(KAT),這是一種以柯爾莫哥洛夫-阿諾德網路(KAN)層取代MLP 層的新穎架構,以增強模型的表達能力和性能。然而,將 KAN 整合到 Transformer 中並不是一件容易的事,尤其是在擴大規模時。具體來說,我們確定了三個關鍵挑戰:(C1)基礎功能。 KAN 中使用的標準 B 樣條函數並未針對現代硬體上的平行計算進行最佳化,導致推理速度較慢。 (C2) 參數和計算效率低。 KAN 需要每個輸入輸出對都有一個獨特的函數,這使得計算量非常大。 (C3)權重初始化。 KAN 中權重的初始化特別具有挑戰性,因為它們具有可學習的活化函數,這對於實現深度神經網路的收斂至關重要。為了克服上述挑戰,我們提出了三個關鍵解決方案:(S1)理性基礎。我們用有理函數取代 B 樣條函數,以提高與現代 GPU 的兼容性。透過在 CUDA 中實現這一點,我們實現了更快的計算。 (S2) KAN 組。我們透過一組神經元共享激活權重,以在不犧牲性能的情況下減少計算負載。 (S3) 保持變異數的初始化。我們仔細初始化激活權重,以確保跨層保持激活方差。透過這些設計,KAT 可以有效地進行擴展,並且性能輕鬆優於傳統的基於 MLP 的變壓器。 |
2024 年 9 月 16 日 | 論思維圖 | 我們引入了思維圖 (DoT),這是一個框架,它將大型語言模型 (LLM) 中的迭代推理建模為在單一模型中建立有向無環圖 (DAG)。與將推理表示為線性鍊或樹的傳統方法不同,DoT 將命題、批評、改進和驗證組織成內聚的 DAG 結構,使模型能夠探索複雜的推理路徑,同時保持邏輯一致性。圖中的每個節點對應一個已被提出、批評、完善或驗證的命題,使法學碩士能夠透過自然語言回饋迭代地改進其推理。透過利用自動回歸下一個令牌預測和特定於角色的令牌,DoT 促進提出想法和批判性評估它們之間的無縫過渡,提供比二進位訊號更豐富的回饋。此外,我們使用拓樸理論形式化了 DoT 框架,提供了確保推理過程中邏輯一致性和健全性的數學基礎。這種方法增強了單一法學碩士內的訓練和推理過程,消除了對多個模型或外部控制機制的需求。 DoT 為設計下一代推理專用模型提供了概念框架,強調訓練效率、強大的推理能力和理論基礎。程式碼可在 https://github.com/diagram-of-thought/diagram-of-thought 取得。 |
2024 年 9 月 12 日 | DSBench:資料科學代理距離成為資料科學專家還有多遠? | 大型語言模型(LLM)和大型視覺語言模型(LVLM)已經展示了令人印象深刻的語言/視覺推理能力,點燃了為購物助理或人工智慧軟體工程師等目標應用程式建立代理的最新趨勢。最近,人們提出了許多數據科學基準來研究它們在數據科學領域的表現。然而,由於設定的簡化,現有的數據科學基準與現實世界的數據科學應用程式相比仍然存在不足之處。為了彌補這一差距,我們引入了 DSBench,這是一個綜合基準測試,旨在評估具有實際任務的資料科學代理。該基準包括 466 個資料分析任務和 74 個資料建模任務,這些任務來自 Eloquence 和 Kaggle 競賽。 DSBench 透過包含長上下文、多模式任務背景、使用大型資料檔案和多表結構進行推理以及執行端到端資料建模任務來提供真實的設定。我們對最先進的LLM、LVLM 和代理的評估表明,他們在大多數任務上都遇到困難,最好的代理只能解決34.12% 的數據分析任務,並實現34.74% 的相對性能差距(RPG) 。這些發現強調需要進一步開發更實用、更聰明、更自主的數據科學代理。 |
2024 年 9 月 10 日 | PingPong:具有使用者模擬和多模型評估功能的角色扮演語言模型基準 | 我們引入了一個新的基準來評估語言模型的角色扮演能力。我們的方法利用語言模型本身來模擬動態、多輪對話中的用戶,並評估由此產生的對話。此框架由三個主要組件組成:假設特定角色角色的玩家模型、模擬使用者行為的詢問器模型、評估對話品質的判斷模型。我們進行了實驗,將自動評估與人工註釋進行比較,以驗證我們的方法,證明了多個標準之間的強相關性。這項工作為互動式場景中模型功能的穩健和動態評估奠定了基礎。 |
2024 年 9 月 10 日 | LLaMA-Omni:與大型語言模型的無縫語音交互 | GPT-4o 等模型可以透過語音與大型語言模型 (LLM) 進行即時交互,與傳統的基於文字的交互相比,顯著增強了使用者體驗。然而,如何基於開源LLM建立語音互動模型仍缺乏探索。為了解決這個問題,我們提出了 LLaMA-Omni,這是一種新穎的模型架構,旨在與 LLM 進行低延遲和高品質的語音互動。 LLaMA-Omni 整合了預訓練語音編碼器、語音適配器、LLM 和串流語音解碼器。它消除了語音轉錄的需要,並且可以直接從語音指令以極低的延遲同時產生文字和語音回應。我們基於最新的 Llama-3.1-8B-Instruct 模型建立模型。為了讓模型與語音互動場景保持一致,我們建立了一個名為 InstructS2S-200K 的資料集,其中包括 200K 語音指令和對應的語音回應。實驗結果表明,與先前的語音語言模型相比,LLaMA-Omni 在內容和風格上都提供了更好的反應,反應延遲低至 226ms。此外,在 4 個 GPU 上訓練 LLaMA-Omni 只需要不到 3 天的時間,為未來語音語言模型的高效開發鋪平了道路。 |
2024 年 9 月 10 日 | 大型語言模型能否解鎖新穎的科學研究想法? | 「一個想法只不過是舊元素的新組合」(Young,JW)。大型語言模型 (LLM) 和公開可用的 ChatGPT 的廣泛採用標誌著人工智慧 (AI) 融入人們日常生活的重大轉折點。本研究探討了法學碩士根據研究論文資訊產生新穎研究想法的能力。我們對五個領域(例如化學、電腦、經濟學、醫學和物理)的 4 個法學碩士進行徹底審查。我們發現Claude-2和GPT-4所產生的未來研究想法比GPT-3.5和Gemini更符合作者的觀點。我們也發現,Claude-2 比 GPT-4、GPT-3.5 和 Gemini 1.0 產生了更多樣化的未來研究想法。我們進一步對所產生的未來研究想法的新穎性、相關性和可行性進行了人工評估。這項調查深入了解了法學碩士在創意生成中不斷變化的作用,強調了其能力和局限性。我們的工作有助於評估和利用語言模型來產生未來的研究想法。我們公開我們的資料集和代碼。 |
2024 年 9 月 9 日 | SongCreator:基於歌詞的通用歌曲生成 | 音樂是人類文化的重要組成部分,體現著人類的智慧和創造力,歌曲是其中的重要組成部分。雖然先前的作品已經探索了歌曲生成的各個方面,例如歌唱聲音、聲樂創作和樂器編曲等,但根據歌詞生成人聲和伴奏的歌曲仍然是一個重大挑戰,阻礙了音樂生成模型在音樂生成中的應用。有鑑於此,我們提出了 SongCreator,這是一個旨在應對這項挑戰的歌曲生成系統。該模型具有兩個新穎的設計:精心設計的雙序列語言模型(DSLM),用於捕捉歌曲生成的人聲和伴奏信息;以及用於DSLM 的附加註意掩模策略,使我們的模型能夠理解、產生和編輯歌曲,使其適用於各種與歌曲相關的生成任務。大量實驗透過在所有八項任務上實現最先進的或有競爭力的表現來證明 SongCreator 的有效性。值得注意的是,它在歌詞到歌曲和歌詞到人聲方面都大幅超越了以前的作品。此外,它還能夠透過不同的提示獨立控制生成歌曲中人聲和伴奏的聲學條件,展現了其潛在的適用性。我們的範例可在 https://songcreator.github.io/ 上取得。 |
2024 年 9 月 9 日 | HyperAgent:用於大規模解決編碼任務的通用軟體工程代理 | 大型語言模型 (LLM) 徹底改變了軟體工程 (SE),在各種編碼任務中展示了卓越的能力。雖然最近的努力已經產生了基於 LLM 的用於端到端開發任務的自主軟體代理,但這些系統通常是為特定的 SE 任務而設計的。我們推出了 HyperAgent,這是一種新穎的通用多代理系統,旨在透過模仿人類開發人員的工作流程來解決跨不同程式語言的各種 SE 任務。包含四個專業代理商 - Planner、Navigator、Code Editor 和 Executor。 HyperAgent 管理 SE 任務的整個生命週期,從最初的構思到最終的驗證。透過廣泛的評估,HyperAgent 在各種SE 任務中實現了最先進的性能:它在SWE-Bench-Lite 上獲得了25.01% 的成功率,在SWE-Bench-Verified 上獲得了31.40% 的GitHub 問題解決成功率,超越了現有方法。此外,HyperAgent 在儲存庫級程式碼產生 (RepoExec) 以及故障定位和程式修復 (Defects4J) 方面展示了 SOTA 效能,通常優於專用系統。這項工作代表了多功能、自主代理的重大進步,能夠處理跨不同領域和語言的複雜、多步驟 SE 任務,有可能改變人工智慧輔助軟體開發實踐。 |
2024 年 9 月 9 日 | MemoRAG:透過記憶啟發的知識發現邁向下一代 RAG | 檢索增強生成(RAG)利用檢索工具存取外部資料庫,從而透過優化上下文來提高大語言模型(LLM)的生成品質。然而,現有的檢索方法有其固有的局限性,因為它們只能在明確陳述的查詢和格式良好的知識之間進行相關性匹配,而無法處理涉及模糊資訊需求或非結構化知識的任務。因此,現有的 RAG 系統主要適用於簡單的問答任務。在這項工作中,我們提出了 MemoRAG,一種由長期記憶支持的新型檢索增強生成範式。 MemoRAG採用雙系統架構。一方面,它採用輕量級但遠端的LLM來形成資料庫的全域記憶體。一旦提出任務,它就會產生草稿答案,提示檢索工具在資料庫中尋找有用的信息。另一方面,它利用昂貴但富有表現力的法學碩士,根據檢索到的信息產生最終答案。在此整體框架的基礎上,我們透過增強其線索機制和記憶能力來進一步優化 MemoRAG 的表現。在我們的實驗中,MemoRAG 在各種評估任務中都實現了卓越的效能,包括傳統 RAG 失敗的複雜任務和通常應用 RAG 的簡單任務。 |
2024 年 9 月 8 日 | OneGen:法學碩士的高效一次性統一生成和檢索 | 儘管大型語言模型(LLM)最近取得了進步,顯著增強了各種 NLP 任務的生成能力,但 LLM 在直接處理檢索任務方面仍然面臨限制。然而,許多實際應用需要檢索和產生的無縫整合。本文介紹了一種新穎且高效的一次性生成和檢索框架(OneGen),旨在提高法學碩士在需要生成和檢索的任務上的性能。所提出的框架透過合併自回歸產生的檢索標記,彌合了傳統上獨立的生成和檢索訓練方法。這使得單一法學碩士能夠在統一的前向傳遞中同時處理這兩項任務。我們對兩種不同類型的複合任務(RAG 和實體連結)進行了實驗,以驗證 OneGen 在訓練和推理方面的可插入性、有效性和效率。此外,我們的結果表明,在同一上下文中整合生成和檢索可以保留法學碩士的生成能力,同時提高檢索效能。據我們所知,OneGen 是第一個使法學碩士能夠在生成過程中進行向量檢索的公司。 |
2024 年 9 月 6 日 | Paper Copilot:一個自我進化、高效的法學碩士系統,提供個人化的學術援助 | 隨著科學研究的激增,研究人員面臨著瀏覽和閱讀大量文獻的艱鉅任務。現有的解決方案(例如文件品質保證)無法有效地提供個人化和最新的資訊。我們推出 Paper Copilot,這是一個自我進化、高效的法學碩士系統,旨在幫助研究人員基於思想檢索、使用者個人資料和高效能優化。具體來說,Paper Copilot 可以提供個人化的研究服務,維護即時更新的資料庫。量化評估表明,Paper Copilot高效部署後可節省69.92%的時間。本文詳細介紹了 Paper Copilot 的設計和實現,並強調了其對個人化學術支援的貢獻及其簡化研究流程的潛力。 |
2024 年 9 月 5 日 | 大型語言模型的關注焦點:調查 | 自 ChatGPT 出現以來,大型語言模型 (LLM) 在各種任務中表現出色,但仍然是黑盒系統。因此,法學碩士的推理瓶頸主要受其內部架構的影響。因此,許多研究人員開始探索法學碩士潛在的內部機制,其中大多數研究集中在註意力頭。我們的調查旨在透過關註註意力頭的基本機制來闡明法學碩士的內部推理過程。我們首先將人類思考過程提煉為四個階段的框架:知識回憶、上下文辨識、潛在推理和表達準備。使用這個框架,我們有系統地回顧現有的研究,以識別和分類特定注意力頭的功能。此外,我們總結了用於發現這些特殊頭的實驗方法,將它們分為兩類:免建模方法和需要建模的方法。此外,我們也概述了相關的評估方法和基準。最後,我們討論了目前研究的局限性並提出了幾個潛在的未來方向。 |
2024 年 9 月 5 日 | 您的代碼法學碩士表現如何?利用高品質數據進行程式碼指令調優 | 最近,人們對研究如何建立更好的程式碼指令調整資料越來越感興趣。然而,我們觀察到使用這些資料集訓練的程式碼模型在 HumanEval 上表現出高效能,但在 LiveCodeBench 等其他基準測試上表現較差。經過進一步調查,我們發現許多資料集有嚴重的資料外洩問題。在清理大部分洩漏資料後,一些知名的高品質資料集表現不佳。這項發現揭示了一個新的挑戰:確定哪個資料集真正符合高品質程式碼指令資料的條件。為了解決這個問題,我們提出了一個有效的程式碼資料修剪策略來選擇好的樣本。我們的方法基於三個維度:教學複雜性、回應品質和教學多樣性。根據我們選擇的數據,我們提出了 XCoder,這是一個從 LLaMA3 微調的模型系列。我們的實驗表明,XCoder 使用更少的訓練資料實現了新的最先進的效能,這驗證了我們資料策略的有效性。此外,我們對資料構成進行了全面分析,發現現有的程式碼資料集根據其建置方法具有不同的特徵,這為未來的程式碼LLM提供了新的見解。我們的模型和資料集發佈在 https://github.com/banksy23/XCoder |
2024 年 9 月 5 日 | 從 MOOC 到 MAIC:透過 LLM 驅動的代理重塑線上教學 | 自從線上教育首次出現以來,課程被上傳到可訪問和共享的線上平台,這種擴大人類知識傳播範圍以覆蓋更廣泛受眾的形式引發了廣泛的討論和廣泛採用。認識到個人化學習仍然具有巨大的改進潛力,新的人工智慧技術不斷融入這種學習形式,催生了教育推薦、智慧輔導等各種教育人工智慧應用。大語言模型 (LLM) 中智慧的出現使得這些教育增強功能能夠建立在統一的基礎模型之上,從而實現更深入的整合。在此背景下,我們提出了MAIC(大規模人工智慧賦能課程),這是一種新形式的線上教育,利用法學碩士驅動的多智能體系統建立人工智慧增強課堂,平衡可擴展性與適應性。除了探索概念框架和技術創新之外,我們還在中國頂尖大學之一的清華大學進行了初步實驗。我們從 500 多名學生的 100,000 多個學習記錄中獲得了一系列有價值的觀察和初步分析。該計畫將持續發展,最終目標是建立一個支持和統一研究、技術和應用的綜合開放平台,探索大模型人工智慧時代線上教育的可能性。我們將該平台設想為一個協作中心,將教育工作者、研究人員和創新者聚集在一起,共同探索由人工智慧驅動的線上教育的未來。 |
2024 年 9 月 4 日 | LongCite:使法學碩士能夠在長上下文 QA 中產生細粒度的引文 | 儘管目前的長上下文大語言模型(LLM)在基於大量文本回答用戶問題方面表現出了令人印象深刻的能力,但其回答中缺乏引用使得用戶驗證變得困難,導致由於其潛在的幻覺而導致對其可信度的擔憂。在這項工作中,我們的目標是使長上下文法學碩士能夠產生具有細粒度句子級引用的回复,從而提高其可信度和可驗證性。我們首先介紹 LongBench-Cite,這是一個自動基準,用於評估當前法學碩士在帶有引文的長上下文問答 (LQAC) 方面的表現,揭示了相當大的改進空間。為此,我們提出了 CoF(從粗到細),這是一種新穎的管道,利用現成的 LLM 自動生成具有精確句子級引用的長上下文 QA 實例,並利用該管道構建 LongCite-45k, LQAC 的大規模SFT 資料集。最後,我們使用 LongCite-45k 資料集訓練 LongCite-8B 和 LongCite-9B,成功地在單一輸出中產生準確的回應和細粒度的句子級引用。 LongBench-Cite 的評估結果表明,我們訓練的模型達到了最先進的引文質量,超越了包括 GPT-4o 在內的先進專有模型。 |
2024 年 9 月 4 日 | LongLLaVA:透過混合架構將多模態 LLM 有效擴展至 1000 張影像 | 擴展多模態大語言模型(MLLM)的長上下文功能對於視訊理解、高解析度影像理解和多模態代理至關重要。這涉及一系列系統最佳化,包括模型架構、資料建置和訓練策略,特別是解決諸如 textit{影像增多導致效能下降}和 textit{高運算成本}等挑戰。在本文中,我們將模型架構調整為 Mamba 和 Transformer 區塊的混合,利用多個影像之間的時間和空間依賴性來進行資料構建,並採用漸進式訓練策略。發佈的模型 textbf{LongLLaVA}~(textbf{Long}-Context textbf{L}arge textbf{L}anguage textbf{a}nd textbf{V}ision textbf{A}ssistant) 是第一個混合MLLM,它在效率和效果之間取得了更好的平衡。 LongLLaVA 不僅在各種基準測試中取得了有競爭力的結果,而且還保持了高吞吐量和低記憶體消耗。特別是,它可以在單一 A100 80GB GPU 上處理近千張影像,在廣泛的任務中顯示出良好的應用前景。 |
2024 年 9 月 4 日 | 走向大型語言模式偏好學習的統一觀點:一項調查 | 大型語言模型 (LLM) 展現出非常強大的功能。成功的關鍵因素之一是將法學碩士的輸出與人類偏好保持一致。這種對齊過程通常只需要少量數據即可有效提高法學碩士的表現。雖然有效,但該領域的研究跨越多個領域,並且所涉及的方法相對難以理解。不同方法之間的關係尚未充分探索,限制了偏好調整的發展。有鑑於此,我們將現有流行的對齊策略分解為不同的組件,並提供一個統一的框架來研究當前的對齊策略,從而建立它們之間的連結。在本次調查中,我們將偏好學習的所有策略分解為四個部分:模型、數據、回饋和演算法。這種統一的視圖提供了對現有對齊演算法的深入理解,也為協同不同策略的優勢提供了可能性。此外,我們還提供了現有流行演算法的詳細工作範例,以方便讀者全面理解。最後,基於我們統一的視角,我們探討了將大型語言模型與人類偏好結合的挑戰和未來的研究方向。 |
2024 年 9 月 4 日 | 使用多輪迭代偏好學習建立數學代理 | 最近的研究表明,大型語言模型(LLM)的數學問題解決能力可以透過整合外部工具(例如程式碼解釋器)和採用多輪思想鏈(CoT)推理來增強。雖然目前的方法著重於合成資料生成和監督微調(SFT),但本文研究了互補的直接偏好學習方法,以進一步提高模型效能。然而,現有的直接偏好學習演算法最初是針對單輪聊天任務而設計的,並沒有完全解決工具整合數學推理任務所需的多輪推理和外部工具整合的複雜性。為了填補這一空白,我們引入了一個針對這種情況量身定制的多輪直接偏好學習框架,該框架利用程式碼解釋器的回饋並優化軌跡級偏好。該框架包括多輪DPO和多輪KTO作為具體實現。我們的框架的有效性透過使用 GSM8K 和 MATH 資料集的增強提示集訓練各種語言模型來驗證。我們的結果證明了顯著的改進:經過監督的微調 Gemma-1.1-it-7B 模型的性能在 GSM8K 上從 77.5% 提高到 83.9%,在 MATH 上從 46.1% 提高到 51.2%。同樣,Gemma-2-it-9B 模型在 GSM8K 上從 84.1% 提高到 86.3%,在 MATH 上從 51.0% 提高到 54.5%。 |
2024 年 9 月 3 日 | OLMoE:開放專家混合語言模型 | 我們引入 OLMoE,這是一種完全開放、最先進的語言模型,利用稀疏專家混合 (MoE)。 OLMoE-1B-7B 有 70 億個 (B) 參數,但每個輸入令牌只使用 1B。我們在 5 兆個代幣上進行預訓練,並進一步對其進行調整以創建 OLMoE-1B-7B-Instruct。我們的模型優於具有類似活動參數的所有可用模型,甚至超過了 Llama2-13B-Chat 和 DeepSeekMoE-16B 等較大模型。我們展示了關於 MoE 訓練的各種實驗,分析了模型中的路由,顯示了高度專業化,並開源了我們工作的所有方面:模型權重、訓練資料、程式碼和日誌。 |
2024 年 9 月 2 日 | GenAgent:建構具有自動工作流程產生功能的協作人工智慧系統-ComfyUI 案例研究 | 先前的許多人工智慧研究都集中在開發整體模型以最大限度地提高其智慧和能力,其主要目標是提高特定任務的效能。相較之下,本文探索了另一種方法:協作人工智慧系統,使用工作流程整合模型、資料來源和管道來解決複雜多樣的任務。我們推出 GenAgent,這是一個基於 LLM 的框架,可自動產生複雜的工作流程,與整體模型相比,提供更大的靈活性和可擴展性。 GenAgent的核心創新在於以程式碼來表示工作流程,並透過協作代理逐步建立工作流程。我們在 ComfyUI 平台上實作 GenAgent,並提出一個新的基準 OpenComfy。結果表明,GenAgent 在運行級和任務級評估方面均優於基準方法,顯示其產生具有卓越有效性和穩定性的複雜工作流程的能力。 |
2024 年 9 月 2 日 | VideoLLaMB:使用循環記憶橋進行長上下文視訊理解 | 大規模視訊語言模型的最新進展顯示出即時規劃和詳細互動的巨大潛力。然而,它們的高計算要求和註釋資料集的稀缺限制了它們對學術研究人員的實用性。在這項工作中,我們引入了VideoLLaMB,這是一種新穎的框架,它利用橋接層內的時間記憶令牌來編碼整個視頻序列以及歷史視覺數據,從而有效地保持語義連續性並增強跨各種任務的模型效能。該方法包括循環記憶體標記和 SceneTilling 演算法,該演算法將視訊分割成獨立的語義單元以保持語義完整性。根據經驗,VideoLLaMB 顯著優於現有的視訊語言模型,在三個 VideoQA 基準測試中比競爭對手提高了 5.5 分,在以自我為中心的規劃方面提高了 2.06 分。 MVBench 的綜合結果表明,VideoLLaMB-7B 的成績明顯優於先前相同 LLM 的 7B 模型。值得注意的是,即使影片長度增加至 8 倍,它仍能保持 PLLaVA 的強大性能。此外,我們專門的 Needle in a Video Haystack (NIAVH) 基準測試中的幀檢索結果進一步驗證了 VideoLLaMB 在準確識別長影片中特定幀方面的能力。我們的 SceneTilling 演算法還可以直接產生串流視訊字幕,無需額外的訓練。在效率方面,VideoLLaMB經過16幀訓練,在單個Nvidia A100 GPU上支援高達320幀,並具有線性GPU記憶體擴展,保證了高性能和成本效益,從而為長格式視訊語言奠定了新的基礎模型在學術和實際應用中的應用。 |
2024 年 9 月 1 日 | ContextCite:將模型生成歸因於上下文 | 語言模型在產生回應時如何使用作為上下文提供的資訊?我們能否推斷出特定的生成語句是否確實基於上下文、誤解或捏造?為了幫助回答這些問題,我們引入了上下文歸因問題:精確定位導致模型產生特定語句的上下文部分(如果有)。然後,我們提出 ContextCite,這是一種簡單且可擴展的上下文歸因方法,可以應用於任何現有語言模型。最後,我們透過三個應用程式展示 ContextCite 的實用性:(1)幫助驗證生成的語句(2)透過修剪上下文來提高回應品質以及(3)檢測中毒攻擊。我們在 https://github.com/MadryLab/context-cite 提供 ContextCite 的程式碼。 |
2024 年 8 月 31 日 | LongRecipe:大型語言模型中高效長上下文泛化的秘訣 | 大型語言模型(LLM)在處理長上下文任務時面臨重大挑戰,因為它們在預訓練期間的有效上下文視窗大小有限,這限制了它們泛化擴展序列的能力。同時,透過預訓練後擴展法學碩士的上下文窗口是高度資源密集型的。為了解決這個問題,我們引入了 LongRecipe,這是一個用於擴展 LLM 上下文視窗的有效訓練策略,包括有影響力的標記分析、位置索引轉換和訓練優化策略。它在保持訓練效率的同時模擬長序列輸入,並顯著提高模型對長程依賴性的理解。對三種類型的 LLM 的實驗表明,LongRecipe 可以利用長序列,同時只需要 30% 的目標上下文視窗大小,與全序列訓練相比,可以減少 85% 以上的計算訓練資源。此外,LongRecipe也保留了原始LLM在一般任務中的能力。最終,我們可以將開源 LLM 的有效上下文視窗從 8k 擴展到 128k,僅使用具有 80G 記憶體的單一 GPU 進行一天的專門訓練即可實現接近 GPT-4 的效能。我們的程式碼發佈在https://github.com/zhiyuanhubj/LongRecipe。 |
2024 年 8 月 29 日 | Mini-Omni:語言模型可以在串流媒體中一邊聽一邊思考 | 語言模型的最新進展取得了重大進展。 GPT-4o作為一個新的里程碑,實現了與人類的即時對話,展現出接近人類自然的流暢性。這種人機互動需要模型能夠直接使用音訊模態進行推理並產生串流輸出。然而,這仍然超出了當前學術模型的能力範圍,因為它們通常依賴額外的 TTS 系統進行語音合成,從而導致不良的延遲。本文介紹了 Mini-Omni,一個基於音訊的端到端對話模型,能夠進行即時語音互動。為了實現這種能力,我們提出了一種文字指令的語音生成方法,以及推理過程中的批次並行策略,以進一步提高效能。我們的方法還有助於以最小的退化保留原始模型的語言能力,使其他作品能夠建立即時互動能力。我們將這種訓練方法稱為「Any Model Can Talk」。我們也引入了 VoiceAssistant-400K 資料集來微調針對語音輸出最佳化的模型。據我們所知,Mini-Omni 是第一個完全端到端、開源的即時語音互動模型,為未來的研究提供了寶貴的潛力。 |
2024 年 8 月 29 日 | Jina-ColBERT-v2:通用多語言後製互動檢索器 | 事實證明,多向量密集模型(例如 ColBERT)在資訊檢索方面非常有效。 ColBERT 的後期交互評分近似於交叉編碼器中看到的聯合查詢文檔注意力,同時由於其雙編碼器架構以及最近在索引和搜索方面的優化,保持了更接近傳統密集檢索模型的推理效率。在這項工作中,我們對ColBERT 模型架構和訓練流程提出了一些漸進式改進,使用了在更成熟的單向量嵌入模型訓練範式中工作的方法,特別是那些適用於異構多語言數據或在幾乎沒有權衡的情況下提高效率的方法。我們的新模型 Jina-ColBERT-v2 在一系列英語和多語言檢索任務中表現出了強大的表現。 |
2024 年 8 月 28 日 | CoRe:用於文字到圖像個性化的上下文正規化文字嵌入學習 | 文字到圖像個性化的最新進展使得用戶提供的概念能夠實現高品質且可控的圖像合成。然而,現有的方法仍然難以平衡身分保留和文字對齊。我們的方法基於這樣一個事實:產生提示對齊的圖像需要對提示進行精確的語義理解,這涉及在 CLIP 文字編碼器中準確處理新概念與其周圍上下文標記之間的交互作用。為了解決這個問題,我們的目標是將新概念正確地嵌入到文字編碼器的輸入嵌入空間中,從而允許與現有令牌無縫整合。我們引入了上下文正則化(CoRe),它透過規範提示中的上下文標記來增強對新概念文本嵌入的學習。這是基於這樣的見解:只有正確學習新概念的文本嵌入,才能實現上下文標記的文本編碼器的適當輸出向量。 CoRe可以應用於任意提示,而不需要產生相應的圖像,從而提高了學習到的文字嵌入的泛化能力。此外,CoRe 可作為測試時優化技術,進一步增強特定提示的產生。綜合實驗表明,我們的方法在身分保留和文字對齊方面優於幾種基線方法。代碼將公開。 |
2024 年 8 月 28 日 | SciLitLLM:如何使法學碩士適應科學文獻理解 | 科學文獻的理解對於提取目標資訊和獲得見解至關重要,從而顯著推進科學發現。儘管大語言模型(LLM)取得了顯著的成功,但它們在科學文獻理解中仍面臨挑戰,這主要是由於(1)缺乏科學知識以及(2)不熟悉專門的科學任務。為了開發專門從事科學文獻理解的LLM,我們提出了一種混合策略,該策略將持續的預培訓(CPT)和監督微調(SFT)整合在一起,以同時注入科學領域知識並增強領域特定任務的指導遵守能力。我們透過細緻的管道解決這些挑戰,包括PDF文字擷取,解析內容誤差校正,品質過濾和合成指令創建。採用此策略,我們提出了一套LLM:Scilitllm,專門研究科學文獻理解。這些模型在理解基準的科學文獻方面表現出了有希望的表現。我們的貢獻是三重的:(1)我們提出了一個有效的框架,將CPT和SFT整合起來,以使LLMS適應科學文獻理解,這也很容易適應其他領域。 (2)我們提出了一種基於LLM的合成方法,以產生多樣化和高品質的科學指令,從而在代表性較低的科學領域中進行了新的指導集(SCILITINS),以進行監督的微調。 (3)Scilitllm在理解基準的科學文獻方面取得了有希望的表現。 |
加入1000多名學生參加這項為期10週的冒險,當我們深入研究LLM在各種用例中的應用
?
?
?
?
?
?
?
?
?
?
?
Eth Zurich的大型語言模型
了解普林斯頓的大型語言模型
擁抱面的變壓器課程
NLP課程透過擁抱面
CS324-史丹佛的大型語言模型
Coursera的生成性AI具有大型語言模型
Coursera的生成AI簡介
Google Cloud的生成AI基礎知識
Google Cloud的大型語言模式簡介
Google Cloud的生成AI簡介
Datacamp的生成AI概念(Daniel Tedesco Data Lead @ Google)
Weclouddata的1小時LLM(大語模型)簡介
LLM Foundation Models從頭開始| Databricks的底漆
Nvidia解釋的生成AI
Google Cloud的變壓器模式與BERT模型
AWS為決策者的生成AI學習計劃
Google Cloud負責人AI簡介
Microsoft Azure的生成AI的基礎
Microsoft的初學者的生成AI
初學者的chatgpt:udemy的每個人的最終用例
[1小時談話] Andrej Karpathy的大型語言模式介紹
透過學習提示來為每個人聊天
大型語言模型(LLMS)(英語)撰寫的Kshitiz Verma(JK Lakshmipat University,印度齋浦爾)
LLMOPS:使用大語言模型建立現實世界應用程式
FSDL完整堆疊LLM訓練營
Microsoft的初學者的生成AI
大型語言模型:透過Databricks透過生產應用
AWS產生的AI基礎
Ineuron的生成AI社群課程簡介
LLM University by Cohere
LLM學習實驗室透過閃電AI
透過DeepLearning.AI進行llm llm應用程式開發的Langchain
llmops by deeplearning.ai
透過DeepLearning.AI自動測試LLMOP
使用AWS的Amazon Bedrock建造生成的AI應用
透過深度學習有效地服務LLM
透過DeepLearning.AI與Chatgpt API建造系統
無服務的LLM應用程式與Amazon Bedrock透過DeepLearning.AI
透過DeepLearning.AI透過向量資料庫建立應用程式
透過DeepLearning.AI自動測試LLMOP
用langchain.js建立LLM應用程式
透過DeepLearning.AI進行AI的高階檢索
透過Coursera在Azure上操作LLMS
產生AI完整課程 - Gemini Pro,Openai,Llama,Langchain,Pinecone,Vector Databases等
Activeloop培訓和微調LLM生產的LLM
langchain&向量資料庫生產中的Activeloop
透過深度學習從人類回饋中學習的強化。
透過DeepLearning.AI透過向量資料庫建立應用程式
透過DeepLearning.AI填補大型語言模型
Langchain:透過DeepLearning.AI與您的資料聊天
透過DeepLearning.AI與Chatgpt API建造系統
透過DeepLearning.AI與Llama 2的及時工程
透過DeepLearning.AI透過向量資料庫建立應用程式
CHATGPT提示開發人員的工程deeplearning.ai
LlamainDex的高級RAG編排系列
Coursera的及時工程專業
使用NVIDIA的檢索增強產生來增強您的LLM
透過DeepLearning.AI的抹布知識圖
帶有深度學習的擁抱臉的開源模型
向量資料庫:從嵌入到應用程式。
透過深度學習來理解和應用文本嵌入。
JavaScript RAG Web應用程式附帶llamaindex by DeepLearning.ai
量化基本面,透過深度學習。
透過DeepLearning.AI為LLM應用程式的非結構化資料進行預處理
透過langchain&llamaindex的Activeloop檢索增強發電
深度學習深度量化
如果您想新增至儲存庫或發現任何問題,請隨時提出PR並確保在相關部分或類別中正確放置。
若要引用本指南,請使用以下格式:
@article{areganti_generative_ai_guide,
author = {Reganti, Aishwarya Naresh},
journal = {https://github.com/aishwaryanr/awesome-generative-ai-resources},
month = {01},
title = {{Generative AI Guide}},
year = {2024}
}
[MIT許可證]