在AI領域,巨頭林立,競爭激烈。然而,一個僅由10人組成的新創公司Nous Research卻憑藉其強大的技術實力和開源理念,成功挑戰了科技巨頭的權威地位。他們最新發表的Hermes3模型,基於Llama 3.1微調而成,參數規模達到405B,效能驚艷,下載量已突破3,300萬次,成為AI界的現象級產品。本文將深入探討Hermes3模型的卓越表現、高效的訓練方法以及Nous Research的創新精神。
一個僅有10人的小團隊,竟然敢挑戰科技巨頭Meta的地位,這簡直就是現實版的大衛戰勝歌利亞!
這個名叫Nous Research的新創公司可不是什麼無名之輩。他們剛推出的Hermes3,是基於Llama3.1的405B模型微調而成的。別看團隊人數少,但他們的實力可不容小覷。這個十人天團已經成功微調了Mistral、Yi、Llama等多個模型,下載量突破3300萬次,簡直就是AI界的爆款製造機!
Hermes3的出現,就像是為AI世界注入了一劑強心針。即便在FP8量化後,它的性能依然強勁得讓人咂舌。這種最佳化不僅大幅降低了模型的VRAM和磁碟需求,還讓Hermes3能夠在單一節點上運行,簡直就是開發者的福音!
在對話能力上,Hermes3簡直就是個多面手。無論是長期記憶、多輪對話、角色扮演或內在獨白,它都能游刃有餘。多虧了Llama3.1的128K上下文窗口,Hermes3在保持對話連貫性方面簡直就像是個經驗豐富的外交官。
但Hermes3的能耐可不止於此。它展示了一系列超越傳統語言建模的高級能力,能夠以精細且微妙的方式理解並評估生成文本的品質。這意味著它不僅能言善道,還能當個嚴格的文字評論家!
更令人驚嘆的是,Hermes3還整合了幾項智能體能力,包括結構化輸出、輸出中間步驟、產生內部獨白以實現透明決策等。這就好比給AI裝上了一個透明大腦,讓我們能夠一窺它的思考過程。
Hermes3的訓練過程堪稱是一場AI界的魔鬼訓練。它經歷了監督微調(SFT)和直接偏好最佳化(DPO)兩個階段。團隊花了整整5個月的時間來篩選和建立SFT資料集,這種專注和耐心簡直讓人肅然起敬。
Nous Research這家成立於2023年的私人應用研究小組,總部位於紐約,簡直就是AI界的蠻族入侵者。他們堅信開源的力量,誓言要挑戰封閉科技的創新限制。公司的口號響亮得讓人熱血沸騰:我們挑戰封閉技術將永遠佔據創新頂峰的假設,相反,我們提供強大的開源代碼。
在短短一年多的時間裡,Nous Research就發布了5個資料集和89個模型,這種高產量似乎在向世人宣告:大小並不重要,實力才是王道!
論文地址:https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf
官方介紹:https://nousresearch.com/freedom-at-the-frontier-hermes-3/
Nous Research和Hermes3的成功,不僅證明了開源的力量,也為AI領域帶來了新的活力和可能性。小型團隊也能創造奇蹟,這無疑是對所有AI從業者莫大的鼓舞。 未來,讓我們拭目以待Nous Research將會帶來哪些更令人驚訝的成果。