在AI领域,巨头林立,竞争激烈。然而,一个仅由10人组成的初创公司Nous Research却凭借其强大的技术实力和开源理念,成功挑战了科技巨头的权威地位。他们最新发布的Hermes3模型,基于Llama 3.1微调而成,参数规模达到405B,性能惊艳,下载量已突破3300万次,成为AI界的现象级产品。本文将深入探讨Hermes3模型的卓越性能、高效的训练方法以及Nous Research的创新精神。
一个仅有10人的小团队,竟然敢挑战科技巨头Meta的地位,这简直就是现实版的大卫战胜歌利亚!
这个名叫Nous Research的初创公司可不是什么无名之辈。他们刚刚推出的Hermes3,是基于Llama3.1的405B模型微调而成的。别看团队人数少,但他们的实力可不容小觑。这个十人天团已经成功微调了Mistral、Yi、Llama等多个模型,下载量突破3300万次,简直就是AI界的爆款制造机!
Hermes3的出现,就像是给AI世界注入了一剂强心针。即便在FP8量化后,它的性能依然强劲得让人咂舌。这种优化不仅大幅降低了模型的VRAM和磁盘需求,还让Hermes3能够在单个节点上运行,简直就是开发者的福音!
在对话能力上,Hermes3简直就是个多面手。无论是长期记忆、多轮对话、角色扮演还是内部独白,它都能游刃有余。多亏了Llama3.1的128K上下文窗口,Hermes3在保持对话连贯性方面简直就像是个经验丰富的外交官。
但Hermes3的能耐可不止于此。它展示了一系列超越传统语言建模的高级能力,能够以精细且微妙的方式理解并评估生成文本的质量。这意味着它不仅能说会道,还能当个严格的文字评论家!
更令人惊叹的是,Hermes3还集成了几项智能体能力,包括结构化输出、输出中间步骤、生成内部独白以实现透明决策等。这就好比给AI装上了一个透明大脑,让我们能够一窥它的思考过程。
Hermes3的训练过程堪称是一场AI界的魔鬼训练。它经历了监督微调(SFT)和直接偏好优化(DPO)两个阶段。团队花了整整5个月的时间来筛选和构建SFT数据集,这种专注和耐心简直让人肃然起敬。
Nous Research这家成立于2023年的私人应用研究小组,总部位于纽约,简直就是AI界的蛮族入侵者。他们坚信开源的力量,誓要挑战封闭技术的创新限制。公司的口号响亮得让人热血沸腾:我们挑战封闭技术将永远占据创新顶峰的假设,相反,我们提供强大的开源代码。
短短一年多的时间里,Nous Research就发布了5个数据集和89个模型,这种高产似乎在向世人宣告:大小并不重要,实力才是王道!
论文地址:https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf
官方介绍:https://nousresearch.com/freedom-at-the-frontier-hermes-3/
Nous Research和Hermes3的成功,不仅证明了开源的力量,也为AI领域带来了新的活力和可能性。小型团队也能创造奇迹,这无疑是对所有AI从业者莫大的鼓舞。 未来,让我们拭目以待Nous Research将会带来哪些更令人惊喜的成果。