近日,开源AI模型Reflection70B因其性能争议引发业界广泛关注。该模型由HyperWrite公司发布,最初宣称其为全球最强大的开源模型,并凭借在第三方测试中的优异表现吸引了大量目光。然而,随后一些独立机构和用户对其性能提出了质疑,测试结果与HyperWrite公司最初的声明存在显着差异。
刚刚登场不久的开源AI 模型Reflection70B,近日就遭到了业界的广泛质疑。
这款由纽约初创公司HyperWrite 发布的模型,自称是Meta 公司的Llama3.1变种,曾以其在第三方测试中的优异表现引发关注。然而,随着一些测试结果的公布,Reflection70B 的声誉却开始受到挑战。
事情的起因是HyperWrite 的联合创始人兼CEO Matt Shumer 于9月6日在社交媒体X 上宣布了Reflection70B,并信心满满地称其为“全球最强的开源模型”。
Shumer 还分享了关于这款模型的“反射调优” 技术,声称这一方法能让模型在生成内容前自我审核,从而提升准确性。
然而,在HyperWrite宣布后的第二天,专门进行“AI模型和托管提供商独立分析”的组织Artificial Analysis在X上发布了自己的分析,指出他们评估的Reflection Llama3.170B的MMLU(Massive Multitask Language Understanding)得分与Llama370B相同,但明显低于Meta的Llama3.170B,这与HyperWrite/Shumer最初发布的结果存在重大差异。
Shumer随后表示,Reflection70B的权重(或开源模型的设置)在上传到Hugging Face(第三方AI代码托管存储库和公司)的过程中出现了问题,这可能导致性能比HyperWrite的“内部API”版本差。
Artificial Analysis在随后的声明中表示,他们获得了对私有API的访问权限,并看到了令人印象深刻的性能,但并没有达到最初的声明水平。由于这次测试是在私有API上进行的,他们无法独立验证他们正在测试的内容。
该组织提出了两个关键问题,严重质疑HyperWrite和Shumer最初的性能声明:
同时,Reddit上的多个机器学习和AI社区的用户也对Reflection70B的声明性能和起源提出了质疑。一些人指出,根据第三方在Github上发布的模型比较, Reflection70B似乎是Llama3的变体,而不是Llama-3.1的变体,这进一步对Shumer和HyperWrite最初的声明产生了怀疑。
这导致至少有一位X用户Shin Megami Boson在9月8日东
部时间晚上8:07公开指控Shumer在AI研究社区中存在“欺诈行为”,并发布了一长串截图和其他证据。
其他人则指控该模型实际上是构建在专有/封闭源代码的竞争对手Anthropic的Claude3之上的“包装器”或应用程序。
然而,也有其他X用户站出来为Shumer和Reflection70B辩护,一些人也发布了他们端的模型的印象深刻的性能。
目前,AI研究社区正在等待Shumer对这些欺诈指控的回应和Hugging Face上的更新模型权重。
Reflection70B 模型发布后,性能受到质疑,测试结果未能复现初期声称的表现。
⚙️ HyperWrite 创始人解释称模型上传问题导致性能下降,呼吁关注更新版本。
社交媒体上对该模型的讨论热烈,既有指责也有辩护,形势错综复杂。
目前,Reflection70B事件仍在持续发酵,最终结果仍需等待进一步调查和回应。 这起事件也提醒我们,对任何AI模型的性能宣传都应保持谨慎,并依靠独立验证结果进行判断。