号称最强模型Reflection 70B遭质疑，创始人面临 “欺诈” 指控

作者：Eve Cole 更新时间：2024-12-30 08:00:02

近日，开源AI模型Reflection70B因其性能争议引发业界广泛关注。该模型由HyperWrite公司发布，最初宣称其为全球最强大的开源模型，并凭借在第三方测试中的优异表现吸引了大量目光。然而，随后一些独立机构和用户对其性能提出了质疑，测试结果与HyperWrite公司最初的声明存在显着差异。

刚刚登场不久的开源AI 模型Reflection70B，近日就遭到了业界的广泛质疑。

这款由纽约初创公司HyperWrite 发布的模型，自称是Meta 公司的Llama3.1变种，曾以其在第三方测试中的优异表现引发关注。然而，随着一些测试结果的公布，Reflection70B 的声誉却开始受到挑战。

事情的起因是HyperWrite 的联合创始人兼CEO Matt Shumer 于9月6日在社交媒体X 上宣布了Reflection70B，并信心满满地称其为“全球最强的开源模型”。

Shumer 还分享了关于这款模型的“反射调优” 技术，声称这一方法能让模型在生成内容前自我审核，从而提升准确性。

然而，在HyperWrite宣布后的第二天，专门进行“AI模型和托管提供商独立分析”的组织Artificial Analysis在X上发布了自己的分析，指出他们评估的Reflection Llama3.170B的MMLU（Massive Multitask Language Understanding）得分与Llama370B相同，但明显低于Meta的Llama3.170B，这与HyperWrite/Shumer最初发布的结果存在重大差异。

Shumer随后表示，Reflection70B的权重（或开源模型的设置）在上传到Hugging Face(第三方AI代码托管存储库和公司)的过程中出现了问题，这可能导致性能比HyperWrite的“内部API”版本差。

Artificial Analysis在随后的声明中表示，他们获得了对私有API的访问权限，并看到了令人印象深刻的性能，但并没有达到最初的声明水平。由于这次测试是在私有API上进行的，他们无法独立验证他们正在测试的内容。

该组织提出了两个关键问题，严重质疑HyperWrite和Shumer最初的性能声明:

为什么发布的版本不是他们通过Reflection私有API测试的版本。
为什么他们测试的版本的模型权重尚未发布。

同时，Reddit上的多个机器学习和AI社区的用户也对Reflection70B的声明性能和起源提出了质疑。一些人指出，根据第三方在Github上发布的模型比较， Reflection70B似乎是Llama3的变体，而不是Llama-3.1的变体，这进一步对Shumer和HyperWrite最初的声明产生了怀疑。

这导致至少有一位X用户Shin Megami Boson在9月8日东

部时间晚上8:07公开指控Shumer在AI研究社区中存在“欺诈行为”，并发布了一长串截图和其他证据。

其他人则指控该模型实际上是构建在专有/封闭源代码的竞争对手Anthropic的Claude3之上的“包装器”或应用程序。

然而，也有其他X用户站出来为Shumer和Reflection70B辩护，一些人也发布了他们端的模型的印象深刻的性能。

目前，AI研究社区正在等待Shumer对这些欺诈指控的回应和Hugging Face上的更新模型权重。

Reflection70B 模型发布后，性能受到质疑，测试结果未能复现初期声称的表现。

⚙️ HyperWrite 创始人解释称模型上传问题导致性能下降，呼吁关注更新版本。

社交媒体上对该模型的讨论热烈，既有指责也有辩护，形势错综复杂。

目前，Reflection70B事件仍在持续发酵，最终结果仍需等待进一步调查和回应。这起事件也提醒我们，对任何AI模型的性能宣传都应保持谨慎，并依靠独立验证结果进行判断。