O chamado modelo mais poderoso, Reflection 70B, foi questionado e o fundador enfrenta acusações de “fraude”

Autor：Eve Cole Data da Última Atualização：2024-12-30 08:00:02

Recentemente, o modelo de IA de código aberto Reflection70B atraiu ampla atenção na indústria devido à sua controvérsia de desempenho. O modelo foi lançado pela HyperWrite, que originalmente afirmava ser o modelo de código aberto mais poderoso do mundo e atraiu muita atenção devido ao seu excelente desempenho em testes de terceiros. No entanto, algumas instituições e utilizadores independentes questionaram posteriormente o seu desempenho e os resultados dos testes diferiram significativamente das afirmações iniciais da HyperWrite.

O modelo de IA de código aberto Reflection70B, que acaba de ser lançado, foi recentemente amplamente questionado pela indústria.

Este modelo lançado pela startup nova-iorquina HyperWrite, que afirma ser a variante Llama3.1 do Meta, chamou a atenção devido ao seu excelente desempenho em testes de terceiros. No entanto, à medida que alguns resultados de testes foram divulgados, a reputação do Reflection70B começou a ser desafiada.

A causa do problema foi que o cofundador e CEO da HyperWrite, Matt Shumer, anunciou o Reflection70B na mídia social X em 6 de setembro e o chamou com segurança de "o modelo de código aberto mais forte do mundo".

Shumer também compartilhou sobre a tecnologia de “ajuste reflexivo” do modelo, alegando que este método permite que o modelo se revise antes de gerar conteúdo, melhorando assim a precisão.

No entanto, um dia após o anúncio do HyperWrite, Artificial Analysis, um grupo especializado em “análise independente de modelos de IA e provedores de hospedagem”, publicou sua própria análise no X, observando que avaliou a pontuação MMLU (Massive Multitask Language Understanding) do Reflection Llama3.170B. é igual ao Llama370B, mas significativamente menor que o Llama3.170B da Meta, o que é uma diferença significativa dos resultados originalmente publicados pela HyperWrite/Shumer.

Shumer afirmou mais tarde que houve um problema com os pesos do Reflection70B (ou configurações para o modelo de código aberto) durante o upload para o Hugging Face (um repositório e empresa de hospedagem de código de IA de terceiros), o que pode ter resultado em pior desempenho do que a "API interna" do HyperWrite. "versão. .

A Artificial Analysis disse em uma declaração subsequente que obteve acesso à API privada e obteve um desempenho impressionante, mas não ao nível declarado originalmente. Como esse teste foi realizado em uma API privada, eles não conseguiram verificar de forma independente o que estavam testando.

O grupo levantou duas questões principais que questionam seriamente as reivindicações originais de desempenho do HyperWrite e Shumer:

Por que a versão lançada não é a versão testada por meio da API privada do Reflection.
Por que os pesos do modelo para a versão testada ainda não foram divulgados.

Enquanto isso, usuários em várias comunidades de aprendizado de máquina e IA no Reddit também questionaram o desempenho e as origens alegadas do Reflection70B. Alguns apontaram que o Reflection70B parece ser uma variante do Llama3 em vez do Llama-3.1 , com base em uma comparação de modelos postada por terceiros no Github, lançando mais dúvidas sobre as afirmações originais de Shumer e HyperWrite.

Isso resultou em pelo menos um usuário X, Shin Megami Boson, postando em 8 de setembro ET

Às 20h07 EDT, Shumer acusou publicamente Shumer de “conduta fraudulenta” na comunidade de pesquisa de IA e divulgou uma longa lista de capturas de tela e outras evidências.

Outros alegaram que o modelo é na verdade um "invólucro" ou aplicativo construído sobre o Claude3, concorrente proprietário/de código fechado, da Anthropic.

No entanto, outros usuários do X vieram em defesa do Shumer e do Reflection70B, com alguns também apresentando desempenho impressionante em sua extremidade do modelo.

Atualmente, a comunidade de pesquisa de IA está aguardando a resposta de Shumer a essas acusações de fraude e pesos de modelo atualizados no Hugging Face.

Após o lançamento do modelo Reflection70B, o desempenho foi questionado, e os resultados dos testes não conseguiram replicar as afirmações iniciais.

⚙️ O fundador do HyperWrite explicou que problemas de upload de modelos causaram degradação de desempenho e pediu atenção para a versão atualizada.

O modelo tem sido muito debatido nas redes sociais, com acusações e defesas misturadas.

Atualmente, o incidente Reflection70B ainda continua a fermentar e o resultado final ainda precisa aguardar mais investigações e respostas. Este incidente também nos lembra que devemos ser cautelosos na promoção do desempenho de qualquer modelo de IA e confiar em resultados de verificação independente para fazer julgamentos.