Nos últimos anos, a tecnologia de modelos de linguagem em larga escala (LLM) desenvolveu-se rapidamente e vários modelos surgiram um após o outro. Este artigo se concentrará nos progressos mais recentes do modelo RNN Eagle7B e da arquitetura RWKV para desafiar o domínio do modelo Transformer. Eagle7B tem bom desempenho em benchmarks multilíngues e reduz significativamente os custos de inferência, enquanto a arquitetura RWKV combina as vantagens do RNN e do Transformer para obter desempenho comparável ao GPT; Estas descobertas trouxeram novas possibilidades para a tecnologia de inteligência artificial e também anunciaram uma mudança na direção do desenvolvimento da tecnologia LLM no futuro.
Com o surgimento de modelos grandes, o modelo RNN Eagle7B desafia o domínio do Transformer. O modelo alcança desempenho superior em benchmarks multilíngues, ao mesmo tempo que reduz os custos de inferência dezenas de vezes. A equipe está comprometida em construir inteligência artificial inclusiva, apoiando 25 idiomas em todo o mundo e abrangendo 4 bilhões de pessoas. A importância da escala de dados para melhorar o desempenho do modelo tornou-se cada vez mais proeminente e a arquitetura precisa ser mais eficiente e escalável. Ao introduzir as vantagens do RNN e do Transformer, a arquitetura RWKV atinge desempenho de nível GPT e traz novas possibilidades para a tecnologia de inteligência artificial.O surgimento da arquitetura Eagle7B e RWKV marca o surgimento de novos concorrentes e rotas técnicas na área de modelos de linguagem de grande escala, proporcionando mais possibilidades para o desenvolvimento da inteligência artificial no futuro. Eles não apenas fazem avanços no desempenho, mas, mais importante ainda, contribuem para reduzir custos e melhorar a escalabilidade, o que é de grande importância para a popularização e aplicação da tecnologia de inteligência artificial. Esperamos que mais inovações semelhantes surjam no futuro.