Groq lance une puce d'inférence grand modèle, 500 jetons par seconde plus rapide que le GPU

Auteur：Eve Cole Date de mise à jour：2025-02-02 22:32:01

Groq a récemment publié une nouvelle puce pour l'inférence de grands modèles, capable de traiter 500 jetons par seconde, dépassant largement les GPU traditionnels et les TPU de Google. Ces progrès révolutionnaires découlent de la conception innovante de l'architecture de la puce par l'équipe Groq et de la profonde accumulation technique des membres de l'équipe de Google TPU, dont le fondateur Jonathan Ross. Cette puce, vendue environ 20 000 dollars américains, utilise une solution LPU auto-développée et prévoit de dépasser Nvidia d'ici trois ans, ce qui aura sans aucun doute un impact profond sur le domaine de l'intelligence artificielle.

Groq a lancé une puce d'inférence grand modèle avec une vitesse de 500 jetons par seconde, surpassant les GPU traditionnels et Google TPU. Les membres de l'équipe proviennent de Google TPU, dont le fondateur Jonathan Ross. La puce utilise une solution LPU auto-développée et s'engage à surpasser NVIDIA d'ici trois ans, et le prix est d'environ 20 000 $ US. Il offre une vitesse d'accès à l'API extrêmement rapide et prend en charge plusieurs modèles LLM open source.

La nouvelle puce de Groq devrait devenir un concurrent sérieux dans le domaine de l'inférence de grands modèles grâce à ses capacités de traitement à grande vitesse et à sa prise en charge d'une variété de modèles open source. Sa vitesse d'accès extrêmement rapide aux API et son prix compétitif attireront de nombreux développeurs et utilisateurs d'entreprise et favoriseront le développement ultérieur des applications d'intelligence artificielle. À l’avenir, nous continuerons à prêter attention aux progrès de Groq et aux changements que ses puces apportent au secteur de l’intelligence artificielle.