Etched AI, une start-up américaine spécialisée dans les puces, a récemment réalisé une percée majeure en intégrant avec succès l'architecture Transformer directement dans la puce et en développant le premier serveur au monde spécialement conçu pour l'inférence Transformer. Les performances de ce serveur dépassent de loin celles des produits similaires de NVIDIA, il peut exécuter des modèles de milliards de paramètres et possède de nombreuses fonctions telles qu'un agent vocal en temps réel, un encodage et une recherche arborescente efficaces, un décodage spéculatif multicast, etc. Mémoire à large bande passante HBM3E de 144 Go. Cette innovation devrait changer complètement les perspectives d’application de l’architecture Transformer et apporter des changements révolutionnaires dans le domaine de l’intelligence artificielle.
L’article se concentre sur :
La startup américaine de puces Etched AI a réussi à graver l'architecture Transformer directement dans la puce, créant ainsi le serveur le plus puissant au monde dédié à l'inférence Transformer. Cette technologie peut exécuter des modèles avec des milliards de paramètres, avec des centaines de kilomètres d'avance sur Nvidia. Le serveur possède de multiples fonctionnalités, notamment le proxy vocal en temps réel, de meilleures capacités d'encodage et de recherche arborescente, des capacités de décodage spéculatif multicast et est équipé d'un HBM3E de 144 Go. Cette technologie révolutionnaire apportera de nouvelles possibilités à l’application de l’architecture Transformer.
Cette percée d'Etched AI marque un grand pas en avant dans le domaine du matériel d'intelligence artificielle. Ses performances puissantes et ses fonctions riches apporteront des améliorations significatives à de nombreux scénarios d'application et mériteront l'attention et les attentes de l'industrie. À l’avenir, nous pourrions voir davantage d’applications innovantes basées sur cette technologie.