Hugging Face a lancé Cosmopedia, un vaste ensemble de données synthétiques ouvertes contenant 25 milliards de jetons, fournissant des ressources précieuses pour la recherche de données synthétiques. Cet ensemble de données provient des données de pages Web et couvre divers sujets, ce qui permet aux utilisateurs de charger facilement des données dans des partitions spécifiques à la demande, et fournit un sous-ensemble plus petit pour permettre aux utilisateurs de démarrer et d'expérimenter rapidement. La sortie de Cosmopedia offre de nouvelles possibilités de recherche et d'application dans le domaine de l'intelligence artificielle, et marque également un progrès significatif dans l'échelle et la portée des applications des ensembles de données ouvertes. Il facilitera une formation et une recherche plus larges sur les modèles et stimulera le développement ultérieur de la technologie des données synthétiques.
L'ensemble de données Cosmopedia publié par HuggingFace a une échelle de 25 milliards de jetons, ce qui en fait une étape importante dans le domaine des données synthétiques. L’ouverture de cet ensemble de données favorisera la recherche universitaire et l’innovation technologique, ainsi que le développement du domaine de l’intelligence artificielle. Des méthodes d’accès aux données pratiques et faciles à utiliser réduisent également les obstacles à l’utilisation et offrent des opportunités à davantage de chercheurs. Nous attendons avec impatience des résultats de recherche plus surprenants de Cosmopedia à l’avenir.