Hugging Face lanzó Cosmopedia, un enorme conjunto de datos sintéticos abiertos que contiene 25 mil millones de tokens y proporciona recursos valiosos para la investigación de datos sintéticos. Este conjunto de datos se origina a partir de datos de páginas web y cubre varios temas, lo que facilita a los usuarios cargar datos en particiones específicas bajo demanda y proporciona un subconjunto más pequeño para facilitar que los usuarios comiencen y experimenten rápidamente. El lanzamiento de Cosmopedia ofrece nuevas posibilidades para la investigación y aplicación en el campo de la inteligencia artificial, y también marca un progreso significativo en la escala y el alcance de aplicación de los conjuntos de datos abiertos. Facilitará una formación e investigación de modelos más amplia e impulsará un mayor desarrollo de la tecnología de datos sintéticos.
El conjunto de datos de Cosmopedia publicado por HuggingFace tiene una escala de 25 mil millones de tokens, lo que lo convierte en un hito en el campo de los datos sintéticos. La apertura de este conjunto de datos promoverá la investigación académica y la innovación tecnológica, y promoverá el desarrollo del campo de la inteligencia artificial. Los métodos de acceso a datos convenientes y fáciles de usar también reducen las barreras de uso y brindan oportunidades para más investigadores. Esperamos más resultados de investigación sorprendentes de Cosmopedia en el futuro.