A Hugging Face lançou a Cosmopedia, um enorme conjunto aberto de dados sintéticos contendo 25 bilhões de tokens, fornecendo recursos valiosos para pesquisa de dados sintéticos. Esse conjunto de dados se origina de dados de páginas da Web e abrange vários tópicos, facilitando aos usuários o carregamento de dados em partições específicas sob demanda e fornece um subconjunto menor para facilitar aos usuários começar e experimentar rapidamente. O lançamento da Cosmopedia oferece novas possibilidades de pesquisa e aplicação no campo da inteligência artificial, e também marca um progresso significativo na escala e no escopo de aplicação de conjuntos de dados abertos. Facilitará a formação e a investigação de modelos mais amplos e impulsionará o desenvolvimento da tecnologia de dados sintéticos.
O conjunto de dados da Cosmopedia divulgado pela HuggingFace tem uma escala de 25 bilhões de tokens, tornando-se um marco no campo dos dados sintéticos. A abertura deste conjunto de dados promoverá a investigação académica e a inovação tecnológica, e promoverá o desenvolvimento do campo da inteligência artificial. Métodos de acesso a dados convenientes e fáceis de usar também reduzem as barreiras de uso e oferecem oportunidades para mais pesquisadores. Esperamos resultados de pesquisas mais surpreendentes da Cosmopedia no futuro.