HuggingFace выпускает Cosmopedia, крупнейший открытый синтетический набор данных, содержащий 25 миллиардов токенов
HuggingFace выпустила Cosmopedia, крупнейший открытый синтетический набор данных, содержащий 25 миллиардов токенов. Этот набор данных получен из набора веб-данных и призван обеспечить основу для исследований в области синтетических данных и продемонстриро
2025-02-03