Hugging Face meluncurkan Cosmopedia, kumpulan data sintetis terbuka berukuran besar yang berisi 25 miliar token, menyediakan sumber daya berharga untuk penelitian data sintetis. Kumpulan data ini berasal dari data halaman web dan mencakup berbagai topik, sehingga memudahkan pengguna memuat data di partisi tertentu sesuai permintaan, dan menyediakan subset yang lebih kecil untuk memudahkan pengguna memulai dan bereksperimen dengan cepat. Peluncuran Cosmopedia memberikan kemungkinan baru untuk penelitian dan penerapan di bidang kecerdasan buatan, dan juga menandai kemajuan signifikan dalam skala dan cakupan penerapan kumpulan data terbuka. Hal ini akan memfasilitasi pelatihan dan penelitian model yang lebih luas serta mendorong pengembangan lebih lanjut teknologi data sintetis.
Kumpulan data Cosmopedia yang dirilis oleh HuggingFace memiliki skala 25 miliar token, menjadikannya tonggak sejarah dalam bidang data sintetis. Keterbukaan kumpulan data ini akan mendorong penelitian akademis dan inovasi teknologi, serta mendorong pengembangan bidang kecerdasan buatan. Metode akses data yang nyaman dan mudah digunakan juga menurunkan hambatan dalam penggunaan dan memberikan peluang bagi lebih banyak peneliti. Kami menantikan hasil penelitian yang lebih mengejutkan dari Cosmopedia di masa mendatang.