HuggingFace는 250억 개의 토큰을 포함하는 최대 개방형 합성 데이터 세트인 Cosmopedia를 출시합니다.
HuggingFace는 250억 개의 토큰을 포함하는 최대 규모의 공개 합성 데이터 세트인 Cosmopedia를 출시했습니다. 이 데이터 세트는 웹 데이터 세트에서 파생되었으며 합성 데이터 분야의 연구를 위한 기반을 제공하고 다양한 주제에 대한 적용을 입증하는 것을 목표로 합니다. 사용자는 필요에 따라 특정 파티션에서 데이터를 로드하는 동시에 상대적인 파티션을 제공할 수 있습니다.
2025-02-03