易数据宇宙
v0.4.1
EasyDataverse 是一个 Python 库,用于连接 Dataverse 安装并动态生成与 Dataverse 安装中给定的元数据块配置兼容的 Python 对象。此外,EasyDataverse 允许您从各种数据格式导出和导入数据集。
通过运行以下命令开始使用 EasyDataverse
# Using PyPI
pip install easyDataverse
或者通过源代码构建
pip install git+https://github.com/gdcc/easyDataverse.git
EasyDataverse 能够连接到给定的 Dataverse 安装并获取所有元数据字段及其属性。这允许您使用 Dataverse 安装中给出的所有元数据字段及其属性创建一个数据集对象。
from easyDataverse import Dataverse
# Connect to a Dataverse installation
dataverse = Dataverse (
server_url = "https://demo.dataverse.org" ,
api_token = "MY_API_TOKEN" ,
)
# Initialize a dataset
dataset = dataverse . create_dataset ()
# Fill metadata blocks
dataset . citation . title = "My dataset"
dataset . citation . subject = [ "Other" ]
dataset . citation . add_author ( name = "John Doe" )
dataset . citation . add_dataset_contact ( name = "John Doe" , email = "[email protected]" )
dataset . citation . add_ds_description ( value = "This is a description of the dataset" )
# Upload files or directories
dataset . add_file ( local_path = "./my.file" , dv_dir = "some/dir" )
dataset . add_directory ( dirpath = "./my_directory" , dv_dir = "some/dir" )
# Upload to the dataverse instance
dataset . upload ( "my_dataverse_id" )
EasyDataset 允许您从任何 Dataverse 安装下载数据集。下载的数据集表示为面向对象的结构,可用于更新元数据/文件、将数据集导出为各种格式或在后续应用程序中使用它。
# Method 1: Download a dataset by its DOI
dataverse = Dataverse ( "https://demo.dataverse.org" )
dataset = dataverse . load_dataset (
pid = "doi:10.70122/FK2/W5AGKD" ,
version = "1" ,
filedir = "place/for/data" ,
)
# Method 2: Download via URL
dataset , dataverse = Dataverse . from_ds_url (
url = "https://demo.dataverse.org/dataset.xhtml?persistentId=doi:10.70122/XX/XXXXX&version=DRAFT" ,
api_token = "MY_API_TOKEN"
)
# Display the content of the dataset
print ( dataset )
# Update metadata
dataset . citation . title = "My even nicer dataset"
# Synchronize with the dataverse instance
dataset . update ()
您可以在示例目录中找到完整的示例笔记本。本笔记本演示了 EasyDataverse 的基本概念以及如何在实践中使用它。
EasyDataverse
是根据 MIT 许可证授权的免费开源软件。