doccano 是一个面向人类的开源文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。您可以创建用于情感分析、命名实体识别、文本摘要等的标记数据。只需创建一个项目,上传数据,然后开始注释。您可以在数小时内构建数据集。
尝试注释演示。
阅读 https://doccano.github.io/doccano/ 上的文档。
运行 doccano 有以下三个选项:
要安装 doccano,请运行:
pip install doccano
默认情况下,默认数据库使用 SQLite 3。如果您想使用 PostgreSQL,请安装附加依赖项:
pip install ' doccano[postgresql] '
并根据您的 PostgreSQL 凭据设置DATABASE_URL
环境变量:
DATABASE_URL= " postgres:// ${POSTGRES_USER} : ${POSTGRES_PASSWORD} @ ${POSTGRES_HOST} : ${POSTGRES_PORT} / ${POSTGRES_DB} ?sslmode=disable "
安装后,运行以下命令:
# Initialize database.
doccano init
# Create a super user.
doccano createuser --username admin --password pass
# Start a web server.
doccano webserver --port 8000
在另一个终端中,运行命令:
# Start the task queue to handle file upload/download.
doccano task
访问http://127.0.0.1:8000/。
作为一次性设置,创建一个 Docker 容器,如下所示:
docker pull doccano/doccano
docker container create --name doccano
-e " ADMIN_USERNAME=admin "
-e " [email protected] "
-e " ADMIN_PASSWORD=password "
-v doccano-db:/data
-p 8000:8000 doccano/doccano
接下来,通过运行容器来启动 doccano:
docker container start doccano
访问http://127.0.0.1:8000/。
要停止容器,请运行docker container stop doccano -t 5
。容器中创建的所有数据将在重新启动后保留。
如果您想使用最新功能,请指定nightly
标签:
docker pull doccano/doccano:nightly
您需要安装 Git 并克隆存储库:
git clone https://github.com/doccano/doccano.git
cd doccano
Windows 开发人员请注意:请务必配置 git 以正确处理行结尾,否则在以后的步骤中运行服务时可能会遇到status code 127
错误。使用下面的 git 配置选项运行将确保您的 git 目录正确处理行结尾。
git clone https://github.com/doccano/doccano.git --config core.autocrlf=input
然后,创建一个包含以下格式变量的.env
文件(请参阅 ./docker/.env.example):
# platform settings
ADMIN_USERNAME=admin
ADMIN_PASSWORD=password
[email protected]
# rabbit mq settings
RABBITMQ_DEFAULT_USER=doccano
RABBITMQ_DEFAULT_PASS=doccano
# database settings
POSTGRES_USER=doccano
POSTGRES_PASSWORD=doccano
POSTGRES_DB=doccano
执行以下命令后,访问http://127.0.0.1/。
docker-compose -f docker/docker-compose.prod.yml --env-file .env up
服务 | 按钮 |
---|---|
AWS 1 | |
赫罗库 |
有关详细信息,请参阅文档。
与任何软件一样,doccano 正在不断开发。如果您有功能请求,请提交一个问题来描述您的请求。另外,如果您想看到某个特定功能的工作,请随时通过努力做出贡献。标准程序是分叉存储库,添加功能,修复错误,然后提交拉取请求,将您的更改合并到主存储库并包含在下一个版本中。
这里有一些提示可能会有所帮助。如何为 Doccano 项目做出贡献
@misc{doccano,
title={{doccano}: Text Annotation Tool for Human},
url={https://github.com/doccano/doccano},
note={Software available from https://github.com/doccano/doccano},
author={
Hiroki Nakayama and
Takahiro Kubo and
Junya Kamura and
Yasufumi Taniguchi and
Xu Liang},
year={2018},
}
如需帮助和反馈,请随时联系作者。
(1) EC2 KeyPair 无法自动创建,因此请确保您在某个区域拥有现有的 EC2 KeyPair。或者自己创建一个。 (2) 如果您想在AWS中通过HTTPS访问doccano,这里有一个说明。 ↩