doccano 是一個人類導向的開源文字註釋工具。它為文字分類、序列標記和序列到序列任務提供註釋功能。您可以建立用於情緒分析、命名實體識別、文字摘要等的標記資料。只需建立一個項目,上傳數據,然後開始註釋。您可以在數小時內建立資料集。
嘗試註釋演示。
閱讀 https://doccano.github.io/doccano/ 上的文件。
執行 doccano 有以下三個選項:
若要安裝 doccano,請執行:
pip install doccano
預設情況下,預設資料庫使用 SQLite 3。如果您想使用 PostgreSQL,請安裝附加相依性:
pip install ' doccano[postgresql] '
並根據您的 PostgreSQL 憑證設定DATABASE_URL
環境變數:
DATABASE_URL= " postgres:// ${POSTGRES_USER} : ${POSTGRES_PASSWORD} @ ${POSTGRES_HOST} : ${POSTGRES_PORT} / ${POSTGRES_DB} ?sslmode=disable "
安裝後,執行以下命令:
# Initialize database.
doccano init
# Create a super user.
doccano createuser --username admin --password pass
# Start a web server.
doccano webserver --port 8000
在另一個終端機中,運行命令:
# Start the task queue to handle file upload/download.
doccano task
請造訪http://127.0.0.1:8000/。
作為一次性設置,請建立一個 Docker 容器,如下所示:
docker pull doccano/doccano
docker container create --name doccano
-e " ADMIN_USERNAME=admin "
-e " [email protected] "
-e " ADMIN_PASSWORD=password "
-v doccano-db:/data
-p 8000:8000 doccano/doccano
接下來,透過運行容器來啟動 doccano:
docker container start doccano
請造訪http://127.0.0.1:8000/。
若要停止容器,請執行docker container stop doccano -t 5
。容器中建立的所有資料將在重新啟動後保留。
如果您想使用最新功能,請指定nightly
標籤:
docker pull doccano/doccano:nightly
您需要安裝 Git 並複製儲存庫:
git clone https://github.com/doccano/doccano.git
cd doccano
Windows 開發人員請注意:請務必設定 git 以正確處理行結尾,否則在以後的步驟中執行服務時可能會遇到status code 127
錯誤。使用下面的 git 配置選項運行將確保您的 git 目錄正確處理行結尾。
git clone https://github.com/doccano/doccano.git --config core.autocrlf=input
然後,建立一個包含以下格式變數的.env
檔案(請參閱 ./docker/.env.example):
# platform settings
ADMIN_USERNAME=admin
ADMIN_PASSWORD=password
[email protected]
# rabbit mq settings
RABBITMQ_DEFAULT_USER=doccano
RABBITMQ_DEFAULT_PASS=doccano
# database settings
POSTGRES_USER=doccano
POSTGRES_PASSWORD=doccano
POSTGRES_DB=doccano
執行以下指令後,請造訪http://127.0.0.1/。
docker-compose -f docker/docker-compose.prod.yml --env-file .env up
服務 | 按鈕 |
---|---|
AWS 1 | |
赫羅庫 |
有關詳細信息,請參閱文件。
與任何軟體一樣,doccano 正在不斷開發。如果您有功能請求,請提交一個問題來描述您的請求。另外,如果您想看到某個特定功能的工作,請隨時透過努力做出貢獻。標準程序是分叉存儲庫,添加功能,修復錯誤,然後提交拉取請求,將您的更改合併到主存儲庫並包含在下一個版本中。
這裡有一些提示可能會有所幫助。如何為 Doccano 專案做出貢獻
@misc{doccano,
title={{doccano}: Text Annotation Tool for Human},
url={https://github.com/doccano/doccano},
note={Software available from https://github.com/doccano/doccano},
author={
Hiroki Nakayama and
Takahiro Kubo and
Junya Kamura and
Yasufumi Taniguchi and
Xu Liang},
year={2018},
}
如需協助和回饋,請隨時聯繫作者。
(1) EC2 KeyPair 無法自動建立,因此請確保您在某個區域擁有現有的 EC2 KeyPair。或自己創建一個。 (2) 如果您想在AWS中透過HTTPS存取doccano,這裡有一個說明。 ↩