doccano は、人間用のオープンソースのテキスト注釈ツールです。テキストの分類、シーケンスのラベル付け、シーケンス間のタスクに注釈機能を提供します。感情分析、固有表現認識、テキスト要約などのためにラベル付きデータを作成できます。プロジェクトを作成し、データをアップロードして、注釈を付けるだけです。データセットは数時間で構築できます。
注釈のデモをお試しください。
https://doccano.github.io/doccano/ のドキュメントをお読みください。
doccano を実行するには 3 つのオプションがあります。
doccano をインストールするには、次を実行します。
pip install doccano
デフォルトでは、SQLite 3 がデフォルトのデータベースとして使用されます。 PostgreSQL を使用する場合は、追加の依存関係をインストールします。
pip install ' doccano[postgresql] '
PostgreSQL 認証情報に従ってDATABASE_URL
環境変数を設定します。
DATABASE_URL= " postgres:// ${POSTGRES_USER} : ${POSTGRES_PASSWORD} @ ${POSTGRES_HOST} : ${POSTGRES_PORT} / ${POSTGRES_DB} ?sslmode=disable "
インストール後、次のコマンドを実行します。
# Initialize database.
doccano init
# Create a super user.
doccano createuser --username admin --password pass
# Start a web server.
doccano webserver --port 8000
別のターミナルで次のコマンドを実行します。
# Start the task queue to handle file upload/download.
doccano task
http://127.0.0.1:8000/ にアクセスします。
1 回限りのセットアップとして、次のように Docker コンテナを作成します。
docker pull doccano/doccano
docker container create --name doccano
-e " ADMIN_USERNAME=admin "
-e " [email protected] "
-e " ADMIN_PASSWORD=password "
-v doccano-db:/data
-p 8000:8000 doccano/doccano
次に、コンテナを実行して doccano を起動します。
docker container start doccano
http://127.0.0.1:8000/ にアクセスします。
コンテナーを停止するには、 docker container stop doccano -t 5
を実行します。コンテナー内で作成されたすべてのデータは、再起動後も保持されます。
最新の機能を使用したい場合は、 nightly
タグを指定します。
docker pull doccano/doccano:nightly
Git をインストールし、リポジトリのクローンを作成する必要があります。
git clone https://github.com/doccano/doccano.git
cd doccano
Windows 開発者向けの注意:行末を正しく処理するように git を構成してください。そうしないと、以降の手順でサービスを実行するときにstatus code 127
エラーが発生する可能性があります。以下の git config オプションを使用して実行すると、git ディレクトリが行末を正しく処理できるようになります。
git clone https://github.com/doccano/doccano.git --config core.autocrlf=input
次に、次の形式の変数を含む.env
ファイルを作成します (./docker/.env.example を参照)。
# platform settings
ADMIN_USERNAME=admin
ADMIN_PASSWORD=password
[email protected]
# rabbit mq settings
RABBITMQ_DEFAULT_USER=doccano
RABBITMQ_DEFAULT_PASS=doccano
# database settings
POSTGRES_USER=doccano
POSTGRES_PASSWORD=doccano
POSTGRES_DB=doccano
以下のコマンドを実行後、http://127.0.0.1/にアクセスします。
docker-compose -f docker/docker-compose.prod.yml --env-file .env up
サービス | ボタン |
---|---|
AWS 1 | |
Heroku |
詳細についてはドキュメントを参照してください。
他のソフトウェアと同様に、doccano も継続的に開発中です。機能に関するリクエストがある場合は、リクエストを説明した問題を提出してください。また、特定の機能への取り組みを確認したい場合は、その機能に向けて自由に貢献してください。標準的な手順では、リポジトリをフォークし、機能を追加し、バグを修正し、変更をメイン リポジトリにマージして次のリリースに含めるようプル リクエストを提出します。
役に立つかもしれないヒントをいくつか紹介します。 Doccano プロジェクトに貢献する方法
@misc{doccano,
title={{doccano}: Text Annotation Tool for Human},
url={https://github.com/doccano/doccano},
note={Software available from https://github.com/doccano/doccano},
author={
Hiroki Nakayama and
Takahiro Kubo and
Junya Kamura and
Yasufumi Taniguchi and
Xu Liang},
year={2018},
}
ヘルプやフィードバックが必要な場合は、お気軽に作者にお問い合わせください。
(1) EC2 KeyPair は自動的に作成できないため、1 つのリージョンに既存の EC2 KeyPair があることを確認してください。または自分で作成します。 (2) AWS で HTTPS 経由で doccano にアクセスする場合は、次の手順を実行します。 ↩