doccano ist ein Open-Source-Textanmerkungstool für Menschen. Es bietet Anmerkungsfunktionen für die Textklassifizierung, Sequenzkennzeichnung und Sequenz-zu-Sequenz-Aufgaben. Sie können beschriftete Daten für die Stimmungsanalyse, die Erkennung benannter Entitäten, die Textzusammenfassung usw. erstellen. Erstellen Sie einfach ein Projekt, laden Sie Daten hoch und beginnen Sie mit der Kommentierung. Sie können in wenigen Stunden einen Datensatz erstellen.
Probieren Sie die Anmerkungsdemo aus.
Lesen Sie die Dokumentation unter https://doccano.github.io/doccano/.
Es gibt drei Möglichkeiten, Doccano auszuführen:
Um doccano zu installieren, führen Sie Folgendes aus:
pip install doccano
Standardmäßig wird SQLite 3 für die Standarddatenbank verwendet. Wenn Sie PostgreSQL verwenden möchten, installieren Sie die zusätzlichen Abhängigkeiten:
pip install ' doccano[postgresql] '
und legen Sie die Umgebungsvariable DATABASE_URL
entsprechend Ihren PostgreSQL-Anmeldeinformationen fest:
DATABASE_URL= " postgres:// ${POSTGRES_USER} : ${POSTGRES_PASSWORD} @ ${POSTGRES_HOST} : ${POSTGRES_PORT} / ${POSTGRES_DB} ?sslmode=disable "
Führen Sie nach der Installation die folgenden Befehle aus:
# Initialize database.
doccano init
# Create a super user.
doccano createuser --username admin --password pass
# Start a web server.
doccano webserver --port 8000
Führen Sie in einem anderen Terminal den Befehl aus:
# Start the task queue to handle file upload/download.
doccano task
Gehen Sie zu http://127.0.0.1:8000/.
Erstellen Sie als einmalige Einrichtung einen Docker-Container wie folgt:
docker pull doccano/doccano
docker container create --name doccano
-e " ADMIN_USERNAME=admin "
-e " [email protected] "
-e " ADMIN_PASSWORD=password "
-v doccano-db:/data
-p 8000:8000 doccano/doccano
Als nächstes starten Sie doccano, indem Sie den Container ausführen:
docker container start doccano
Gehen Sie zu http://127.0.0.1:8000/.
Um den Container zu stoppen, führen Sie docker container stop doccano -t 5
aus. Alle im Container erstellten Daten bleiben auch nach Neustarts erhalten.
Wenn Sie die neuesten Funktionen nutzen möchten, geben Sie das nightly
-Tag an:
docker pull doccano/doccano:nightly
Sie müssen Git installieren und das Repository klonen:
git clone https://github.com/doccano/doccano.git
cd doccano
Hinweis für Windows-Entwickler: Stellen Sie sicher, dass Sie Git so konfigurieren, dass Zeilenenden korrekt verarbeitet werden. Andernfalls kann es beim Ausführen der Dienste in zukünftigen Schritten zu Fehlern status code 127
kommen. Durch die Ausführung mit den folgenden Git-Konfigurationsoptionen wird sichergestellt, dass Ihr Git-Verzeichnis Zeilenenden korrekt verarbeitet.
git clone https://github.com/doccano/doccano.git --config core.autocrlf=input
Erstellen Sie dann eine .env
Datei mit Variablen im folgenden Format (siehe ./docker/.env.example):
# platform settings
ADMIN_USERNAME=admin
ADMIN_PASSWORD=password
[email protected]
# rabbit mq settings
RABBITMQ_DEFAULT_USER=doccano
RABBITMQ_DEFAULT_PASS=doccano
# database settings
POSTGRES_USER=doccano
POSTGRES_PASSWORD=doccano
POSTGRES_DB=doccano
Nachdem Sie den folgenden Befehl ausgeführt haben, greifen Sie auf http://127.0.0.1/ zu.
docker-compose -f docker/docker-compose.prod.yml --env-file .env up
Service | Taste |
---|---|
AWS 1 | |
Heroku |
Weitere Informationen finden Sie in der Dokumentation.
Wie jede Software wird auch doccano kontinuierlich weiterentwickelt. Wenn Sie Anfragen zu Funktionen haben, reichen Sie bitte eine Problembeschreibung ein, in der Ihre Anfrage beschrieben wird. Wenn Sie außerdem sehen möchten, wie auf eine bestimmte Funktion hingearbeitet wird, können Sie gerne einen Beitrag leisten, indem Sie darauf hinarbeiten. Das Standardverfahren besteht darin, das Repository zu forken, eine Funktion hinzuzufügen, einen Fehler zu beheben und dann einen Pull-Request einzureichen, damit Ihre Änderungen im Haupt-Repository zusammengeführt und in die nächste Version aufgenommen werden.
Hier sind einige Tipps, die hilfreich sein könnten. So tragen Sie zum Doccano-Projekt bei
@misc{doccano,
title={{doccano}: Text Annotation Tool for Human},
url={https://github.com/doccano/doccano},
note={Software available from https://github.com/doccano/doccano},
author={
Hiroki Nakayama and
Takahiro Kubo and
Junya Kamura and
Yasufumi Taniguchi and
Xu Liang},
year={2018},
}
Für Hilfe und Feedback können Sie sich gerne an den Autor wenden.
(1) EC2 KeyPair kann nicht automatisch erstellt werden. Stellen Sie daher sicher, dass in einer Region bereits ein EC2 KeyPair vorhanden ist. Oder erstellen Sie selbst eines. (2) Wenn Sie über HTTPS in AWS auf Doccano zugreifen möchten, finden Sie hier eine Anleitung. ↩