doccano est un outil d'annotation de texte open source pour les humains. Il fournit des fonctionnalités d'annotation pour la classification de texte, l'étiquetage de séquence et les tâches de séquence à séquence. Vous pouvez créer des données étiquetées pour l'analyse des sentiments, la reconnaissance d'entités nommées, le résumé de texte, etc. Créez simplement un projet, téléchargez des données et commencez à annoter. Vous pouvez créer un ensemble de données en quelques heures.
Essayez la démo d'annotation.
Lisez la documentation sur https://doccano.github.io/doccano/.
Il existe trois options pour exécuter Doccano :
Pour installer Doccano, exécutez :
pip install doccano
Par défaut, SQLite 3 est utilisé pour la base de données par défaut. Si vous souhaitez utiliser PostgreSQL, installez les dépendances supplémentaires :
pip install ' doccano[postgresql] '
et définissez la variable d'environnement DATABASE_URL
en fonction de vos informations d'identification PostgreSQL :
DATABASE_URL= " postgres:// ${POSTGRES_USER} : ${POSTGRES_PASSWORD} @ ${POSTGRES_HOST} : ${POSTGRES_PORT} / ${POSTGRES_DB} ?sslmode=disable "
Après l'installation, exécutez les commandes suivantes :
# Initialize database.
doccano init
# Create a super user.
doccano createuser --username admin --password pass
# Start a web server.
doccano webserver --port 8000
Dans un autre terminal, exécutez la commande :
# Start the task queue to handle file upload/download.
doccano task
Accédez à http://127.0.0.1:8000/.
En tant que configuration unique, créez un conteneur Docker comme suit :
docker pull doccano/doccano
docker container create --name doccano
-e " ADMIN_USERNAME=admin "
-e " [email protected] "
-e " ADMIN_PASSWORD=password "
-v doccano-db:/data
-p 8000:8000 doccano/doccano
Ensuite, démarrez Doccano en exécutant le conteneur :
docker container start doccano
Accédez à http://127.0.0.1:8000/.
Pour arrêter le conteneur, exécutez docker container stop doccano -t 5
. Toutes les données créées dans le conteneur persisteront lors des redémarrages.
Si vous souhaitez utiliser les dernières fonctionnalités, spécifiez la balise nightly
:
docker pull doccano/doccano:nightly
Vous devez installer Git et cloner le dépôt :
git clone https://github.com/doccano/doccano.git
cd doccano
Remarque pour les développeurs Windows : assurez-vous de configurer git pour gérer correctement les fins de ligne, sinon vous pourriez rencontrer des erreurs status code 127
lors de l'exécution des services dans les étapes suivantes. Exécuter avec les options de configuration git ci-dessous garantira que votre répertoire git gère correctement les fins de ligne.
git clone https://github.com/doccano/doccano.git --config core.autocrlf=input
Ensuite, créez un fichier .env
avec des variables au format suivant (voir ./docker/.env.example) :
# platform settings
ADMIN_USERNAME=admin
ADMIN_PASSWORD=password
[email protected]
# rabbit mq settings
RABBITMQ_DEFAULT_USER=doccano
RABBITMQ_DEFAULT_PASS=doccano
# database settings
POSTGRES_USER=doccano
POSTGRES_PASSWORD=doccano
POSTGRES_DB=doccano
Après avoir exécuté la commande suivante, accédez à http://127.0.0.1/.
docker-compose -f docker/docker-compose.prod.yml --env-file .env up
Service | Bouton |
---|---|
AWS1 | |
Héroku |
Consultez la documentation pour plus de détails.
Comme tout logiciel, doccano est en développement continu. Si vous avez des demandes de fonctionnalités, veuillez déposer un problème décrivant votre demande. De plus, si vous souhaitez voir des travaux sur une fonctionnalité spécifique, n'hésitez pas à contribuer en y travaillant. La procédure standard consiste à créer le référentiel, à ajouter une fonctionnalité, à corriger un bogue, puis à déposer une demande d'extraction indiquant que vos modifications doivent être fusionnées dans le référentiel principal et incluses dans la prochaine version.
Voici quelques conseils qui pourraient être utiles. Comment contribuer au projet Doccano
@misc{doccano,
title={{doccano}: Text Annotation Tool for Human},
url={https://github.com/doccano/doccano},
note={Software available from https://github.com/doccano/doccano},
author={
Hiroki Nakayama and
Takahiro Kubo and
Junya Kamura and
Yasufumi Taniguchi and
Xu Liang},
year={2018},
}
Pour obtenir de l'aide et des commentaires, n'hésitez pas à contacter l'auteur.
(1) EC2 KeyPair ne peut pas être créé automatiquement, alors assurez-vous d'avoir une EC2 KeyPair existante dans une région. Ou créez-en un vous-même. (2) Si vous souhaitez accéder à Doccano via HTTPS dans AWS, voici une instruction. ↩