doccano é uma ferramenta de anotação de texto de código aberto para humanos. Ele fornece recursos de anotação para classificação de texto, rotulagem de sequência e tarefas de sequência para sequência. Você pode criar dados rotulados para análise de sentimento, reconhecimento de entidade nomeada, resumo de texto e assim por diante. Basta criar um projeto, fazer upload dos dados e começar a anotar. Você pode construir um conjunto de dados em horas.
Experimente a demonstração de anotação.
Leia a documentação em https://doccano.github.io/doccano/.
Existem três opções para executar o doccano:
Para instalar o doccano, execute:
pip install doccano
Por padrão, o SQLite 3 é usado para o banco de dados padrão. Se você quiser usar o PostgreSQL, instale as dependências adicionais:
pip install ' doccano[postgresql] '
e defina a variável de ambiente DATABASE_URL
de acordo com suas credenciais do PostgreSQL:
DATABASE_URL= " postgres:// ${POSTGRES_USER} : ${POSTGRES_PASSWORD} @ ${POSTGRES_HOST} : ${POSTGRES_PORT} / ${POSTGRES_DB} ?sslmode=disable "
Após a instalação, execute os seguintes comandos:
# Initialize database.
doccano init
# Create a super user.
doccano createuser --username admin --password pass
# Start a web server.
doccano webserver --port 8000
Em outro terminal, execute o comando:
# Start the task queue to handle file upload/download.
doccano task
Vá para http://127.0.0.1:8000/.
Como configuração única, crie um contêiner Docker da seguinte maneira:
docker pull doccano/doccano
docker container create --name doccano
-e " ADMIN_USERNAME=admin "
-e " [email protected] "
-e " ADMIN_PASSWORD=password "
-v doccano-db:/data
-p 8000:8000 doccano/doccano
Em seguida, inicie o doccano executando o contêiner:
docker container start doccano
Vá para http://127.0.0.1:8000/.
Para parar o contêiner, execute docker container stop doccano -t 5
. Todos os dados criados no contêiner persistirão durante as reinicializações.
Se você quiser usar os recursos mais recentes, especifique a tag nightly
:
docker pull doccano/doccano:nightly
Você precisa instalar o Git e clonar o repositório:
git clone https://github.com/doccano/doccano.git
cd doccano
Nota para desenvolvedores do Windows: certifique-se de configurar o git para lidar corretamente com finais de linha ou você poderá encontrar erros status code 127
ao executar os serviços em etapas futuras. Executar com as opções de configuração do git abaixo garantirá que seu diretório git lide corretamente com os finais de linha.
git clone https://github.com/doccano/doccano.git --config core.autocrlf=input
Em seguida, crie um arquivo .env
com variáveis no seguinte formato (consulte ./docker/.env.example):
# platform settings
ADMIN_USERNAME=admin
ADMIN_PASSWORD=password
[email protected]
# rabbit mq settings
RABBITMQ_DEFAULT_USER=doccano
RABBITMQ_DEFAULT_PASS=doccano
# database settings
POSTGRES_USER=doccano
POSTGRES_PASSWORD=doccano
POSTGRES_DB=doccano
Após executar o seguinte comando, acesse http://127.0.0.1/.
docker-compose -f docker/docker-compose.prod.yml --env-file .env up
Serviço | Botão |
---|---|
AWS 1 | |
Heroku |
Consulte a documentação para obter detalhes.
Como acontece com qualquer software, o doccano está em contínuo desenvolvimento. Se você tiver solicitações de recursos, registre um problema descrevendo sua solicitação. Além disso, se você quiser ver o trabalho em um recurso específico, sinta-se à vontade para contribuir trabalhando nesse sentido. O procedimento padrão é bifurcar o repositório, adicionar um recurso, corrigir um bug e, em seguida, enviar uma solicitação pull para que suas alterações sejam mescladas no repositório principal e incluídas na próxima versão.
Aqui estão algumas dicas que podem ser úteis. Como contribuir para o projeto Doccano
@misc{doccano,
title={{doccano}: Text Annotation Tool for Human},
url={https://github.com/doccano/doccano},
note={Software available from https://github.com/doccano/doccano},
author={
Hiroki Nakayama and
Takahiro Kubo and
Junya Kamura and
Yasufumi Taniguchi and
Xu Liang},
year={2018},
}
Para obter ajuda e feedback, sinta-se à vontade para entrar em contato com o autor.
(1) O KeyPair do EC2 não pode ser criado automaticamente, portanto, certifique-se de ter um KeyPair do EC2 existente em uma região. Ou crie um você mesmo. (2) Se você deseja acessar o doccano via HTTPS na AWS, aqui está uma instrução. ↩