doccano — это инструмент для текстовых аннотаций с открытым исходным кодом для людей. Он предоставляет функции аннотаций для классификации текста, маркировки последовательностей и выполнения задач последовательности. Вы можете создавать помеченные данные для анализа настроений, распознавания именованных объектов, обобщения текста и т. д. Просто создайте проект, загрузите данные и начните аннотировать. Вы можете построить набор данных за несколько часов.
Попробуйте демо-версию аннотаций.
Прочтите документацию по адресу https://doccano.github.io/doccano/.
Есть три варианта запуска doccano:
Чтобы установить doccano, запустите:
pip install doccano
По умолчанию в качестве базы данных по умолчанию используется SQLite 3. Если вы хотите использовать PostgreSQL, установите дополнительные зависимости:
pip install ' doccano[postgresql] '
и установите переменную среды DATABASE_URL
в соответствии с вашими учетными данными PostgreSQL:
DATABASE_URL= " postgres:// ${POSTGRES_USER} : ${POSTGRES_PASSWORD} @ ${POSTGRES_HOST} : ${POSTGRES_PORT} / ${POSTGRES_DB} ?sslmode=disable "
После установки выполните следующие команды:
# Initialize database.
doccano init
# Create a super user.
doccano createuser --username admin --password pass
# Start a web server.
doccano webserver --port 8000
В другом терминале выполните команду:
# Start the task queue to handle file upload/download.
doccano task
Перейдите по адресу http://127.0.0.1:8000/.
В качестве однократной настройки создайте контейнер Docker следующим образом:
docker pull doccano/doccano
docker container create --name doccano
-e " ADMIN_USERNAME=admin "
-e " [email protected] "
-e " ADMIN_PASSWORD=password "
-v doccano-db:/data
-p 8000:8000 doccano/doccano
Затем запустите doccano, запустив контейнер:
docker container start doccano
Перейдите по адресу http://127.0.0.1:8000/.
Чтобы остановить контейнер, запустите docker container stop doccano -t 5
. Все данные, созданные в контейнере, сохранятся после перезапуска.
Если вы хотите использовать новейшие возможности, укажите nightly
тег:
docker pull doccano/doccano:nightly
Вам необходимо установить Git и клонировать репозиторий:
git clone https://github.com/doccano/doccano.git
cd doccano
Примечание для разработчиков Windows: обязательно настройте git для правильной обработки концов строк, иначе вы можете столкнуться с ошибками status code 127
при запуске служб на будущих этапах. Использование приведенных ниже параметров конфигурации git гарантирует, что ваш каталог git правильно обрабатывает окончания строк.
git clone https://github.com/doccano/doccano.git --config core.autocrlf=input
Затем создайте файл .env
с переменными в следующем формате (см. ./docker/.env.example):
# platform settings
ADMIN_USERNAME=admin
ADMIN_PASSWORD=password
[email protected]
# rabbit mq settings
RABBITMQ_DEFAULT_USER=doccano
RABBITMQ_DEFAULT_PASS=doccano
# database settings
POSTGRES_USER=doccano
POSTGRES_PASSWORD=doccano
POSTGRES_DB=doccano
После выполнения следующей команды откройте http://127.0.0.1/.
docker-compose -f docker/docker-compose.prod.yml --env-file .env up
Услуга | Кнопка |
---|---|
АВС 1 | |
Хероку |
Подробности смотрите в документации.
Как и любое программное обеспечение, doccano постоянно развивается. Если у вас есть запросы на функции, отправьте сообщение о проблеме, описывающее ваш запрос. Кроме того, если вы хотите увидеть работу над определенной функцией, не стесняйтесь внести свой вклад, работая над ней. Стандартная процедура — создать форк репозитория, добавить функцию, исправить ошибку, а затем подать запрос на включение ваших изменений в основной репозиторий и включить их в следующий выпуск.
Вот несколько советов, которые могут оказаться полезными. Как внести свой вклад в проект Doccano
@misc{doccano,
title={{doccano}: Text Annotation Tool for Human},
url={https://github.com/doccano/doccano},
note={Software available from https://github.com/doccano/doccano},
author={
Hiroki Nakayama and
Takahiro Kubo and
Junya Kamura and
Yasufumi Taniguchi and
Xu Liang},
year={2018},
}
За помощью и отзывами обращайтесь к автору.
(1) Пара ключей EC2 не может быть создана автоматически, поэтому убедитесь, что у вас есть существующая пара ключей EC2 в одном регионе. Или создайте его сами. (2) Если вы хотите получить доступ к doccano через HTTPS в AWS, вот инструкция. ↩