Загрузка auctus - Загрузка исходного кода auctus

auctus

Другой исходный код

1.0.0

Скачать

Ауктус

Этот проект представляет собой веб-сканер и поисковую систему для наборов данных, специально предназначенную для задач по увеличению данных в машинном обучении. Он способен находить наборы данных в разных репозиториях и индексировать их для последующего поиска.

Документация доступна здесь

Он разделен на несколько компонентов:

Библиотеки
- Геопространственная база данных datamart_geo . Содержит данные об административных территориях, извлеченные из Wikidata и OpenStreetMap. Он находится в собственном репозитории и используется здесь как подмодуль.
- Библиотека профилирования datamart_profiler . Это может быть установлено клиентами, что позволит клиентской библиотеке локально профилировать наборы данных, а не отправлять их на сервер. Он также используется службами apiserver и профилировщика.
- Библиотека материализации datamart_materialize . Это используется для материализации набора данных из различных источников, поддерживаемых Auctus. Его могут установить клиенты, что позволит им материализовать наборы данных локально, вместо использования сервера в качестве прокси.
- Библиотека расширения данных datamart_augmentation . Это выполняет объединение или объединение двух наборов данных и используется службой apiserver, но, возможно, может использоваться автономно.
- Библиотека основного сервера datamart_core . Он содержит общий код для служб. Используется только для серверных компонентов. Код блокировки файловой системы выделен как datamart_fslock по соображениям производительности (необходимо быстро импортировать).
Услуги
- Службы обнаружения : они отвечают за обнаружение наборов данных. Каждый плагин может обращаться к определенному репозиторию. Метаданные материализации записываются для каждого набора данных, чтобы обеспечить возможность извлечения этого набора данных в будущем.
- Профилировщик : этот сервис загружает обнаруженный набор данных и вычисляет дополнительные метаданные, которые можно использовать для поиска (например, измерения, семантические типы, распределения значений). Использует библиотеки профилирования и материализации.
- Сервер Lazo : этот сервис отвечает за индексацию текстовых и категориальных атрибутов с использованием Lazo. Код сервера и клиента доступен здесь.
- apiserver : эта служба отвечает на запросы клиентов на поиск наборов данных в индексе (запуская запрос по требованию службами обнаружения, которые его поддерживают), загрузку новых наборов данных, наборов данных профиля или выполнение дополнения. Использует библиотеки профилирования и материализации. Реализует API JSON с использованием веб-фреймворка Tornado.
- Очиститель кэша : эта служба гарантирует, что размер кэша набора данных не превышает заданного ограничения, удаляя наборы данных, которые использовались реже всего, при достижении настроенного размера.
- Координатор : этот сервис собирает некоторые показатели и предлагает интерфейс обслуживания для системного администратора.
- Интерфейс : это приложение React, реализующее удобный веб-интерфейс поверх API.

Ауктус Архитектура

Elasticsearch используется в качестве индекса поиска, сохраняя один документ для каждого известного набора данных.

Службы обмениваются сообщениями через RabbitMQ , что позволяет нам использовать сложные шаблоны обмена сообщениями с семантикой организации очередей и повторных попыток, а также сложные шаблоны, такие как запросы по требованию.

Обзор AMQP

Развертывание

В настоящее время система работает по адресу https://auctus.vida-nyu.org/. Статус системы можно увидеть по адресу https://grafana.auctus.vida-nyu.org/.

Настройка локального развертывания/разработки

Чтобы развернуть систему локально с помощью docker-compose, выполните следующие действия:

Настройка среды

Убедитесь, что вы извлекли подмодуль с помощью git submodule init && git submodule update

Убедитесь, что у вас установлен и настроен Git LFS ( git lfs install ).

Скопируйте env.default в .env и обновите там переменные. Возможно, вы захотите обновить пароль для производственного развертывания.

Убедитесь, что ваш узел настроен для запуска Elasticsearch. Вероятно, вам придется увеличить лимит mmap.

API_URL — это URL-адрес, по которому контейнеры API-сервера будут видны клиентам. В рабочем развертывании это, вероятно, общедоступный URL-адрес HTTPS. Это может быть тот же URL-адрес, по которому будет обслуживаться компонент «координатор» при использовании обратного прокси-сервера (см. nginx.conf).

Чтобы запускать сценарии локально, вы можете загрузить переменные среды в свою оболочку, запустив: . scripts/load_env.sh (это сценарии с точечным пространством... )

Подготовьте объемы данных

Запустите scripts/setup.sh чтобы инициализировать тома данных. Это установит правильные разрешения для volumes/ подкаталогов.

Если вы когда-нибудь захотите начать с нуля, вы можете удалить volumes/ но обязательно после этого снова запустите scripts/setup.sh чтобы установить разрешения.

Сборка контейнеров

 $ docker-compose build --build-arg version=$(git describe) apiserver

Запустите базовые контейнеры

 $ docker-compose up -d elasticsearch rabbitmq redis minio lazo

Это займет несколько секунд, чтобы начать работу. Затем вы можете запустить другие компоненты:

 $ docker-compose up -d cache-cleaner coordinator profiler apiserver apilb frontend

Вы можете использовать опцию --scale , чтобы запустить больше контейнеров профилировщика или API-сервера, например:

 $ docker-compose up -d --scale profiler=4 --scale apiserver=8 cache-cleaner coordinator profiler apiserver apilb frontend

Порты:

Веб-интерфейс находится по адресу http://localhost:8001.
API по адресу http://localhost:8002/api/v1 (за HAProxy).
Elasticsearch находится по адресу http://localhost:8020.
Сервер Lazo находится по адресу http://localhost:8030.
Интерфейс управления RabbitMQ находится по адресу http://localhost:8010.
Метрики RabbitMQ находятся по адресу http://localhost:8012.
Интерфейс Minio находится по адресу http://localhost:8050 (если вы его используете).
Статистика HAProxy находится по адресу http://localhost:8004.
Прометей находится по адресу http://localhost:8040.
Графана находится по адресу http://localhost:8041.

Импортируйте снимок нашего индекса (необязательно)

 $ scripts/docker_import_snapshot.sh

Будет загружен дамп Elasticsearch с сайта auctus.vida-nyu.org и импортирован в локальный контейнер Elasticsearch.

Запустите плагины обнаружения (необязательно)

 $ docker-compose up -d socrata zenodo

Запустить панель показателей (необязательно)

 $ docker-compose up -d elasticsearch_exporter prometheus grafana

Prometheus настроен на автоматический поиск контейнеров (см. prometheus.yml).

Используется собственный образ RabbitMQ с добавленными плагинами (управление и прометей).

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2024-12-25
размер 2.91MB
От Github

Связанные приложения

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

auctus

Ауктус

Развертывание

Настройка локального развертывания/разработки

Настройка среды

Подготовьте объемы данных

Сборка контейнеров

Запустите базовые контейнеры

Импортируйте снимок нашего индекса (необязательно)

Запустите плагины обнаружения (необязательно)

Запустить панель показателей (необязательно)

waymo open dataset

SmartTube

Sunamu

MySchedule.py

viptools for eslam

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind