auctus Télécharger - auctus Téléchargement du code source

auctus

Autre code source

1.0.0

Télécharger

Auctus

Ce projet est un robot d'exploration Web et un moteur de recherche d'ensembles de données, spécifiquement destiné aux tâches d'augmentation des données dans l'apprentissage automatique. Il est capable de rechercher des ensembles de données dans différents référentiels et de les indexer pour une récupération ultérieure.

La documentation est disponible ici

Il est divisé en plusieurs composantes :

Bibliothèques
- Base de données géospatiale datamart_geo . Celui-ci contient des données sur les zones administratives extraites de Wikidata et OpenStreetMap. Il vit dans son propre référentiel et est utilisé ici comme sous-module.
- Bibliothèque de profilage datamart_profiler . Cela peut être installé par les clients et permettra à la bibliothèque cliente de profiler les ensembles de données localement au lieu de les envoyer au serveur. Il est également utilisé par les services apiserver et profileur.
- Bibliothèque de matérialisation datamart_materialize . Ceci est utilisé pour matérialiser un ensemble de données provenant des différentes sources prises en charge par Auctus. Il peut être installé par les clients, ce qui leur permettra de matérialiser des jeux de données localement au lieu d'utiliser le serveur comme proxy.
- Bibliothèque d'augmentation de données datamart_augmentation . Cela effectue la jointure ou l'union de deux ensembles de données et est utilisé par le service apiserver, mais pourrait éventuellement être utilisé de manière autonome.
- Bibliothèque de serveur principale datamart_core . Celui-ci contient du code commun pour les services. Utilisé uniquement pour les composants du serveur. Le code de verrouillage du système de fichiers est séparé en tant que datamart_fslock pour des raisons de performances (doit être importé rapidement).
Services
- Services de découverte : ceux qui sont chargés de découvrir des ensembles de données. Chaque plugin peut communiquer avec un référentiel spécifique. Les métadonnées de matérialisation sont enregistrées pour chaque ensemble de données, afin de permettre une récupération future de cet ensemble de données.
- Profiler : ce service télécharge un ensemble de données découvert et calcule des métadonnées supplémentaires pouvant être utilisées pour la recherche (par exemple, dimensions, types sémantiques, distributions de valeurs). Utilise les bibliothèques de profilage et de matérialisation.
- Lazo Server : ce service se charge d'indexer les attributs textuels et catégoriels à l'aide de Lazo. Le code du serveur et du client est disponible ici.
- apiserver : ce service répond aux demandes des clients pour rechercher des ensembles de données dans l'index (déclenchant une requête à la demande par les services de découverte qui le prennent en charge), télécharger de nouveaux ensembles de données, profiler des ensembles de données ou effectuer une augmentation. Utilise les bibliothèques de profilage et de matérialisation. Implémente une API JSON à l'aide du framework Web Tornado.
- Le nettoyeur de cache : ce service garantit que le cache de l'ensemble de données reste sous une limite de taille donnée en supprimant les ensembles de données les moins récemment utilisés lorsque la taille configurée est atteinte.
- Le coordinateur : ce service collecte quelques métriques et propose une interface de maintenance pour l'administrateur système.
- Le frontend : il s'agit d'une application React implémentant une interface Web conviviale en plus de l'API.

Architecture Auctus

Elasticsearch est utilisé comme index de recherche, stockant un document par ensemble de données connu.

Les services échangent des messages via RabbitMQ , ce qui nous permet d'avoir des modèles de messagerie complexes avec une sémantique de mise en file d'attente et de nouvelle tentative, ainsi que des modèles complexes tels que les requêtes à la demande.

AMQP - Vue d'ensemble

Déploiement

Le système fonctionne actuellement sur https://auctus.vida-nyu.org/. Vous pouvez voir l'état du système sur https://grafana.auctus.vida-nyu.org/.

Configuration du déploiement/développement local

Pour déployer le système localement à l'aide de docker-compose, suivez ces étapes :

Configurer l'environnement

Assurez-vous d'avoir extrait le sous-module avec git submodule init && git submodule update

Assurez-vous que Git LFS est installé et configuré ( git lfs install )

Copiez env.default dans .env et mettez-y à jour les variables. Vous souhaiterez peut-être mettre à jour le mot de passe pour un déploiement de production.

Assurez-vous que votre nœud est configuré pour exécuter Elasticsearch. Vous devrez probablement augmenter la limite mmap.

L' API_URL est l'URL à laquelle les conteneurs apiserver seront visibles pour les clients. Dans un déploiement de production, il s'agit probablement d'une URL HTTPS publique. Il peut s'agir de la même URL que celle à laquelle le composant « coordinateur » sera servi si vous utilisez un proxy inverse (voir nginx.conf).

Pour exécuter des scripts localement, vous pouvez charger les variables d'environnement dans votre shell en exécutant : . scripts/load_env.sh (c'est des scripts d'espace de points... )

Préparer les volumes de données

Exécutez scripts/setup.sh pour initialiser les volumes de données. Cela définira les autorisations correctes sur les volumes/ sous-répertoires.

Si jamais vous souhaitez repartir de zéro, vous pouvez supprimer volumes/ mais assurez-vous de réexécuter scripts/setup.sh par la suite pour définir les autorisations.

Construire les conteneurs

 $ docker-compose build --build-arg version=$(git describe) apiserver

Démarrer les conteneurs de base

 $ docker-compose up -d elasticsearch rabbitmq redis minio lazo

Ceux-ci prendront quelques secondes pour être opérationnels. Ensuite, vous pouvez démarrer les autres composants :

 $ docker-compose up -d cache-cleaner coordinator profiler apiserver apilb frontend

Vous pouvez utiliser l'option --scale pour démarrer davantage de conteneurs de profileur ou de serveur d'API, par exemple :

 $ docker-compose up -d --scale profiler=4 --scale apiserver=8 cache-cleaner coordinator profiler apiserver apilb frontend

Port :

L'interface Web est à http://localhost:8001
L'API sur http://localhost:8002/api/v1 (derrière HAProxy)
Elasticsearch est sur http://localhost:8020
Le serveur Lazo est à http://localhost:8030
L'interface de gestion RabbitMQ se trouve à http://localhost:8010
Les métriques RabbitMQ se trouvent sur http://localhost:8012
L'interface Minio est à http://localhost:8050 (si vous l'utilisez)
Les statistiques HAProxy sont sur http://localhost:8004
Prometheus est sur http://localhost:8040
Grafana est sur http://localhost:8041

Importer un instantané de notre index (facultatif)

 $ scripts/docker_import_snapshot.sh

Cela téléchargera un dump Elasticsearch depuis auctus.vida-nyu.org et l'importera dans votre conteneur Elasticsearch local.

Démarrer les plugins de découverte (facultatif)

 $ docker-compose up -d socrata zenodo

Démarrer le tableau de bord des métriques (facultatif)

 $ docker-compose up -d elasticsearch_exporter prometheus grafana

Prometheus est configuré pour trouver automatiquement les conteneurs (voir prometheus.yml)

Une image RabbitMQ personnalisée est utilisée, avec des plugins ajoutés (gestion et prometheus).

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2024-12-25
taille 2.91MB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
wp functions

Autres catégories

1.0.0
termwind

Autres catégories

v2.3.0

Actualités connexes Tout