auctus Download - auctus Quellcode herunterladen

auctus

Anderer Quellcode

1.0.0

Herunterladen

Auctus

Bei diesem Projekt handelt es sich um einen Webcrawler und eine Suchmaschine für Datensätze, die speziell für Datenerweiterungsaufgaben beim maschinellen Lernen gedacht sind. Es ist in der Lage, Datensätze in verschiedenen Repositories zu finden und sie für den späteren Abruf zu indizieren.

Die Dokumentation finden Sie hier

Es ist in mehrere Komponenten unterteilt:

Bibliotheken
- Geodatendatenbank datamart_geo . Diese enthält Daten über Verwaltungsgebiete, die aus Wikidata und OpenStreetMap extrahiert wurden. Es befindet sich in einem eigenen Repository und wird hier als Submodul verwendet.
- Profilierungsbibliothek datamart_profiler . Dies kann von Clients installiert werden und ermöglicht der Client-Bibliothek, Datensätze lokal zu profilieren, anstatt sie an den Server zu senden. Es wird auch von den Apiserver- und Profiler-Diensten verwendet.
- Materialisierungsbibliothek datamart_materialize . Dies wird verwendet, um Datensätze aus den verschiedenen Quellen zu materialisieren, die Auctus unterstützt. Es kann von Clients installiert werden, wodurch diese Datensätze lokal materialisieren können, anstatt den Server als Proxy zu verwenden.
- Datenerweiterungsbibliothek datamart_augmentation . Dies führt die Verknüpfung oder Vereinigung zweier Datensätze durch und wird vom Apiserver-Dienst verwendet, könnte aber auch eigenständig verwendet werden.
- Kernserverbibliothek datamart_core . Dies enthält allgemeinen Code für Dienste. Wird nur für die Serverkomponenten verwendet. Der Dateisystem-Sperrcode wird aus Leistungsgründen separat als datamart_fslock bezeichnet (muss schnell importiert werden).
Dienstleistungen
- Discovery-Dienste : Diese sind für die Entdeckung von Datensätzen verantwortlich. Jedes Plugin kann mit einem bestimmten Repository kommunizieren. Für jeden Datensatz werden Materialisierungsmetadaten aufgezeichnet, um den späteren Abruf dieses Datensatzes zu ermöglichen.
- Profiler : Dieser Dienst lädt einen erkannten Datensatz herunter und berechnet zusätzliche Metadaten, die für die Suche verwendet werden können (z. B. Dimensionen, semantische Typen, Wertverteilungen). Verwendet die Profilierungs- und Materialisierungsbibliotheken.
- Lazo-Server : Dieser Dienst ist für die Indizierung von Text- und kategorialen Attributen mithilfe von Lazo verantwortlich. Den Code für den Server und den Client finden Sie hier.
- apiserver : Dieser Dienst antwortet auf Anfragen von Clients, nach Datensätzen im Index zu suchen (und eine On-Demand-Abfrage durch Erkennungsdienste auszulösen, die dies unterstützen), neue Datensätze hochzuladen, Datensätze zu profilieren oder Erweiterungen durchzuführen. Verwendet die Profilierungs- und Materialisierungsbibliotheken. Implementiert eine JSON-API mithilfe des Tornado-Webframeworks.
- Der Cache-Cleaner : Dieser Dienst stellt sicher, dass der Datensatz-Cache unter einer bestimmten Größenbeschränkung bleibt, indem er die zuletzt verwendeten Datensätze entfernt, wenn die konfigurierte Größe erreicht ist.
- Der Koordinator : Dieser Dienst sammelt einige Metriken und bietet eine Wartungsschnittstelle für den Systemadministrator.
- Das Frontend : Dies ist eine React-App, die zusätzlich zur API eine benutzerfreundliche Weboberfläche implementiert.

Auctus-Architektur

Als Suchindex wird Elasticsearch verwendet, das ein Dokument pro bekanntem Datensatz speichert.

Die Dienste tauschen Nachrichten über RabbitMQ aus, sodass wir über komplexe Nachrichtenmuster mit Warteschlangen- und Wiederholungssemantik sowie über komplexe Muster wie die On-Demand-Abfrage verfügen können.

AMQP-Übersicht

Einsatz

Das System läuft derzeit unter https://auctus.vida-nyu.org/. Den Systemstatus können Sie unter https://grafana.auctus.vida-nyu.org/ einsehen.

Lokale Bereitstellungs-/Entwicklungseinrichtung

Um das System lokal mit Docker-Compose bereitzustellen, führen Sie die folgenden Schritte aus:

Umgebung einrichten

Stellen Sie sicher, dass Sie das Submodul mit git submodule init && git submodule update ausgecheckt haben

Stellen Sie sicher, dass Git LFS installiert und konfiguriert ist ( git lfs install ).

Kopieren Sie env.default nach .env und aktualisieren Sie die Variablen dort. Möglicherweise möchten Sie das Kennwort für eine Produktionsbereitstellung aktualisieren.

Stellen Sie sicher, dass Ihr Knoten für die Ausführung von Elasticsearch eingerichtet ist. Sie müssen wahrscheinlich das mmap-Limit erhöhen.

Die API_URL ist die URL, unter der die Apiserver-Container für Clients sichtbar sind. In einer Produktionsbereitstellung handelt es sich wahrscheinlich um eine öffentlich zugängliche HTTPS-URL. Es kann sich um dieselbe URL handeln, unter der die „Koordinator“-Komponente bereitgestellt wird, wenn ein Reverse-Proxy verwendet wird (siehe nginx.conf).

Um Skripte lokal auszuführen, können Sie die Umgebungsvariablen in Ihre Shell laden, indem Sie Folgendes ausführen: . scripts/load_env.sh (das sind Dot-Space-Skripte... )

Bereiten Sie Datenmengen vor

Führen Sie scripts/setup.sh aus, um die Datenvolumes zu initialisieren. Dadurch werden die richtigen Berechtigungen für die volumes/ Unterverzeichnisse festgelegt.

Wenn Sie jemals ganz von vorne beginnen möchten, können Sie volumes/ löschen. Führen Sie anschließend jedoch unbedingt scripts/setup.sh erneut aus, um die Berechtigungen festzulegen.

Bauen Sie die Container

 $ docker-compose build --build-arg version=$(git describe) apiserver

Starten Sie die Basisbehälter

 $ docker-compose up -d elasticsearch rabbitmq redis minio lazo

Es wird einige Sekunden dauern, bis diese betriebsbereit sind. Dann können Sie die anderen Komponenten starten:

 $ docker-compose up -d cache-cleaner coordinator profiler apiserver apilb frontend

Sie können die Option --scale verwenden, um weitere Profiler- oder Apiserver-Container zu starten, zum Beispiel:

 $ docker-compose up -d --scale profiler=4 --scale apiserver=8 cache-cleaner coordinator profiler apiserver apilb frontend

Häfen:

Die Weboberfläche befindet sich unter http://localhost:8001
Die API unter http://localhost:8002/api/v1 (hinter HAProxy)
Elasticsearch finden Sie unter http://localhost:8020
Der Lazo-Server befindet sich unter http://localhost:8030
Die RabbitMQ-Verwaltungsschnittstelle befindet sich unter http://localhost:8010
Die RabbitMQ-Metriken finden Sie unter http://localhost:8012
Die Minio-Schnittstelle befindet sich unter http://localhost:8050 (falls Sie diese verwenden).
Die HAProxy-Statistiken finden Sie unter http://localhost:8004
Prometheus ist unter http://localhost:8040
Grafana ist unter http://localhost:8041

Importieren Sie einen Snapshot unseres Index (optional)

 $ scripts/docker_import_snapshot.sh

Dadurch wird ein Elasticsearch-Dump von auctus.vida-nyu.org heruntergeladen und in Ihren lokalen Elasticsearch-Container importiert.

Discovery-Plugins starten (optional)

 $ docker-compose up -d socrata zenodo

Metrik-Dashboard starten (optional)

 $ docker-compose up -d elasticsearch_exporter prometheus grafana

Prometheus ist so konfiguriert, dass es die Container automatisch findet (siehe prometheus.yml).

Es wird ein benutzerdefiniertes RabbitMQ-Image mit zusätzlichen Plugins (Management und Prometheus) verwendet.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2024-12-25
Größe 2.91MB
Kommt von Github

Ähnliche Anwendungen

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

auctus

Auctus

Einsatz

Lokale Bereitstellungs-/Entwicklungseinrichtung

Umgebung einrichten

Bereiten Sie Datenmengen vor

Bauen Sie die Container

Starten Sie die Basisbehälter

Importieren Sie einen Snapshot unseres Index (optional)

Discovery-Plugins starten (optional)

Metrik-Dashboard starten (optional)

waymo open dataset

SmartTube

Sunamu

MySchedule.py

viptools for eslam

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind