auctus下载 - auctus源码下载

auctus

其他源码

1.0.0

下载

奥克图斯

该项目是一个数据集的网络爬虫和搜索引擎，专门用于机器学习中的数据增强任务。它能够在不同存储库中查找数据集并为其建立索引以供以后检索。

文档可在此处获取

它分为多个组件：

图书馆
- 地理空间数据库datamart_geo 。其中包含从 Wikidata 和 OpenStreetMap 中提取的有关行政区域的数据。它位于自己的存储库中，并在此处用作子模块。
- 分析库datamart_profiler 。这可以由客户端安装，将允许客户端库在本地分析数据集，而不是将它们发送到服务器。 apiserver 和 profiler 服务也使用它。
- 物化库datamart_materialize 。这用于具体化 Auctus 支持的各种来源的数据集。它可以由客户端安装，这将允许他们在本地具体化数据集，而不是使用服务器作为代理。
- 数据增强库datamart_augmentation 。它执行两个数据集的连接或并集，并由 apiserver 服务使用，但也可以单独使用。
- 核心服务器库datamart_core 。这包含服务的通用代码。仅用于服务器组件。出于性能原因（必须快速导入），文件系统锁定代码与datamart_fslock分开。
服务
- 发现服务：负责发现数据集。每个插件都可以与特定的存储库通信。为每个数据集记录具体化元数据，以便将来检索该数据集。
- Profiler ：此服务下载发现的数据集并计算可用于搜索的其他元数据（例如维度、语义类型、值分布）。使用分析和具体化库。
- Lazo 服务器：此服务负责使用 Lazo 索引文本和分类属性。服务器和客户端的代码可以在这里找到。
- apiserver ：此服务响应客户端的请求，在索引中搜索数据集（通过支持它的发现服务触发按需查询）、上传新数据集、分析数据集或执行扩充。使用分析和具体化库。使用 Tornado Web 框架实现 JSON API。
- 缓存清理器：此服务通过在达到配置的大小时删除最近最少使用的数据集来确保数据集缓存保持在给定的大小限制之下。
- 协调员：该服务收集一些指标并为系统管理员提供维护界面。
- 前端：这是一个 React 应用程序，在 API 之上实现了用户友好的 Web 界面。

奥克图斯建筑

Elasticsearch 用作搜索索引，为每个已知数据集存储一个文档。

这些服务通过RabbitMQ交换消息，使我们能够拥有具有排队和重试语义的复杂消息传递模式，以及诸如按需查询之类的复杂模式。

AMQP 概述

部署

该系统目前正在 https://auctus.vida-nyu.org/ 上运行。您可以在 https://grafana.auctus.vida-nyu.org/ 查看系统状态。

本地部署/开发设置

要使用 docker-compose 在本地部署系统，请执行以下步骤：

设置环境

确保您已使用git submodule init && git submodule update检出子模块

确保您已安装并配置 Git LFS ( git lfs install )

将 env.default 复制到 .env 并更新其中的变量。您可能想要更新生产部署的密码。

确保您的节点已设置为运行 Elasticsearch。您可能必须提高 mmap 限制。

API_URL是 apiserver 容器对客户端可见的 URL。在生产部署中，这可能是面向公众的 HTTPS URL。如果使用反向代理，它可以与“协调器”组件提供服务的 URL 相同（请参阅 nginx.conf）。

要在本地运行脚本，您可以通过运行以下命令将环境变量加载到 shell 中. scripts/load_env.sh （即点空间脚本... ）

准备数据卷

运行scripts/setup.sh来初始化数据卷。这将为volumes/子目录设置正确的权限。

如果您想从头开始，可以删除volumes/但请确保之后再次运行scripts/setup.sh以设置权限。

构建容器

 $ docker-compose build --build-arg version=$(git describe) apiserver

启动基础容器

 $ docker-compose up -d elasticsearch rabbitmq redis minio lazo

这些将需要几秒钟才能启动并运行。然后就可以启动其他组件了：

 $ docker-compose up -d cache-cleaner coordinator profiler apiserver apilb frontend

您可以使用--scale选项启动更多分析器或 apiserver 容器，例如：

 $ docker-compose up -d --scale profiler=4 --scale apiserver=8 cache-cleaner coordinator profiler apiserver apilb frontend

端口：

Web 界面位于 http://localhost:8001
API 位于 http://localhost:8002/api/v1（在 HAProxy 后面）
Elasticsearch 位于 http://localhost:8020
Lazo 服务器位于 http://localhost:8030
RabbitMQ管理界面位于http://localhost:8010
RabbitMQ 指标位于 http://localhost:8012
Minio 接口位于 http://localhost:8050 （如果您使用该接口）
HAProxy 统计信息位于 http://localhost:8004
普罗米修斯位于 http://localhost:8040
Grafana 位于 http://localhost:8041

导入索引的快照（可选）

 $ scripts/docker_import_snapshot.sh

这将从 auctus.vida-nyu.org 下载 Elasticsearch 转储并将其导入到本地 Elasticsearch 容器中。

启动发现插件（可选）

 $ docker-compose up -d socrata zenodo

启动指标仪表板（可选）

 $ docker-compose up -d elasticsearch_exporter prometheus grafana

Prometheus 配置为自动查找容器（请参阅 prometheus.yml）

使用自定义 RabbitMQ 映像，并添加插件（管理和 prometheus）。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2024-12-25
大小 2.91MB
来自于 Github

auctus

奥克图斯

部署

本地部署/开发设置

设置环境

准备数据卷

构建容器

启动基础容器

导入索引的快照（可选）

启动发现插件（可选）

启动指标仪表板（可选）

waymo open dataset

SmartTube

Sunamu

MySchedule.py

viptools for eslam

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind