Download auctus - download do código-fonte auctus

auctus

Outro código-fonte

1.0.0

Baixar

Aucto

Este projeto é um rastreador da web e mecanismo de busca para conjuntos de dados, destinado especificamente a tarefas de aumento de dados em aprendizado de máquina. É capaz de encontrar conjuntos de dados em diferentes repositórios e indexá-los para recuperação posterior.

A documentação está disponível aqui

Está dividido em vários componentes:

Bibliotecas
- Banco de dados geoespacial datamart_geo . Contém dados sobre áreas administrativas extraídos do Wikidata e do OpenStreetMap. Ele reside em seu próprio repositório e é usado aqui como um submódulo.
- Biblioteca de criação de perfil datamart_profiler . Isso pode ser instalado por clientes e permitirá que a biblioteca cliente crie perfis de conjuntos de dados localmente em vez de enviá-los ao servidor. Também é usado pelos serviços apiserver e profiler.
- Biblioteca de materialização datamart_materialize . Isso é usado para materializar o conjunto de dados das várias fontes que o Auctus suporta. Pode ser instalado por clientes, o que lhes permitirá materializar conjuntos de dados localmente em vez de usar o servidor como proxy.
- Biblioteca de aumento de dados datamart_augmentation . Isso realiza a junção ou união de dois conjuntos de dados e é usado pelo serviço apiserver, mas poderia ser usado de forma independente.
- Biblioteca do servidor principal datamart_core . Contém código comum para serviços. Usado apenas para os componentes do servidor. O código de bloqueio do sistema de arquivos é separado como datamart_fslock por motivos de desempenho (é necessário importar rapidamente).
Serviços
- Serviços de descoberta : são responsáveis pela descoberta de conjuntos de dados. Cada plugin pode se comunicar com um repositório específico. Os metadados de materialização são registrados para cada conjunto de dados, para permitir a recuperação futura desse conjunto de dados.
- Profiler : este serviço baixa um conjunto de dados descoberto e calcula metadados adicionais que podem ser usados para pesquisa (por exemplo, dimensões, tipos semânticos, distribuições de valores). Usa as bibliotecas de criação de perfil e materialização.
- Lazo Server : este serviço é responsável pela indexação de atributos textuais e categóricos utilizando Lazo. O código do servidor e do cliente está disponível aqui.
- apiserver : este serviço responde a solicitações de clientes para pesquisar conjuntos de dados no índice (acionando consultas sob demanda por serviços de descoberta que o suportam), fazer upload de novos conjuntos de dados, criar perfis de conjuntos de dados ou realizar aumento. Usa as bibliotecas de criação de perfil e materialização. Implementa uma API JSON usando a estrutura da web Tornado.
- O limpador de cache : este serviço garante que o cache do conjunto de dados permaneça abaixo de um determinado limite de tamanho, removendo os conjuntos de dados usados menos recentemente quando o tamanho configurado for atingido.
- O coordenador : este serviço coleta algumas métricas e oferece uma interface de manutenção para o administrador do sistema.
- O frontend : este é um aplicativo React que implementa uma interface web amigável sobre a API.

Arquitetura Auctus

Elasticsearch é usado como índice de pesquisa, armazenando um documento por conjunto de dados conhecido.

Os serviços trocam mensagens por meio do RabbitMQ , permitindo-nos ter padrões complexos de mensagens com semântica de enfileiramento e novas tentativas, e padrões complexos, como consulta sob demanda.

Visão geral do AMQP

Implantação

O sistema está atualmente em execução em https://auctus.vida-nyu.org/. Você pode ver o status do sistema em https://grafana.auctus.vida-nyu.org/.

Configuração local de implantação/desenvolvimento

Para implantar o sistema localmente usando docker-compose, siga estas etapas:

Configurar ambiente

Certifique-se de ter verificado o submódulo com git submodule init && git submodule update

Certifique-se de ter o Git LFS instalado e configurado ( git lfs install )

Copie env.default para .env e atualize as variáveis lá. Talvez você queira atualizar a senha para uma implantação de produção.

Certifique-se de que seu nó esteja configurado para executar o Elasticsearch. Você provavelmente terá que aumentar o limite do mmap.

O API_URL é o URL no qual os contêineres do apiserver ficarão visíveis para os clientes. Em uma implantação de produção, esta é provavelmente uma URL HTTPS pública. Pode ser a mesma URL em que o componente "coordenador" será servido se estiver usando um proxy reverso (consulte nginx.conf).

Para executar scripts localmente, você pode carregar as variáveis de ambiente em seu shell executando: . scripts/load_env.sh (são scripts de espaço de ponto... )

Preparar volumes de dados

Execute scripts/setup.sh para inicializar os volumes de dados. Isso definirá as permissões corretas nos volumes/ subdiretórios.

Se você quiser começar do zero, você pode excluir volumes/ mas certifique-se de executar scripts/setup.sh novamente depois para definir as permissões.

Construa os contêineres

 $ docker-compose build --build-arg version=$(git describe) apiserver

Inicie os contêineres base

 $ docker-compose up -d elasticsearch rabbitmq redis minio lazo

Isso levará alguns segundos para começar a funcionar. Então você pode iniciar os outros componentes:

 $ docker-compose up -d cache-cleaner coordinator profiler apiserver apilb frontend

Você pode usar a opção --scale para iniciar mais contêineres de perfil ou apiserver, por exemplo:

 $ docker-compose up -d --scale profiler=4 --scale apiserver=8 cache-cleaner coordinator profiler apiserver apilb frontend

Portas:

A interface web está em http://localhost:8001
A API em http://localhost:8002/api/v1 (atrás do HAProxy)
Elasticsearch está em http://localhost:8020
O servidor Lazo está em http://localhost:8030
A interface de gerenciamento do RabbitMQ está em http://localhost:8010
As métricas do RabbitMQ estão em http://localhost:8012
A interface do Minio está em http://localhost:8050 (se você usar isso)
As estatísticas do HAProxy estão em http://localhost:8004
Prometheus está em http://localhost:8040
Grafana está em http://localhost:8041

Importe um instantâneo do nosso índice (opcional)

 $ scripts/docker_import_snapshot.sh

Isso fará download de um dump do Elasticsearch de auctus.vida-nyu.org e o importará para seu contêiner local do Elasticsearch.

Iniciar plug-ins de descoberta (opcional)

 $ docker-compose up -d socrata zenodo

Iniciar painel de métricas (opcional)

 $ docker-compose up -d elasticsearch_exporter prometheus grafana

O Prometheus está configurado para localizar automaticamente os contêineres (consulte prometheus.yml)

Uma imagem RabbitMQ personalizada é usada, com plug-ins adicionados (gerenciamento e prometheus).

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2024-12-25
tamanho 2.91MB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
SmartTube

Outro código-fonte

24.71 Stable
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
wp functions

Outras categorias

1.0.0
termwind

Outras categorias

v2.3.0

Informações Relacionadas Todos