venice Télécharger - venice Téléchargement du code source

venice

Autre code source

1.0.0

Télécharger

Plateforme de données dérivées pour les charges de travail à l'échelle planétaire

Venice est une plateforme de stockage de données dérivée, offrant les caractéristiques suivantes :

Ingestion asynchrone à haut débit à partir de sources batch et streaming (par exemple Hadoop et Samza).
Lectures en ligne à faible latence via des requêtes à distance ou une mise en cache en cours.
Réplication active-active entre régions avec résolution de conflits basée sur CRDT.
Prise en charge multicluster dans chaque région avec attribution de cluster pilotée par l'opérateur.
Multilocation, évolutivité horizontale et élasticité au sein de chaque cluster.

Ce qui précède rend Venice particulièrement approprié en tant que composant avec état soutenant un Feature Store, tel que Feathr. Les applications d'IA transmettent le résultat de leurs tâches de formation ML à Venice, puis interrogent les données pour les utiliser lors des charges de travail d'inférence en ligne.

Aperçu

Venice est un système qui chevauche les mondes hors ligne, Nearline et en ligne, comme illustré ci-dessous.

Chemin d'écriture

Le chemin d'écriture de Venice peut être décomposé en trois granularités : échange complet d'ensemble de données, insertion de nombreuses lignes dans un ensemble de données existant et mises à jour de certaines colonnes de certaines lignes. Les trois granularités sont prises en charge par Hadoop et Samza. De plus, n’importe quel service peut également produire de manière asynchrone des insertions et des mises à jour sur une seule ligne, à l’aide de la bibliothèque Online Producer. Le tableau ci-dessous résume les opérations d'écriture prises en charge par chaque plateforme :

	Hadoop	Samza	N'importe quel service
Échange complet d'ensembles de données	✅	✅
Insertion de certaines lignes dans un jeu de données existant	✅	✅	✅
Mises à jour de certaines colonnes de certaines lignes	✅	✅	✅

Magasins hybrides

De plus, les trois granularités des opérations d’écriture peuvent toutes être mélangées au sein d’un seul ensemble de données. Un ensemble de données qui obtient des échanges complets d'ensembles de données en plus de l'insertion de lignes ou des mises à jour de lignes est appelé hybride .

Dans le cadre de la configuration d'un magasin hybride , un concept important est le temps de rembobinage , qui définit jusqu'où les écritures récentes en temps réel doivent être rembobinées et appliquées au-dessus de la nouvelle génération de l'ensemble de données échangé.

En tirant parti de ce mécanisme, il est possible de superposer la sortie d’une tâche de traitement de flux sur celle d’une tâche par lots. Si vous utilisez des mises à jour partielles, il est alors possible de mettre à jour certaines colonnes en temps réel et d'autres par lots, et ces deux ensembles de colonnes peuvent se chevaucher ou être disjoints, comme vous le souhaitez.

Écrire Calculer

Write Compute comprend deux types d'opérations, qui peuvent être effectuées sur la valeur associée à une clé donnée :

Mise à jour partielle : définit le contenu d'un champ au sein de la valeur.
Fusion de collections : ajoutez ou supprimez des entrées dans un ensemble ou une carte.

NB : actuellement, le calcul en écriture n'est pris en charge qu'en conjonction avec la réplication active-passive. La prise en charge de la réplication active-active est en cours de développement.

Lire le chemin

Venice prend en charge les API de lecture suivantes :

Single get : récupère la valeur associée à une seule clé
Batch get : récupère les valeurs associées à un jeu de clés
Lire calculer : projeter des champs et/ou calculer une fonction sur les champs de valeurs associés à un jeu de clés. Lors de l'utilisation du DSL de calcul de lecture, les fonctions suivantes sont actuellement prises en charge :
- Produit scalaire : effectuez un produit scalaire sur le vecteur flottant stocké dans un champ donné, par rapport à un autre vecteur flottant fourni comme paramètre de requête, et renvoie le scalaire résultant.
- Similitude cosinus : effectuez une similarité cosinus sur le vecteur flottant stocké dans un champ donné, par rapport à un autre vecteur flottant fourni comme paramètre de requête, et renvoie le scalaire résultant.
- Produit Hadamard : effectue un produit Hadamard sur le vecteur float stocké dans un champ donné, par rapport à un autre vecteur float fourni en paramètre de requête, et renvoie le vecteur résultant.
- Nombre de collections : renvoie le nombre d'éléments de la collection stockés dans un champ donné.

Modes clients

Il existe deux modes principaux pour accéder aux données de Venise :

Venise classique (sans état) : vous pouvez effectuer des requêtes à distance sur le service backend distribué de Venise. Si vous utilisez des opérations de calcul de lecture dans ce mode, les requêtes sont transmises au backend et seuls les résultats du calcul sont renvoyés au client. Il existe deux clients capables d'effectuer de telles requêtes à distance :
- Client léger : Il s'agit du client le plus simple, qui envoie des requêtes au niveau routeur, qui lui-même envoie des requêtes au niveau serveur.
- Client rapide : ce client prend en charge le partitionnement et peut donc envoyer des requêtes directement à la bonne instance de serveur, en ignorant le niveau de routage. Notez que ce client est encore en cours de développement et peut ne pas être aussi stable ni à parité fonctionnelle avec le Thin Client.
Da Vinci (avec état) : vous pouvez également charger avec impatience certaines ou toutes les partitions de l'ensemble de données et effectuer des requêtes sur le cache local résultant. Les futures mises à jour des données continuent d'être diffusées et appliquées au cache local.

Le tableau ci-dessous résume les caractéristiques des clients :

	Sauts de réseau	Latence typique (p99)	Empreinte de l'État
Client léger	2	< 10 millisecondes	Apatride
Client rapide	1	< 2 millisecondes	Minimal (métadonnées de routage uniquement)
Client Da Vinci (RAM + SSD)	0	< 1 milliseconde	RAM limitée, ensemble de données complet sur SSD
Client Da Vinci (tout en RAM)	0	< 10 microsecondes	Ensemble de données complet en RAM

Tous ces clients partagent les mêmes API de lecture décrites ci-dessus. Cela permet aux utilisateurs de modifier leur compromis coût/performance sans avoir à réécrire leurs applications.

Ressources

Le blog Open Sourcing Venice et la conférence sont de bons points de départ pour avoir un aperçu des cas d'utilisation et de l'échelle que Venise peut prendre en charge. Pour plus d'articles, de conférences et de podcasts sur Venise, consultez notre page En savoir plus.

Commencer

Reportez-vous au guide de démarrage rapide de Venice pour créer votre propre cluster Venice et jouer avec certaines fonctionnalités telles que la création d'un magasin de données, le push par lots, le push incrémentiel et l'obtention unique. Nous vous recommandons de vous en tenir à notre dernière version stable.