Téléchargement feathr - Téléchargement du code source feathr

feathr

Code Source AI

v1.0.0

Télécharger

Une plateforme d'ingénierie de données et d'IA évolutive et unifiée pour les entreprises

Liens importants : Slack et discussions. Documents.

Qu’est-ce que Featherr ?

Feathr est une plateforme d'ingénierie de données et d'IA largement utilisée en production chez LinkedIn depuis de nombreuses années et qui a été open source en 2022. Il s'agit actuellement d'un projet sous LF AI & Data Foundation.

Lisez notre annonce sur Open Sourcing Feathr et Feathr sur Azure, ainsi que l'annonce de LF AI & Data Foundation.

Featherr vous permet de :

Définissez des transformations de données et de fonctionnalités basées sur des sources de données brutes (batch et streaming) à l'aide des API Pythonic.
Enregistrez les transformations par noms et obtenez des données transformées (fonctionnalités) pour divers cas d'utilisation, notamment la modélisation de l'IA, la conformité, la mise sur le marché et bien plus encore.
Partagez les transformations et les données (fonctionnalités) au sein de l’équipe et de l’entreprise.

Feathr est particulièrement utile dans la modélisation de l'IA où il calcule automatiquement vos transformations de fonctionnalités et les associe à vos données d'entraînement, en utilisant une sémantique ponctuelle correcte pour éviter les fuites de données, et prend en charge la matérialisation et le déploiement de vos fonctionnalités pour une utilisation en ligne en production.

? Points forts des plumes

Intégration cloud native avec une architecture simplifiée et évolutive.
Battle testé en production depuis plus de 6 ans : LinkedIn utilise Feathr en production depuis plus de 6 ans et s'appuie sur une équipe dédiée.
Évolutif avec des optimisations intégrées : Feathr peut traiter des milliards de lignes et de données à l'échelle PB avec des optimisations intégrées telles que des filtres Bloom et des jointures salées.
API de transformation riches, notamment des agrégations basées sur le temps, des jointures de fenêtres coulissantes, des fonctionnalités de recherche, le tout avec une exactitude ponctuelle pour l'IA.
API pythoniques et fonctions définies par l'utilisateur (UDF) hautement personnalisables avec prise en charge native de PySpark et Spark SQL pour réduire la courbe d'apprentissage de tous les data scientists.
L'API de transformation de données unifiée fonctionne dans les environnements de traitement par lots, de streaming et en ligne hors ligne.
Le registre intégré de Feathr facilite les transformations nommées et la réutilisation des données/fonctionnalités.

? Premiers pas avec Feathr - Feathr Sandbox

Le moyen le plus simple d'essayer Feathr est d'utiliser le Feathr Sandbox qui est un conteneur autonome doté de la plupart des capacités de Feathr et vous devriez être productif en 5 minutes. Pour l'utiliser, exécutez simplement cette commande :

 # 80: Feathr UI, 8888: Jupyter, 7080: Interpret
docker run -it --rm -p 8888:8888 -p 8081:80 -p 7080:7080 -e GRANT_SUDO=yes feathrfeaturestore/feathr-sandbox:releases-v1.0.0

Et vous pouvez consulter le notebook Jupyter de démarrage rapide Feather :

http://localhost:8888/lab/workspaces/auto-w/tree/local_quickstart_notebook.ipynb

Après avoir exécuté le notebook, toutes les fonctionnalités seront enregistrées dans l'interface utilisateur et vous pourrez visiter l'interface utilisateur Feathr à l'adresse :

http://localhost:8081

Installer le client Featherr localement

Si vous souhaitez installer le client Featherr dans un environnement Python, utilisez ceci :

pip install feathr

Ou utilisez le dernier code de GitHub :

pip install git+https://github.com/feathr-ai/feathr.git#subdirectory=feathr_project

☁️ Exécuter Featherhr sur Cloud pour la production

Feathr dispose d'intégrations natives avec Databricks et Azure Synapse :

Suivez le guide de déploiement Feathr ARM pour exécuter Feathr sur Azure. Cela vous permet de démarrer rapidement avec le déploiement automatisé à l’aide du modèle Azure Resource Manager.

Si vous souhaitez tout configurer manuellement, vous pouvez consulter le guide de déploiement Feathr CLI pour exécuter Feathr sur Azure. Cela vous permet de comprendre ce qui se passe et de configurer une ressource à la fois.

Veuillez lire le guide de démarrage rapide de Feathr sur Databricks pour exécuter Feathr avec Databricks.
Veuillez lire le Guide de démarrage rapide de Feathr sur Azure Synapse pour exécuter Feathr avec Azure Synapse.

? Documentation

Pour plus de détails sur Featherr, lisez notre documentation.
Pour les références de l'API Python, lisez la référence de l'API Python.
Pour des discussions techniques sur Featherhr, voir les diapositives ici et ici. L'enregistrement est ici.

? Échantillons

Nom	Description	Plate-forme
Démo de taxi à New York	Carnet de démarrage rapide qui montre comment définir, matérialiser et enregistrer des fonctionnalités avec des exemples de données de prédiction des tarifs de taxi à New York.	Azure Synapse, Databricks, Spark local
Démo de taxi de New York Quickstart Databricks	Carnet de démarrage rapide Databricks avec des exemples de données de prévision des tarifs de taxi à New York.	Briques de données
Intégration de fonctionnalités	Exemple Feathr UDF montrant comment définir et utiliser l'intégration de fonctionnalités avec un modèle Transformer pré-entraîné et des exemples de données d'avis d'hôtel.	Briques de données
Démo de détection de fraude	Un exemple pour démontrer Feature Store utilisant plusieurs sources de données telles que les données de compte utilisateur et de transaction.	Azure Synapse, Databricks, Spark local
Démo de recommandation de produit	Exemple de bloc-notes Featherr Feature Store avec un scénario de recommandation de produit	Azure Synapse, Databricks, Spark local

? Capacités mises en évidence par Feather

Veuillez lire Featherr Full Capabilities pour plus d’exemples. En voici quelques-unes sélectionnées :

Interface utilisateur de plumes

Feathr fournit une interface utilisateur intuitive afin que vous puissiez rechercher et explorer toutes les fonctionnalités disponibles et leurs lignées correspondantes.

Vous pouvez utiliser Feathr UI pour rechercher des fonctionnalités, identifier des sources de données, suivre les lignées de fonctionnalités et gérer les contrôles d'accès. Découvrez la dernière démo en direct ici pour voir ce que Feathr UI peut faire pour vous. Utilisez l'un des comptes suivants lorsque vous êtes invité à vous connecter :

Un compte d’organisation professionnelle ou scolaire inclut les abonnés Office 365.
Compte personnel Microsoft, cela signifie qu'un compte peut accéder à Skype, Outlook.com, OneDrive et Xbox LIVE.

Interface utilisateur de plumes

Pour plus d'informations sur l'interface utilisateur Feathr et le registre qui la sous-tend, veuillez vous référer au registre des fonctionnalités Feathr.

Prise en charge riche de l'UDF

Feathr propose des UDF hautement personnalisables avec une intégration native de PySpark et Spark SQL pour réduire la courbe d'apprentissage des data scientists :

 def add_new_dropoff_and_fare_amount_column ( df : DataFrame ):
    df = df . withColumn ( "f_day_of_week" , dayofweek ( "lpep_dropoff_datetime" ))
    df = df . withColumn ( "fare_amount_cents" , df . fare_amount . cast ( 'double' ) * 100 )
    return df

batch_source = HdfsSource ( name = "nycTaxiBatchSource" ,
                        path = "abfss://[email protected]/demo_data/green_tripdata_2020-04.csv" ,
                        preprocessing = add_new_dropoff_and_fare_amount_column ,
                        event_timestamp_column = "new_lpep_dropoff_datetime" ,
                        timestamp_format = "yyyy-MM-dd HH:mm:ss" )

Définition des fonctionnalités d'agrégation de fenêtres avec une exactitude ponctuelle

 agg_features = [ Feature ( name = "f_location_avg_fare" ,
                        key = location_id ,                          # Query/join key of the feature(group)
                        feature_type = FLOAT ,
                        transform = WindowAggTransformation (        # Window Aggregation transformation
                            agg_expr = "cast_float(fare_amount)" ,
                            agg_func = "AVG" ,                       # Apply average aggregation over the window
                            window = "90d" )),                       # Over a 90-day window
                ]

agg_anchor = FeatureAnchor ( name = "aggregationFeatures" ,
                           source = batch_source ,
                           features = agg_features )

Définir des fonctionnalités au-dessus d'autres fonctionnalités - Fonctionnalités dérivées

 # Compute a new feature(a.k.a. derived feature) on top of an existing feature
derived_feature = DerivedFeature ( name = "f_trip_time_distance" ,
                                 feature_type = FLOAT ,
                                 key = trip_key ,
                                 input_features = [ f_trip_distance , f_trip_time_duration ],
                                 transform = "f_trip_distance * f_trip_time_duration" )

# Another example to compute embedding similarity
user_embedding = Feature ( name = "user_embedding" , feature_type = DENSE_VECTOR , key = user_key )
item_embedding = Feature ( name = "item_embedding" , feature_type = DENSE_VECTOR , key = item_key )

user_item_similarity = DerivedFeature ( name = "user_item_similarity" ,
                                      feature_type = FLOAT ,
                                      key = [ user_key , item_key ],
                                      input_features = [ user_embedding , item_embedding ],
                                      transform = "cosine_similarity(user_embedding, item_embedding)" )

Définir les fonctionnalités de streaming

Lisez le Guide d’ingestion de sources de streaming pour plus de détails.

Jointures ponctuelles

Lisez Exactitude ponctuelle et Rejoignez-nous à un moment précis dans Feathr pour plus de détails.

Exemples de plumes de course

Suivez le démarrage rapide de Jupyter Notebook pour l'essayer. Il existe également un guide de démarrage rapide complémentaire contenant un peu plus d'explications sur le portable.

Discussions techniques sur Featherr

Introduction à Featherr - Guide du débutant
Document Intelligence à l'aide d'Azure Feature Store (Feathr) et SynapseML
Tutoriel Notebook : Créer un modèle d'apprentissage automatique de recommandation de produits avec Featherh Feature Store
Discussion sur Feather au Feature Store Summit

Intégrations et architecture cloud

Schéma architectural

Composant plume	Intégrations cloud
Boutique hors ligne – Boutique d'objets	Stockage Blob Azure, Azure ADLS Gen2, AWS S3
Boutique hors ligne – SQL	Azure SQL DB, pools SQL dédiés Azure Synapse, Azure SQL dans VM, Snowflake
Source de diffusion	Kafka, EventHub
Boutique en ligne	Redis, Azure Cosmos DB
Registre des fonctionnalités et gouvernance	Azure Purview, ANSI SQL tel qu'Azure SQL Server
Moteur de calcul	Pools Azure Synapse Spark, Databricks
Plateforme d'apprentissage automatique	Azure Machine Learning, bloc-notes Jupyter, bloc-notes Databricks
Format de fichier	Parquet, ORC, Avro, JSON, Delta Lake, CSV
Informations d'identification	Coffre de clés Azure