feathrダウンロード - feathrソースコードのダウンロード

feathr

AI ソースコード

v1.0.0

ダウンロード

企業向けのスケーラブルな統合データおよび AI エンジニアリングプラットフォーム

重要なリンク: Slack とディスカッション。ドキュメント。

フェザーとは何ですか？

Feathr は、LinkedIn の本番環境で長年にわたって広く使用されているデータおよび AI エンジニアリングプラットフォームで、2022 年にオープンソース化されました。現在、LF AI & Data Foundation のプロジェクトです。

オープンソーシング Feathr と Feathr on Azure に関する発表、および LF AI & Data Foundation からの発表をお読みください。

Feather を使用すると、次のことが可能になります。

Pythonic API を使用して、生のデータソース (バッチおよびストリーミング) に基づいてデータと特徴の変換を定義します。
変換を名前で登録し、AI モデリング、コンプライアンス、市場投入などを含むさまざまなユースケースに合わせて変換されたデータ (特徴) を取得します。
チームや会社全体で変革とデータ (機能)を共有します。

Feathr は AI モデリングで特に役立ちます。AI モデリングでは、特徴変換を自動的に計算してトレーニングデータに結合し、ポイントインタイムの正しいセマンティクスを使用してデータ漏洩を回避し、本番環境でオンラインで使用するための特徴の具体化とデプロイをサポートします。

?フェザーのハイライト

シンプルでスケーラブルなアーキテクチャによるネイティブクラウド統合。
実稼働環境で 6 年以上実戦テスト済み: LinkedIn は実稼働環境で Feathr を 6 年以上使用しており、専任チームの支援を受けています。
組み込みの最適化によるスケーラビリティ: Feathr は、ブルームフィルターやソルト結合などの組み込みの最適化により、数十億行と PB スケールのデータを処理できます。
時間ベースの集計、スライディングウィンドウ結合、ルックアップ機能などの豊富な変換 API は、すべて AI のポイントインタイムの正確性を備えています。
Pythonic API と高度にカスタマイズ可能なユーザー定義関数 (UDF) は、ネイティブ PySpark および Spark SQL をサポートし、すべてのデータサイエンティストの学習曲線を短縮します。
統合データ変換 API は、オフラインバッチ、ストリーミング、オンライン環境で動作します。
Feathr の組み込みレジストリにより、名前付き変換とデータ/機能の再利用が簡単になります。

? Feathr の入門 - Feathr サンドボックス

Feathr を試す最も簡単な方法は、Feathr サンドボックスを使用することです。これは、Feathr のほとんどの機能を備えた自己完結型コンテナであり、5 分で生産性が向上します。これを使用するには、次のコマンドを実行するだけです。

 # 80: Feathr UI, 8888: Jupyter, 7080: Interpret
docker run -it --rm -p 8888:8888 -p 8081:80 -p 7080:7080 -e GRANT_SUDO=yes feathrfeaturestore/feathr-sandbox:releases-v1.0.0

また、Feathr クイックスタート jupyter ノートブックを表示できます。

http://localhost:8888/lab/workspaces/auto-w/tree/local_quickstart_notebook.ipynb

ノートブックを実行すると、すべての機能が UI に登録され、次の場所から Feather UI にアクセスできます。

http://localhost:8081

Feather クライアントをローカルにインストールする

Feathr クライアントを Python 環境にインストールする場合は、これを使用します。

pip install feathr

または、GitHub から最新のコードを使用します。

pip install git+https://github.com/feathr-ai/feathr.git#subdirectory=feathr_project

☁️ 実稼働環境でクラウド上で Feather を実行する

Feathr には、Databricks および Azure Synapse とのネイティブ統合があります。

Feathr ARM デプロイガイドに従って、Azure で Feathr を実行します。これにより、Azure Resource Manager テンプレートを使用して自動デプロイをすぐに開始できるようになります。

すべてを手動でセットアップする場合は、Azure で Feathr を実行するための Feathr CLI デプロイガイドを確認してください。これにより、何が起こっているかを理解し、一度に 1 つのリソースを設定できます。

Databricks で Feathr を実行するには、Databricks での Feathr のクイックスタートガイドをお読みください。
Azure Synapse で Feathr を実行するには、「Azure Synapse での Feathr のクイックスタートガイド」をお読みください。

?ドキュメント

Feathr の詳細については、ドキュメントを参照してください。
Python API リファレンスについては、「Python API リファレンス」を参照してください。
Feather に関する技術的な話については、こことここのスライドを参照してください。録音はここにあります。

?サンプル

名前	説明	プラットフォーム
ニューヨーク市のタクシーデモ	ニューヨーク市のタクシー料金予測サンプルデータを使用してフィーチャを定義、具体化、登録する方法を紹介するクイックスタートノートブック。	Azure Synapse、Databricks、ローカル Spark
Databricks クイックスタート NYC タクシーデモ	ニューヨーク市のタクシー料金予測サンプルデータを含むクイックスタート Databricks ノートブック。	データブリック
機能の埋め込み	事前トレーニング済みの Transformer モデルとホテルレビューサンプルデータを使用して機能埋め込みを定義および使用する方法を示す Feathr UDF の例。	データブリック
不正行為検出のデモ	ユーザーアカウントやトランザクションデータなどの複数のデータソースを使用して、Feature Store をデモンストレーションする例。	Azure Synapse、Databricks、ローカル Spark
製品推奨デモ	製品推奨シナリオを含む Feather フィーチャーストアのサンプルノートブック	Azure Synapse、Databricks、ローカル Spark

?フェザーで強調された機能

その他の例については、「Feather の完全な機能」を参照してください。以下に厳選したものをいくつか示します。

フェザーUI

Feathr は直感的な UI を提供するため、利用可能なすべての機能とそれに対応する系統を検索して探索できます。

Feathr UI を使用して、フィーチャの検索、データソースの特定、フィーチャリネージの追跡、アクセス制御の管理を行うことができます。ここで最新のライブデモをチェックして、Feathr UI で何ができるかを確認してください。ログインを求められたら、次のいずれかのアカウントを使用します。

職場または学校の組織アカウントには、Office 365 サブスクライバーが含まれます。
Microsoft 個人アカウント。これは、アカウントが Skype、Outlook.com、OneDrive、Xbox LIVE にアクセスできることを意味します。

フェザーUI

Feathr UI とその背後にあるレジストリの詳細については、「Feathr 機能レジストリ」を参照してください。

豊富な UDF サポート

Feathr には、ネイティブ PySpark と Spark SQL の統合を備えた高度にカスタマイズ可能な UDF があり、データサイエンティストの学習曲線を短縮します。

 def add_new_dropoff_and_fare_amount_column ( df : DataFrame ):
    df = df . withColumn ( "f_day_of_week" , dayofweek ( "lpep_dropoff_datetime" ))
    df = df . withColumn ( "fare_amount_cents" , df . fare_amount . cast ( 'double' ) * 100 )
    return df

batch_source = HdfsSource ( name = "nycTaxiBatchSource" ,
                        path = "abfss://[email protected]/demo_data/green_tripdata_2020-04.csv" ,
                        preprocessing = add_new_dropoff_and_fare_amount_column ,
                        event_timestamp_column = "new_lpep_dropoff_datetime" ,
                        timestamp_format = "yyyy-MM-dd HH:mm:ss" )

ポイントインタイムの正確性を備えたウィンドウ集約機能の定義

 agg_features = [ Feature ( name = "f_location_avg_fare" ,
                        key = location_id ,                          # Query/join key of the feature(group)
                        feature_type = FLOAT ,
                        transform = WindowAggTransformation (        # Window Aggregation transformation
                            agg_expr = "cast_float(fare_amount)" ,
                            agg_func = "AVG" ,                       # Apply average aggregation over the window
                            window = "90d" )),                       # Over a 90-day window
                ]

agg_anchor = FeatureAnchor ( name = "aggregationFeatures" ,
                           source = batch_source ,
                           features = agg_features )

他のフィーチャーの上にフィーチャーを定義する - 派生フィーチャー

 # Compute a new feature(a.k.a. derived feature) on top of an existing feature
derived_feature = DerivedFeature ( name = "f_trip_time_distance" ,
                                 feature_type = FLOAT ,
                                 key = trip_key ,
                                 input_features = [ f_trip_distance , f_trip_time_duration ],
                                 transform = "f_trip_distance * f_trip_time_duration" )

# Another example to compute embedding similarity
user_embedding = Feature ( name = "user_embedding" , feature_type = DENSE_VECTOR , key = user_key )
item_embedding = Feature ( name = "item_embedding" , feature_type = DENSE_VECTOR , key = item_key )

user_item_similarity = DerivedFeature ( name = "user_item_similarity" ,
                                      feature_type = FLOAT ,
                                      key = [ user_key , item_key ],
                                      input_features = [ user_embedding , item_embedding ],
                                      transform = "cosine_similarity(user_embedding, item_embedding)" )

ストリーミング機能の定義

詳細については、「ストリーミングソースインジェストガイド」を参照してください。

ポイントインタイム結合

詳細については、「Feather のポイントインタイムの正確性とポイントインタイムの結合」を参照してください。

実行中のフェザーの例

クイックスタート Jupyter Notebook に従って試してください。付属のクイックスタートガイドにも、ノートブックに関するもう少し詳しい説明が含まれています。

Feather に関する技術講演

Feather の概要 - 初心者ガイド
Azure Feature Store (Feathr) と SynapseML を使用したドキュメントインテリジェンス
ノートブックチュートリアル: Feather 機能ストアを使用した製品推奨機械学習モデルの構築
Feature Store Summit でのフェザートーク

クラウドの統合とアーキテクチャ

アーキテクチャ図

羽根成分	クラウド統合
オフラインストア – オブジェクトストア	Azure Blob Storage、Azure ADLS Gen2、AWS S3
オフラインストア – SQL	Azure SQL DB、Azure Synapse 専用 SQL プール、VM 内の Azure SQL、Snowflake
ストリーミングソース	カフカ、イベントハブ
オンラインストア	Redis、Azure Cosmos DB
機能レジストリとガバナンス	Azure Purview、Azure SQL Server などの ANSI SQL
コンピューティングエンジン	Azure Synapse Spark プール、Databricks
機械学習プラットフォーム	Azure Machine Learning、Jupyter Notebook、Databricks Notebook
ファイル形式	寄木細工、ORC、Avro、JSON、デルタ湖、CSV
資格	Azure Key Vault

ロードマップ

Java などのその他の Feathr オンラインクライアントライブラリ
機能のバージョン管理をサポートする
サポート機能のモニタリング

?‍?‍?‍?コミュニティガイドライン

コミュニティのために構築し、コミュニティによって構築します。コミュニティガイドラインを確認してください。

?スラックチャンネル

Slack チャンネルに参加して質問やディスカッションを行ってください (または招待リンクをクリックしてください)。

拡大する

追加情報

バージョン v1.0.0
タイプ AI ソースコード
更新時間 2025-01-28
サイズ 21.6MB
から Github

feathr

企業向けのスケーラブルな統合データおよび AI エンジニアリングプラットフォーム

重要なリンク: Slack とディスカッション。ドキュメント。

フェザーとは何ですか？

?フェザーのハイライト

? Feathr の入門 - Feathr サンドボックス

Feather クライアントをローカルにインストールする

☁️ 実稼働環境でクラウド上で Feather を実行する

?ドキュメント

?サンプル

?フェザーで強調された機能

フェザーUI

豊富な UDF サポート

ポイントインタイムの正確性を備えたウィンドウ集約機能の定義

他のフィーチャーの上にフィーチャーを定義する - 派生フィーチャー

ストリーミング機能の定義

ポイントインタイム結合

実行中のフェザーの例

Feather に関する技術講演

クラウドの統合とアーキテクチャ

ロードマップ

?‍?‍?‍?コミュニティガイドライン

?スラックチャンネル

node telegram bot api

typebot.io

python wechaty getting started

TranscriberBot

genal chat

Facemoji

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions

feathr

企業向けのスケーラブルな統合データおよび AI エンジニアリング プラットフォーム

重要なリンク: Slack とディスカッション。ドキュメント。

フェザーとは何ですか？

?フェザーのハイライト

? Feathr の入門 - Feathr サンドボックス

Feather クライアントをローカルにインストールする

☁️ 実稼働環境でクラウド上で Feather を実行する

?ドキュメント

?サンプル

?フェザーで強調された機能

フェザーUI

豊富な UDF サポート

ポイントインタイムの正確性を備えたウィンドウ集約機能の定義

他のフィーチャーの上にフィーチャーを定義する - 派生フィーチャー

ストリーミング機能の定義

ポイントインタイム結合

実行中のフェザーの例

Feather に関する技術講演

クラウドの統合とアーキテクチャ

ロードマップ

?‍?‍?‍?コミュニティガイドライン

?スラックチャンネル

企業向けのスケーラブルな統合データおよび AI エンジニアリングプラットフォーム