Feathr عبارة عن منصة هندسية للبيانات والذكاء الاصطناعي تُستخدم على نطاق واسع في الإنتاج في LinkedIn لسنوات عديدة وكانت مفتوحة المصدر في عام 2022. وهي حاليًا مشروع تحت إشراف LF AI & Data Foundation.
اقرأ إعلاننا بشأن Open Sourcing Feathr وFeathr على Azure، بالإضافة إلى إعلان LF AI & Data Foundation.
تتيح لك الريشة:
يعتبر Feathr مفيدًا بشكل خاص في نمذجة الذكاء الاصطناعي حيث يقوم تلقائيًا بحساب تحويلات الميزات الخاصة بك وضمها إلى بيانات التدريب الخاصة بك، باستخدام دلالات صحيحة في الوقت المناسب لتجنب تسرب البيانات، ويدعم تجسيد ميزاتك ونشرها للاستخدام عبر الإنترنت في الإنتاج.
أسهل طريقة لتجربة Feathr هي استخدام Feathr Sandbox وهو عبارة عن حاوية قائمة بذاتها تحتوي على معظم إمكانيات Feathr ويجب أن تكون منتجًا في 5 دقائق. لاستخدامه، ما عليك سوى تشغيل هذا الأمر:
# 80: Feathr UI, 8888: Jupyter, 7080: Interpret
docker run -it --rm -p 8888:8888 -p 8081:80 -p 7080:7080 -e GRANT_SUDO=yes feathrfeaturestore/feathr-sandbox:releases-v1.0.0
ويمكنك عرض دفتر Feathr Quickstart jupyter:
http://localhost:8888/lab/workspaces/auto-w/tree/local_quickstart_notebook.ipynb
بعد تشغيل الكمبيوتر الدفتري، سيتم تسجيل كافة الميزات في واجهة المستخدم، ويمكنك زيارة Feathr UI على:
http://localhost:8081
إذا كنت تريد تثبيت عميل Feathr في بيئة python، فاستخدم هذا:
pip install feathr
أو استخدم أحدث كود من GitHub:
pip install git+https://github.com/feathr-ai/feathr.git#subdirectory=feathr_project
يحتوي Feathr على عمليات تكامل أصلية مع Databricks وAzure Synapse:
اتبع دليل نشر Feathr ARM لتشغيل Feathr على Azure. يتيح لك ذلك البدء سريعًا في النشر الآلي باستخدام قالب Azure Resource Manager.
إذا كنت تريد إعداد كل شيء يدويًا، فيمكنك الاطلاع على دليل نشر Feathr CLI لتشغيل Feathr على Azure. يتيح لك هذا فهم ما يجري وإعداد مورد واحد في كل مرة.
اسم | وصف | منصة |
---|---|---|
مدينة نيويورك تاكسي التجريبي | دفتر ملاحظات Quickstart الذي يعرض كيفية تحديد الميزات وتجسيدها وتسجيلها باستخدام بيانات نموذجية للتنبؤ بأجرة سيارات الأجرة في مدينة نيويورك. | Azure Synapse، Databricks، Local Spark |
Databricks Quickstart NYC Taxi Demo | دفتر ملاحظات Quickstart Databricks مع بيانات نموذجية للتنبؤ بأجرة سيارات الأجرة في مدينة نيويورك. | طوب البيانات |
تضمين الميزة | مثال Feathr UDF يوضح كيفية تحديد ميزة تضمين الميزات واستخدامها باستخدام نموذج Transformer مُدرب مسبقًا وبيانات نموذجية لمراجعة الفنادق. | طوب البيانات |
العرض التوضيحي لكشف الاحتيال | مثال لتوضيح متجر الميزات باستخدام مصادر بيانات متعددة مثل حساب المستخدم وبيانات المعاملات. | Azure Synapse، Databricks، Local Spark |
عرض توصية المنتج | مثال على دفتر ملاحظات Feathr Features Store مع سيناريو توصية المنتج | Azure Synapse، Databricks، Local Spark |
يرجى قراءة قدرات Feathr الكاملة لمزيد من الأمثلة. وفيما يلي عدد قليل منها مختارة:
يوفر Feathr واجهة مستخدم بديهية حتى تتمكن من البحث واستكشاف جميع الميزات المتاحة والنسب المقابلة لها.
يمكنك استخدام Feathr UI للبحث عن الميزات وتحديد مصادر البيانات وتتبع سلالات الميزات وإدارة عناصر التحكم في الوصول. تحقق من أحدث العرض التجريبي المباشر هنا لترى ما يمكن أن تقدمه Feathr UI لك. استخدم أحد الحسابات التالية عندما يُطلب منك تسجيل الدخول:
لمزيد من المعلومات حول Feathr UI والتسجيل الموجود خلفها، يرجى الرجوع إلى Feathr Features Registry
يحتوي Feathr على UDFs قابلة للتخصيص بدرجة كبيرة مع تكامل PySpark وSpark SQL الأصلي لتقليل منحنى التعلم لعلماء البيانات:
def add_new_dropoff_and_fare_amount_column ( df : DataFrame ):
df = df . withColumn ( "f_day_of_week" , dayofweek ( "lpep_dropoff_datetime" ))
df = df . withColumn ( "fare_amount_cents" , df . fare_amount . cast ( 'double' ) * 100 )
return df
batch_source = HdfsSource ( name = "nycTaxiBatchSource" ,
path = "abfss://[email protected]/demo_data/green_tripdata_2020-04.csv" ,
preprocessing = add_new_dropoff_and_fare_amount_column ,
event_timestamp_column = "new_lpep_dropoff_datetime" ,
timestamp_format = "yyyy-MM-dd HH:mm:ss" )
agg_features = [ Feature ( name = "f_location_avg_fare" ,
key = location_id , # Query/join key of the feature(group)
feature_type = FLOAT ,
transform = WindowAggTransformation ( # Window Aggregation transformation
agg_expr = "cast_float(fare_amount)" ,
agg_func = "AVG" , # Apply average aggregation over the window
window = "90d" )), # Over a 90-day window
]
agg_anchor = FeatureAnchor ( name = "aggregationFeatures" ,
source = batch_source ,
features = agg_features )
# Compute a new feature(a.k.a. derived feature) on top of an existing feature
derived_feature = DerivedFeature ( name = "f_trip_time_distance" ,
feature_type = FLOAT ,
key = trip_key ,
input_features = [ f_trip_distance , f_trip_time_duration ],
transform = "f_trip_distance * f_trip_time_duration" )
# Another example to compute embedding similarity
user_embedding = Feature ( name = "user_embedding" , feature_type = DENSE_VECTOR , key = user_key )
item_embedding = Feature ( name = "item_embedding" , feature_type = DENSE_VECTOR , key = item_key )
user_item_similarity = DerivedFeature ( name = "user_item_similarity" ,
feature_type = FLOAT ,
key = [ user_key , item_key ],
input_features = [ user_embedding , item_embedding ],
transform = "cosine_similarity(user_embedding, item_embedding)" )
اقرأ دليل استيعاب مصدر البث لمزيد من التفاصيل.
اقرأ تصحيح النقطة الزمنية وانضم إلى Feathr لمزيد من التفاصيل.
اتبع البداية السريعة لـ Jupyter Notebook لتجربتها. يوجد أيضًا دليل البدء السريع المصاحب الذي يحتوي على شرح أكثر قليلًا حول دفتر الملاحظات.
مكون الريشة | التكامل السحابي |
---|---|
متجر دون اتصال - متجر الكائنات | تخزين Azure Blob وAzure ADLS Gen2 وAWS S3 |
متجر دون اتصال - SQL | قاعدة بيانات Azure SQL، ومجموعات SQL المخصصة لـ Azure Synapse، وAzure SQL في VM، وSnowflake |
مصدر الجري | كافكا، إيفينثوب |
متجر على الانترنت | ريديس، أزور كوزموس دي بي |
تسجيل الميزات والحوكمة | Azure Purview وANSI SQL مثل Azure SQL Server |
محرك الحساب | تجمعات Azure Synapse Spark و Databricks |
منصة التعلم الآلي | التعلم الآلي من Azure، وJupyter Notebook، وDatabricks Notebook |
تنسيق الملف | الباركيه، ORC، أفرو، JSON، دلتا ليك، CSV |
أوراق اعتماد | أزور مفتاح القبو |
البناء من أجل المجتمع والبناء من قبل المجتمع. تحقق من إرشادات المجتمع.
انضم إلى قناة Slack الخاصة بنا لطرح الأسئلة والمناقشات (أو انقر فوق رابط الدعوة).