Unduh feathr - unduh kode sumber feathr

feathr

Kode Sumber AI

v1.0.0

Unduh

Platform data dan rekayasa AI yang skalabel dan terpadu untuk perusahaan

Tautan Penting: Slack & Diskusi. dokumen.

Apa itu Bulu?

Feathr adalah platform rekayasa data dan AI yang banyak digunakan dalam produksi di LinkedIn selama bertahun-tahun dan bersumber terbuka pada tahun 2022. Saat ini merupakan proyek di bawah LF AI & Data Foundation.

Baca pengumuman kami tentang Open Sourcing Feathr dan Feathr di Azure, serta pengumuman dari LF AI & Data Foundation.

Feathr memungkinkan Anda:

Tentukan transformasi data dan fitur berdasarkan sumber data mentah (batch dan streaming) menggunakan API Pythonic.
Daftarkan transformasi berdasarkan nama dan dapatkan transformasi data (fitur) untuk berbagai kasus penggunaan termasuk pemodelan AI, kepatuhan, masuk ke pasar, dan banyak lagi.
Bagikan transformasi dan data (fitur) ke seluruh tim dan perusahaan.

Feathr sangat berguna dalam pemodelan AI yang secara otomatis menghitung transformasi fitur Anda dan menggabungkannya ke data pelatihan Anda, menggunakan semantik yang tepat waktu untuk menghindari kebocoran data, dan mendukung perwujudan dan penerapan fitur Anda untuk digunakan secara online dalam produksi.

? Sorotan Bulu

Integrasi cloud asli dengan arsitektur yang disederhanakan dan terukur.
Pertempuran diuji dalam produksi selama lebih dari 6 tahun: LinkedIn telah menggunakan Feathr dalam produksi selama lebih dari 6 tahun dan didukung oleh tim yang berdedikasi.
Dapat diskalakan dengan pengoptimalan bawaan: Feathr dapat memproses miliaran baris dan data skala PB dengan pengoptimalan bawaan seperti filter mekar dan gabungan asin.
API transformasi yang kaya termasuk agregasi berbasis waktu, gabungan jendela geser, fitur pencarian, semuanya dengan ketepatan waktu untuk AI.
API Pythonic dan fungsi yang ditentukan pengguna (UDF) yang sangat dapat disesuaikan dengan dukungan asli PySpark dan Spark SQL untuk menurunkan kurva pembelajaran bagi semua data scientist.
API transformasi data terpadu berfungsi di lingkungan batch offline, streaming, dan online.
Registri bawaan Feathr membuat transformasi bernama dan penggunaan kembali data/fitur menjadi mudah.

? Memulai dengan Feathr - Kotak Pasir Feathr

Cara termudah untuk mencoba Feathr adalah dengan menggunakan Feathr Sandbox yang merupakan wadah mandiri dengan sebagian besar kemampuan Feathr dan Anda akan produktif dalam 5 menit. Untuk menggunakannya, cukup jalankan perintah ini:

 # 80: Feathr UI, 8888: Jupyter, 7080: Interpret
docker run -it --rm -p 8888:8888 -p 8081:80 -p 7080:7080 -e GRANT_SUDO=yes feathrfeaturestore/feathr-sandbox:releases-v1.0.0

Dan Anda dapat melihat notebook jupyter quickstart Feathr:

http://localhost:8888/lab/workspaces/auto-w/tree/local_quickstart_notebook.ipynb

Setelah menjalankan notebook, semua fitur akan didaftarkan di UI, dan Anda dapat mengunjungi Feathr UI di:

http://localhost:8081

Instal Klien Feathr Secara Lokal

Jika Anda ingin menginstal klien Feathr di lingkungan python, gunakan ini:

pip install feathr

Atau gunakan kode terbaru dari GitHub:

pip install git+https://github.com/feathr-ai/feathr.git#subdirectory=feathr_project

☁️ Menjalankan Feathr di Cloud untuk Produksi

Feathr memiliki integrasi asli dengan Databricks dan Azure Synapse:

Ikuti panduan penerapan Feathr ARM untuk menjalankan Feathr di Azure. Hal ini memungkinkan Anda dengan cepat memulai penerapan otomatis menggunakan templat Azure Resource Manager.

Jika Anda ingin menyiapkan semuanya secara manual, Anda dapat memeriksa panduan penerapan Feathr CLI untuk menjalankan Feathr di Azure. Hal ini memungkinkan Anda memahami apa yang sedang terjadi dan menyiapkan sumber daya satu per satu.

Silakan baca Panduan Memulai Cepat Feathr di Databricks untuk menjalankan Feathr dengan Databricks.
Silakan baca Panduan Memulai Cepat Feathr di Azure Synapse untuk menjalankan Feathr dengan Azure Synapse.

? Dokumentasi

Untuk detail lebih lanjut tentang Feathr, baca dokumentasi kami.
Untuk referensi Python API, baca Referensi Python API.
Untuk pembicaraan teknis tentang Feathr, lihat slide di sini dan di sini. Rekamannya ada di sini.

? Sampel

Nama	Keterangan	Platform
Demo Taksi NYC	Buku catatan mulai cepat yang menampilkan cara menentukan, mewujudkan, dan mendaftarkan fitur dengan data sampel prediksi tarif taksi NYC.	Sinaps Azure, Databricks, Spark Lokal
Demo Taksi NYC Mulai Cepat Databricks	Buku catatan Quickstart Databricks dengan data sampel prediksi tarif taksi NYC.	Databricks
Penyematan Fitur	Contoh Feathr UDF menunjukkan cara menentukan dan menggunakan penyematan fitur dengan model Transformer terlatih dan data sampel ulasan hotel.	Databricks
Demo Deteksi Penipuan	Contoh untuk mendemonstrasikan Feature Store menggunakan berbagai sumber data seperti akun pengguna dan data transaksi.	Sinaps Azure, Databricks, Spark Lokal
Demo Rekomendasi Produk	Notebook contoh Feathr Feature Store dengan skenario rekomendasi produk	Sinaps Azure, Databricks, Spark Lokal

? Kemampuan yang Disorot Bulu

Silakan baca Kemampuan Penuh Feathr untuk contoh lebih lanjut. Di bawah ini adalah beberapa yang dipilih:

UI Bulu

Feathr menyediakan UI yang intuitif sehingga Anda dapat mencari dan menjelajahi semua fitur yang tersedia dan garis keturunannya yang sesuai.

Anda dapat menggunakan Feathr UI untuk mencari fitur, mengidentifikasi sumber data, melacak silsilah fitur, dan mengelola kontrol akses. Lihat demo langsung terbaru di sini untuk melihat apa yang Feathr UI dapat lakukan untuk Anda. Gunakan salah satu akun berikut ketika Anda diminta untuk login:

Akun organisasi kerja atau sekolah, termasuk pelanggan Office 365.
Akun pribadi Microsoft, ini berarti akun dapat mengakses Skype, Outlook.com, OneDrive, dan Xbox LIVE.

UI Bulu

Untuk informasi lebih lanjut tentang Feathr UI dan registri di baliknya, silakan lihat Registri Fitur Feathr

Dukungan UDF yang Kaya

Feathr memiliki UDF yang sangat dapat disesuaikan dengan integrasi PySpark dan Spark SQL asli untuk menurunkan kurva pembelajaran bagi ilmuwan data:

 def add_new_dropoff_and_fare_amount_column ( df : DataFrame ):
    df = df . withColumn ( "f_day_of_week" , dayofweek ( "lpep_dropoff_datetime" ))
    df = df . withColumn ( "fare_amount_cents" , df . fare_amount . cast ( 'double' ) * 100 )
    return df

batch_source = HdfsSource ( name = "nycTaxiBatchSource" ,
                        path = "abfss://[email protected]/demo_data/green_tripdata_2020-04.csv" ,
                        preprocessing = add_new_dropoff_and_fare_amount_column ,
                        event_timestamp_column = "new_lpep_dropoff_datetime" ,
                        timestamp_format = "yyyy-MM-dd HH:mm:ss" )

Mendefinisikan Fitur Agregasi Jendela dengan ketepatan Point-in-time

 agg_features = [ Feature ( name = "f_location_avg_fare" ,
                        key = location_id ,                          # Query/join key of the feature(group)
                        feature_type = FLOAT ,
                        transform = WindowAggTransformation (        # Window Aggregation transformation
                            agg_expr = "cast_float(fare_amount)" ,
                            agg_func = "AVG" ,                       # Apply average aggregation over the window
                            window = "90d" )),                       # Over a 90-day window
                ]

agg_anchor = FeatureAnchor ( name = "aggregationFeatures" ,
                           source = batch_source ,
                           features = agg_features )

Tentukan Fitur di Atas Fitur Lainnya - Fitur Turunan

 # Compute a new feature(a.k.a. derived feature) on top of an existing feature
derived_feature = DerivedFeature ( name = "f_trip_time_distance" ,
                                 feature_type = FLOAT ,
                                 key = trip_key ,
                                 input_features = [ f_trip_distance , f_trip_time_duration ],
                                 transform = "f_trip_distance * f_trip_time_duration" )

# Another example to compute embedding similarity
user_embedding = Feature ( name = "user_embedding" , feature_type = DENSE_VECTOR , key = user_key )
item_embedding = Feature ( name = "item_embedding" , feature_type = DENSE_VECTOR , key = item_key )

user_item_similarity = DerivedFeature ( name = "user_item_similarity" ,
                                      feature_type = FLOAT ,
                                      key = [ user_key , item_key ],
                                      input_features = [ user_embedding , item_embedding ],
                                      transform = "cosine_similarity(user_embedding, item_embedding)" )

Tentukan Fitur Streaming

Baca Panduan Penyerapan Sumber Streaming untuk detail selengkapnya.

Titik Waktu Bergabung

Baca Ketepatan Waktu dan Gabungan Waktu di Feathr untuk lebih jelasnya.

Contoh Bulu Lari

Ikuti panduan cepat Jupyter Notebook untuk mencobanya. Ada juga panduan memulai cepat pendamping yang berisi sedikit penjelasan lebih lanjut di buku catatan.

Pembicaraan Teknologi di Feathr

Pengantar Feathr - Panduan pemula
Kecerdasan Dokumen menggunakan Azure Feature Store (Feathr) dan SynapseML
Tutorial buku catatan: Membuat Model Pembelajaran Mesin Rekomendasi Produk dengan Feathr Feature Store
Percakapan bulu di Feature Store Summit

Integrasi dan Arsitektur Cloud

Diagram Arsitektur

Komponen bulu	Integrasi Awan
Toko offline – Toko Objek	Penyimpanan Blob Azure, Azure ADLS Gen2, AWS S3
Toko offline – SQL	Azure SQL DB, Kumpulan SQL Khusus Azure Synapse, Azure SQL di VM, Snowflake
Sumber Streaming	Kafka, EventHub
Toko daring	Redis, Azure Cosmos DB
Fitur Registri dan Tata Kelola	Azure Purview, ANSI SQL seperti Azure SQL Server
Mesin Komputasi	Kumpulan Spark Azure Synapse, Databricks
Platform Pembelajaran Mesin	Pembelajaran Mesin Azure, Buku Catatan Jupyter, Buku Catatan Databricks
Format Berkas	Parket, ORC, Avro, JSON, Delta Lake, CSV
Kredensial	Gudang Kunci Azure