Feathr เป็นแพลตฟอร์มข้อมูลและวิศวกรรม AI ที่ใช้กันอย่างแพร่หลายในการผลิตที่ LinkedIn มาหลายปีและเป็นโอเพ่นซอร์สในปี 2022 ปัจจุบันเป็นโครงการภายใต้ LF AI & Data Foundation
อ่านประกาศของเราเกี่ยวกับ Open Sourcing Feathr และ Feathr บน Azure รวมถึงประกาศจาก LF AI & Data Foundation
Featherr ช่วยให้คุณ:
Feathr มีประโยชน์อย่างยิ่งในการสร้างแบบจำลอง AI โดยจะคำนวณการแปลงคุณสมบัติของคุณโดยอัตโนมัติและรวมเข้ากับข้อมูลการฝึกของคุณ โดยใช้ความหมายที่ถูกต้อง ณ เวลานั้นเพื่อหลีกเลี่ยงการรั่วไหลของข้อมูล และรองรับการทำให้เป็นรูปธรรมและปรับใช้คุณสมบัติของคุณสำหรับการใช้งานออนไลน์ในการผลิต
วิธีที่ง่ายที่สุดในการทดลองใช้ Feathr คือการใช้ Feathr Sandbox ซึ่งเป็นคอนเทนเนอร์แบบครบวงจรที่มีความสามารถส่วนใหญ่ของ Feathr และคุณควรจะทำงานได้อย่างมีประสิทธิภาพภายใน 5 นาที หากต้องการใช้งาน เพียงรันคำสั่งนี้:
# 80: Feathr UI, 8888: Jupyter, 7080: Interpret
docker run -it --rm -p 8888:8888 -p 8081:80 -p 7080:7080 -e GRANT_SUDO=yes feathrfeaturestore/feathr-sandbox:releases-v1.0.0
และคุณสามารถดูสมุดบันทึก Jupyter ของ Feathr Quickstart ได้:
http://localhost:8888/lab/workspaces/auto-w/tree/local_quickstart_notebook.ipynb
หลังจากใช้งานโน้ตบุ๊ก คุณสมบัติทั้งหมดจะถูกลงทะเบียนใน UI และคุณสามารถเยี่ยมชม Feathr UI ได้ที่:
http://localhost:8081
หากคุณต้องการติดตั้งไคลเอนต์ Feathr ในสภาพแวดล้อมแบบ python ให้ใช้สิ่งนี้:
pip install feathr
หรือใช้รหัสล่าสุดจาก GitHub:
pip install git+https://github.com/feathr-ai/feathr.git#subdirectory=feathr_project
Feathr มีการบูรณาการดั้งเดิมกับ Databricks และ Azure Synapse:
ปฏิบัติตามคู่มือการปรับใช้ Feathr ARM เพื่อรัน Feathr บน Azure สิ่งนี้ช่วยให้คุณเริ่มต้นการปรับใช้อัตโนมัติได้อย่างรวดเร็วโดยใช้เทมเพลต Azure Resource Manager
หากคุณต้องการตั้งค่าทุกอย่างด้วยตนเอง คุณสามารถตรวจสอบคู่มือการปรับใช้ Feathr CLI เพื่อรัน Feathr บน Azure สิ่งนี้ช่วยให้คุณเข้าใจสิ่งที่เกิดขึ้นและตั้งค่าทรัพยากรทีละรายการ
ชื่อ | คำอธิบาย | แพลตฟอร์ม |
---|---|---|
การสาธิตแท็กซี่นิวยอร์ค | สมุดบันทึก Quickstart ที่แสดงวิธีกำหนด จัดทำ และลงทะเบียนคุณสมบัติต่างๆ ด้วยข้อมูลตัวอย่างการทำนายค่าแท็กซี่ของ NYC | Azure Synapse, Databricks, Local Spark |
Databricks Quickstart การสาธิตแท็กซี่ NYC | สมุดบันทึก Quickstart Databricks พร้อมข้อมูลตัวอย่างการทำนายค่าโดยสาร NYC | ดาต้าบริคส์ |
การฝังคุณลักษณะ | ตัวอย่าง Feathr UDF แสดงวิธีกำหนดและใช้คุณลักษณะที่ฝังไว้กับโมเดล Transformer ที่ได้รับการฝึกอบรมล่วงหน้าและข้อมูลตัวอย่างรีวิวโรงแรม | ดาต้าบริคส์ |
การสาธิตการตรวจจับการฉ้อโกง | ตัวอย่างเพื่อสาธิต Feature Store โดยใช้แหล่งข้อมูลหลายแหล่ง เช่น บัญชีผู้ใช้และข้อมูลธุรกรรม | Azure Synapse, Databricks, Local Spark |
การสาธิตการแนะนำผลิตภัณฑ์ | ตัวอย่างสมุดบันทึก Featherhr Feature Store พร้อมสถานการณ์การแนะนำผลิตภัณฑ์ | Azure Synapse, Databricks, Local Spark |
โปรดอ่าน Feathr Full Capabilities เพื่อดูตัวอย่างเพิ่มเติม ด้านล่างนี้คือรายการที่เลือกบางส่วน:
Featherr มี UI ที่ใช้งานง่าย เพื่อให้คุณสามารถค้นหาและสำรวจคุณสมบัติทั้งหมดที่มีอยู่และสายเลือดที่เกี่ยวข้องได้
คุณสามารถใช้ Feathr UI เพื่อค้นหาคุณสมบัติ ระบุแหล่งข้อมูล ติดตามคุณสมบัติและจัดการการควบคุมการเข้าถึง ลองชมการสาธิตสดล่าสุดที่นี่เพื่อดูว่า Feathr UI สามารถทำอะไรให้คุณได้บ้าง ใช้บัญชีใดบัญชีหนึ่งต่อไปนี้เมื่อคุณได้รับแจ้งให้เข้าสู่ระบบ:
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ Feathr UI และรีจิสทรีเบื้องหลัง โปรดดูที่ Feathr Feature Registry
Feathr มี UDF ที่ปรับแต่งได้สูงพร้อมการผสานรวม PySpark และ Spark SQL ดั้งเดิม เพื่อลดช่วงการเรียนรู้สำหรับนักวิทยาศาสตร์ข้อมูล:
def add_new_dropoff_and_fare_amount_column ( df : DataFrame ):
df = df . withColumn ( "f_day_of_week" , dayofweek ( "lpep_dropoff_datetime" ))
df = df . withColumn ( "fare_amount_cents" , df . fare_amount . cast ( 'double' ) * 100 )
return df
batch_source = HdfsSource ( name = "nycTaxiBatchSource" ,
path = "abfss://[email protected]/demo_data/green_tripdata_2020-04.csv" ,
preprocessing = add_new_dropoff_and_fare_amount_column ,
event_timestamp_column = "new_lpep_dropoff_datetime" ,
timestamp_format = "yyyy-MM-dd HH:mm:ss" )
agg_features = [ Feature ( name = "f_location_avg_fare" ,
key = location_id , # Query/join key of the feature(group)
feature_type = FLOAT ,
transform = WindowAggTransformation ( # Window Aggregation transformation
agg_expr = "cast_float(fare_amount)" ,
agg_func = "AVG" , # Apply average aggregation over the window
window = "90d" )), # Over a 90-day window
]
agg_anchor = FeatureAnchor ( name = "aggregationFeatures" ,
source = batch_source ,
features = agg_features )
# Compute a new feature(a.k.a. derived feature) on top of an existing feature
derived_feature = DerivedFeature ( name = "f_trip_time_distance" ,
feature_type = FLOAT ,
key = trip_key ,
input_features = [ f_trip_distance , f_trip_time_duration ],
transform = "f_trip_distance * f_trip_time_duration" )
# Another example to compute embedding similarity
user_embedding = Feature ( name = "user_embedding" , feature_type = DENSE_VECTOR , key = user_key )
item_embedding = Feature ( name = "item_embedding" , feature_type = DENSE_VECTOR , key = item_key )
user_item_similarity = DerivedFeature ( name = "user_item_similarity" ,
feature_type = FLOAT ,
key = [ user_key , item_key ],
input_features = [ user_embedding , item_embedding ],
transform = "cosine_similarity(user_embedding, item_embedding)" )
อ่านคู่มือการส่งผ่านแหล่งที่มาของการสตรีมเพื่อดูรายละเอียดเพิ่มเติม
อ่านความถูกต้องของจุดในเวลาและการเข้าร่วมจุดในเวลาใน Feathr สำหรับรายละเอียดเพิ่มเติม
ทำตามการเริ่มต้นอย่างรวดเร็ว Jupyter Notebook เพื่อทดลองใช้ นอกจากนี้ยังมีคู่มือเริ่มต้นใช้งานฉบับย่อที่มีคำอธิบายเพิ่มเติมเล็กน้อยเกี่ยวกับโน้ตบุ๊ก
ส่วนประกอบขนนก | บูรณาการระบบคลาวด์ |
---|---|
ร้านค้าออฟไลน์ – ร้านค้าวัตถุ | พื้นที่เก็บข้อมูล Azure Blob, Azure ADLS Gen2, AWS S3 |
ร้านค้าออฟไลน์ – SQL | Azure SQL DB, พูล SQL เฉพาะของ Azure Synapse, Azure SQL ใน VM, Snowflake |
แหล่งสตรีมมิ่ง | คาฟคา, EventHub |
ร้านค้าออนไลน์ | เรดิส, Azure Cosmos DB |
คุณสมบัติการลงทะเบียนและการกำกับดูแล | Azure Purview, ANSI SQL เช่น Azure SQL Server |
เครื่องยนต์คำนวณ | Azure Synapse Spark Pools, Databricks |
แพลตฟอร์มการเรียนรู้ของเครื่อง | การเรียนรู้ของเครื่อง Azure, สมุดบันทึก Jupyter, สมุดบันทึก Databricks |
รูปแบบไฟล์ | ปาร์เก้, ORC, รว์, JSON, เดลต้าเลค, CSV |
ข้อมูลรับรอง | Azure Key Vault |
สร้างเพื่อชุมชนและสร้างโดยชุมชน ตรวจสอบหลักเกณฑ์ของชุมชน
เข้าร่วมช่อง Slack ของเราเพื่อถามคำถามและสนทนา (หรือคลิกลิงก์คำเชิญ)