Temporian เป็นไลบรารีสำหรับการประมวลผลล่วงหน้า ที่ปลอดภัย เรียบง่าย และ มีประสิทธิภาพ และวิศวกรรมคุณลักษณะของข้อมูลชั่วคราวใน Python Temporian รองรับอนุกรมเวลาหลายตัวแปร ลำดับเวลาหลายตัวแปร บันทึกเหตุการณ์ และสตรีมเหตุการณ์ข้ามแหล่งที่มา
Temporian คือข้อมูลชั่วคราว สิ่งที่ Pandas เป็นข้อมูลแบบตาราง
รองรับข้อมูลชั่วคราวส่วนใหญ่ ?: จัดการทั้งข้อมูลตัวอย่างที่สม่ำเสมอและข้อมูลที่สุ่มตัวอย่างไม่สม่ำเสมอ ทั้งข้อมูลตัวแปรเดียวและหลายตัวแปร ทั้งข้อมูลแบบแฟลตและหลายดัชนี และเหตุการณ์ที่ไม่ซิงโครไนซ์ทั้งแหล่งเดียวและหลายแหล่ง
ปรับให้เหมาะสมสำหรับข้อมูลชั่วคราว : การคำนวณหลักของ Temporian ถูกนำไปใช้ใน C++ และปรับให้เหมาะสมสำหรับข้อมูลชั่วคราว Temporian สามารถเร็วกว่าไลบรารีการประมวลผลข้อมูลทั่วไปได้มากกว่า 1,000 เท่า เมื่อทำงานกับข้อมูลชั่วคราว
ง่ายต่อการรวมเข้ากับระบบนิเวศ ML ที่มีอยู่ : Temporian ไม่ได้ดำเนินการฝึกอบรมโมเดล ML ใด ๆ แต่จะรวมเข้ากับไลบรารี ML ใด ๆ ได้อย่างราบรื่น เช่น PyTorch, Scikit-Learn, Jax, TensorFlow, XGBoost หรือ Yggdrasil Decision Forests
ป้องกันการรั่วไหลในอนาคตที่ไม่พึงประสงค์ ?: การประมวลผลฟีเจอร์ไม่สามารถขึ้นอยู่กับข้อมูลในอนาคตได้ เว้นแต่จะระบุไว้อย่างชัดเจนด้วย tp.leak
ดังนั้นจึงป้องกันการรั่วไหลที่ไม่พึงประสงค์ ยากต่อการแก้ไข และอาจมีค่าใช้จ่ายสูงในอนาคต
ติดตั้ง Temporian จาก PyPI ด้วย pip
:
pip install temporian -U
ปัจจุบัน Temporian พร้อมใช้งานสำหรับ Linux และ MacOS (ARM และ Intel) การสนับสนุน Windows อยู่ระหว่างการพัฒนา
พิจารณาบันทึกการขายที่มี timestamp
store
และ revenue
จากการขายแต่ละรายการ
$ cat sales.csv
timestamp,store,revenue
2023-12-04 21:21:05,STORE_31,5071
2023-11-08 17:14:38,STORE_4,1571
2023-11-29 21:44:46,STORE_49,6101
2023-12-20 18:17:14,STORE_18,4499
2023-12-15 10:55:09,STORE_2,6666
...
เป้าหมายของเราคือการคำนวณผลรวมของรายได้สำหรับร้านค้าแต่ละแห่งในเวลา 23.00 น. ทุกวันธรรมดา (ไม่รวมวันหยุดสุดสัปดาห์)
ขั้นแรก เราจะโหลดข้อมูลและแสดงรายการวันทำงาน
import temporian as tp
# Load sale transactions
sales = tp . from_csv ( "sales.csv" )
# Index sales per store
sales_per_store = sales . add_index ( "store" )
# List work days
days = sales_per_store . tick_calendar ( hour = 22 )
work_days = ( days . calendar_day_of_week () <= 5 ). filter ()
work_days . plot ( max_num_plots = 1 )
จากนั้น เราจะรวมรายได้รายวันสำหรับแต่ละวันทำงานและแต่ละร้านค้า
# Aggregate revenue per store and per work day
daily_revenue = sales_per_store [ "revenue" ]. moving_sum ( tp . duration . days ( 1 ), sampling = work_days ). rename ( "daily_revenue" )
# Plot the results
daily_revenue . plot ( max_num_plots = 3 )
สุดท้ายนี้ เราสามารถส่งออกผลลัพธ์เป็น Pandas DataFrame เพื่อการประมวลผลเพิ่มเติมหรือเพื่อการใช้งานโดยไลบรารีอื่น
tp . to_pandas ( daily_revenue )
ตรวจสอบบทช่วยสอนการเริ่มต้นใช้งานเพื่อหาข้อมูลเพิ่มเติม!
ผู้ใช้ใหม่ควรดูคู่มือการเริ่มต้นใช้งาน ซึ่งให้ภาพรวมโดยย่อของแนวคิดหลักและการดำเนินงานของ Temporian
หลังจากนั้น ให้ไปที่คู่มือผู้ใช้เพื่อเจาะลึกแนวคิดหลัก ผู้ปฏิบัติงาน แบบแผน และหลักปฏิบัติของ Temporian หากต้องการประสบการณ์การเรียนรู้แบบลงมือปฏิบัติจริง โปรดอ่านบทช่วยสอนหรืออ้างอิงถึงข้อมูลอ้างอิง API
หากคุณต้องการความช่วยเหลือ มีคำถาม ต้องการมีส่วนร่วม หรือเพียงต้องการเป็นส่วนหนึ่งของชุมชน Temporian เราขอแนะนำให้คุณเข้าร่วมเซิร์ฟเวอร์ Discord ของเรา! -
เอกสารมีอยู่ที่ temporian.readthedocs.io คู่มือการเริ่มต้นใช้งานคือวิธีที่ดีที่สุดในการเริ่มต้น
ยินดีต้อนรับการบริจาคให้กับ Temporian! ดูคู่มือการมีส่วนร่วมเพื่อเริ่มต้น
Temporian ได้รับการพัฒนาโดยความร่วมมือระหว่าง Google และ Tryolabs