Temporian是一個用於 Python 中安全、簡單、高效的時態資料預處理和特徵工程的函式庫。 Temporian 支援多元時間序列、多元時間序列、事件日誌和跨來源事件流。
Temporian 之於時間資料就像 Pandas 之於表格資料一樣。
支援大多數類型的時態資料?
針對時態資料進行最佳化:Temporian 的核心計算是用 C++ 實現的,並針對時態資料進行了最佳化。在處理時態資料時,Temporian 的速度比現成的資料處理庫快 1,000 倍以上。
易於整合到現有的 ML 生態系統中:Temporian 不執行任何 ML 模型訓練,而是與任何 ML 庫無縫集成,例如 PyTorch、Scikit-Learn、Jax、TensorFlow、XGBoost 或 Yggdrasil Decision Forests。
防止不必要的未來洩漏tp.leak
使用pip
從 PyPI 安裝 Temporian:
pip install temporian -U
Temporian 目前可用於 Linux 和 MacOS(ARM 和 Intel)。 Windows 支援正在開發中。
考慮包含單一銷售的timestamp
、 store
和revenue
的銷售記錄。
$ cat sales.csv
timestamp,store,revenue
2023-12-04 21:21:05,STORE_31,5071
2023-11-08 17:14:38,STORE_4,1571
2023-11-29 21:44:46,STORE_49,6101
2023-12-20 18:17:14,STORE_18,4499
2023-12-15 10:55:09,STORE_2,6666
...
我們的目標是計算每個工作日晚上 11 點(不包括週末)每家商店的收入總和。
首先,我們載入資料並列出工作日。
import temporian as tp
# Load sale transactions
sales = tp . from_csv ( "sales.csv" )
# Index sales per store
sales_per_store = sales . add_index ( "store" )
# List work days
days = sales_per_store . tick_calendar ( hour = 22 )
work_days = ( days . calendar_day_of_week () <= 5 ). filter ()
work_days . plot ( max_num_plots = 1 )
然後,我們將每個工作日和每個商店的每日收入相加。
# Aggregate revenue per store and per work day
daily_revenue = sales_per_store [ "revenue" ]. moving_sum ( tp . duration . days ( 1 ), sampling = work_days ). rename ( "daily_revenue" )
# Plot the results
daily_revenue . plot ( max_num_plots = 3 )
最後,我們可以將結果匯出為 Pandas DataFrame 以供進一步處理或供其他庫使用。
tp . to_pandas ( daily_revenue )
查看入門教學以了解更多!
新使用者應參閱入門指南,該指南提供了 Temporian 關鍵概念和操作的快速概述。
之後,造訪使用者指南,深入了解 Temporian 的主要概念、運算符、約定和實踐。若要獲得實作學習體驗,請完成教學課程或參考 API 參考。
如果您需要幫助、有疑問、想要貢獻或只是想成為 Temporian 社群的一員,我們鼓勵您加入我們的 Discord 伺服器! ??
該文件可在 temporian.readthedocs.io 上取得。入門指南是最好的開始方式。
歡迎為 Temporian 做出貢獻!查看貢獻指南以開始使用。
Temporian 是 Google 和 Tryolabs 合作開發的。