Temporian adalah perpustakaan untuk prapemrosesan dan rekayasa fitur data temporal yang aman , sederhana dan efisien dengan Python. Temporian mendukung rangkaian waktu multivariat, urutan waktu multivariat, log peristiwa, dan aliran peristiwa lintas sumber.
Temporian untuk data temporal sama seperti Pandas untuk data tabular.
Mendukung sebagian besar jenis data temporal ?: Menangani data dengan sampel seragam dan sampel tidak seragam, baik data variat tunggal maupun multivariat, data datar dan multiindeks, serta peristiwa tidak tersinkronisasi sumber tunggal dan multisumber.
Dioptimalkan untuk data Temporal : Komputasi inti Temporian diimplementasikan dalam C++ dan dioptimalkan untuk data temporal. Temporian bisa 1.000x lebih cepat dibandingkan pustaka pemrosesan data yang tersedia saat beroperasi pada data temporal.
Mudah diintegrasikan ke dalam ekosistem ML yang ada : Temporian tidak melakukan pelatihan model ML apa pun - melainkan terintegrasi secara lancar dengan pustaka ML mana pun, seperti PyTorch, Scikit-Learn, Jax, TensorFlow, XGBoost, atau Yggdrasil Decision Forests.
Mencegah kebocoran di masa mendatang yang tidak diinginkan ?: Kecuali ditentukan secara eksplisit dengan tp.leak
, penghitungan fitur tidak dapat bergantung pada data di masa mendatang, sehingga mencegah kebocoran di masa mendatang yang tidak diinginkan, sulit di-debug, dan berpotensi merugikan.
Instal Temporian dari PyPI dengan pip
:
pip install temporian -U
Temporian saat ini tersedia untuk Linux dan MacOS (ARM dan Intel). Dukungan Windows sedang dalam pengembangan.
Pertimbangkan catatan penjualan yang berisi timestamp
, store
, dan revenue
penjualan individual.
$ cat sales.csv
timestamp,store,revenue
2023-12-04 21:21:05,STORE_31,5071
2023-11-08 17:14:38,STORE_4,1571
2023-11-29 21:44:46,STORE_49,6101
2023-12-20 18:17:14,STORE_18,4499
2023-12-15 10:55:09,STORE_2,6666
...
Sasaran kami adalah menghitung jumlah pendapatan setiap toko pada pukul 11 malam setiap hari kerja (tidak termasuk akhir pekan).
Pertama, kami memuat data dan membuat daftar hari kerja.
import temporian as tp
# Load sale transactions
sales = tp . from_csv ( "sales.csv" )
# Index sales per store
sales_per_store = sales . add_index ( "store" )
# List work days
days = sales_per_store . tick_calendar ( hour = 22 )
work_days = ( days . calendar_day_of_week () <= 5 ). filter ()
work_days . plot ( max_num_plots = 1 )
Lalu, kami menjumlahkan pendapatan harian untuk setiap hari kerja dan setiap toko.
# Aggregate revenue per store and per work day
daily_revenue = sales_per_store [ "revenue" ]. moving_sum ( tp . duration . days ( 1 ), sampling = work_days ). rename ( "daily_revenue" )
# Plot the results
daily_revenue . plot ( max_num_plots = 3 )
Terakhir, kita dapat mengekspor hasilnya sebagai Pandas DataFrame untuk diproses lebih lanjut atau untuk dikonsumsi oleh perpustakaan lain.
tp . to_pandas ( daily_revenue )
Periksa tutorial Memulai untuk mengetahui lebih lanjut!
Pengguna baru harus mengacu pada panduan Memulai, yang memberikan gambaran singkat tentang konsep utama dan pengoperasian Temporian.
Setelah itu, kunjungi Panduan Pengguna untuk mendalami konsep utama, operator, konvensi, dan praktik Temporian. Untuk pengalaman belajar langsung, pelajari Tutorial atau lihat referensi API.
Jika Anda memerlukan bantuan, memiliki pertanyaan, ingin berkontribusi, atau hanya ingin menjadi bagian dari komunitas Temporian, kami mendorong Anda untuk bergabung dengan server Discord kami! ??
Dokumentasi tersedia di temporian.readthedocs.io. Panduan Memulai adalah cara terbaik untuk memulai.
Kontribusi untuk Temporian dipersilahkan! Lihat panduan Berkontribusi untuk memulai.
Temporian dikembangkan melalui kolaborasi antara Google dan Tryolabs.