Venesia adalah platform penyimpanan data turunan, yang memberikan karakteristik berikut:
Hal di atas menjadikan Venesia sangat cocok sebagai komponen negara yang mendukung Feature Store, seperti Feathr. Aplikasi AI memasukkan output tugas pelatihan ML mereka ke Venesia dan kemudian mengkueri data untuk digunakan selama beban kerja inferensi online.
Venesia adalah sebuah sistem yang melintasi dunia offline, nearline, dan online, seperti yang diilustrasikan di bawah ini.
Jalur penulisan Venesia dapat dibagi menjadi tiga rincian: pertukaran kumpulan data lengkap, penyisipan banyak baris ke dalam kumpulan data yang ada, dan pembaruan beberapa kolom dari beberapa baris. Ketiga granularitas tersebut didukung oleh Hadoop dan Samza. Selain itu, layanan apa pun juga dapat menghasilkan penyisipan dan pembaruan baris tunggal secara asinkron, menggunakan pustaka Produser Online. Tabel di bawah ini merangkum operasi penulisan yang didukung oleh setiap platform:
Hadoop | Samza | Layanan Apa Pun | |
---|---|---|---|
Pertukaran kumpulan data penuh | ✅ | ✅ | |
Penyisipan beberapa baris ke dalam kumpulan data yang sudah ada | ✅ | ✅ | ✅ |
Pembaruan pada beberapa kolom dari beberapa baris | ✅ | ✅ | ✅ |
Selain itu, ketiga rincian operasi tulis semuanya dapat digabungkan dalam satu kumpulan data. Himpunan data yang mendapat pertukaran himpunan data penuh selain penyisipan baris atau pembaruan baris disebut hybrid .
Sebagai bagian dari mengonfigurasi penyimpanan menjadi hybrid , konsep penting adalah waktu mundur (rewind time ), yang menentukan seberapa jauh penulisan real-time baru-baru ini harus diputar ulang dan diterapkan pada kumpulan data generasi baru yang ditukar.
Dengan memanfaatkan mekanisme ini, output dari pekerjaan pemrosesan aliran dapat ditumpangkan di atas output dari pekerjaan batch. Jika menggunakan pembaruan parsial, maka ada kemungkinan beberapa kolom diperbarui secara real-time dan beberapa lagi dalam batch, dan kedua kumpulan kolom ini dapat tumpang tindih atau terputus-putus, sesuai keinginan.
Write Compute mencakup dua jenis operasi, yang dapat dilakukan pada nilai yang terkait dengan kunci tertentu:
NB: Saat ini, komputasi tulis hanya didukung bersama dengan replikasi aktif-pasif. Dukungan untuk replikasi aktif-aktif sedang dikembangkan.
Venesia mendukung API baca berikut:
Ada dua mode utama untuk mengakses data Venesia:
Tabel di bawah ini merangkum karakteristik klien:
Hop Jaringan | Latensi tipikal (p99) | Jejak Negara | |
---|---|---|---|
Klien Tipis | 2 | <10 milidetik | Tanpa kewarganegaraan |
Klien Cepat | 1 | < 2 milidetik | Minimal (hanya metadata perutean) |
Klien Da Vinci (RAM + SSD) | 0 | < 1 milidetik | RAM terbatas, kumpulan data lengkap pada SSD |
Klien Da Vinci (RAM lengkap) | 0 | <10 mikrodetik | Kumpulan data lengkap dalam RAM |
Semua klien ini berbagi API baca yang sama seperti yang dijelaskan di atas. Hal ini memungkinkan pengguna untuk melakukan perubahan pada pengorbanan biaya/kinerja tanpa perlu menulis ulang aplikasi mereka.
Blog Open Sourcing Venice dan pembicaraan konferensi adalah titik awal yang baik untuk mendapatkan gambaran umum tentang kasus penggunaan dan skala apa yang dapat didukung Venesia. Untuk postingan, pembicaraan, dan podcast Venesia lainnya, lihat halaman Pelajari Lebih Lanjut.
Lihat mulai cepat Venesia untuk membuat cluster Venesia Anda sendiri dan bermain-main dengan beberapa fitur seperti membuat penyimpanan data, batch push, inkremental push, dan single get. Kami merekomendasikan untuk tetap menggunakan rilis stabil terbaru kami.
Jangan ragu untuk terlibat dengan komunitas menggunakan:
Ikuti kami untuk mendengar lebih banyak tentang kemajuan proyek dan komunitas Venesia: