Vaex เป็นไลบรารี Python ประสิทธิภาพสูงสำหรับ DataFrames นอกคอร์ที่ ขี้เกียจ (คล้ายกับ Pandas) เพื่อแสดงภาพและสำรวจชุดข้อมูลแบบตารางขนาดใหญ่ โดยจะคำนวณ สถิติ เช่น ค่าเฉลี่ย ผลรวม การนับ ส่วนเบี่ยงเบนมาตรฐาน ฯลฯ บน ตาราง N มิติ สำหรับตัวอย่าง/แถวมากกว่า พันล้าน ( 10^9
) ต่อวินาที การแสดงภาพทำได้โดยใช้ ฮิสโตแก รม แผนภาพความหนาแน่น และ การเรนเดอร์ปริมาตร 3 มิติ ช่วยให้สามารถสำรวจข้อมูลขนาดใหญ่แบบโต้ตอบได้ Vaex ใช้การแมปหน่วยความจำ นโยบายการคัดลอกหน่วยความจำเป็นศูนย์ และการคำนวณแบบ Lazy เพื่อประสิทธิภาพที่ดีที่สุด (ไม่เปลืองหน่วยความจำ)
ด้วย pip:
$ pip install vaex
หรือคอนดา:
$ conda install -c conda-forge vaex
สำหรับรายละเอียดเพิ่มเติม โปรดดูเอกสารประกอบ
รองรับ HDF5 และ Apache Arrow
อ่านเอกสารเกี่ยวกับวิธีการแปลงข้อมูลจากไฟล์ CSV, Pandas DataFrames หรือแหล่งอื่นๆ อย่างมีประสิทธิภาพ
รองรับการสตรีมแบบ Lazy จาก S3 ร่วมกับการแมปหน่วยความจำ
อย่าเสียเวลากับหน่วยความจำหรือเวลาไปกับวิศวกรรมฟีเจอร์ เรา (เกียจคร้าน) แปลงข้อมูลของคุณเมื่อจำเป็น
การกรองและประเมินนิพจน์จะไม่เปลืองหน่วยความจำโดยการทำสำเนา ข้อมูลจะไม่ถูกแตะต้องบนดิสก์ และจะถูกสตรีมเมื่อจำเป็นเท่านั้น ชะลอเวลาก่อนที่คุณจะต้องการคลัสเตอร์
Vaex ใช้การดำเนินการ groupby
แบบขนานและมีประสิทธิภาพสูง โดยเฉพาะอย่างยิ่งเมื่อใช้หมวดหมู่ (>1 พันล้าน/วินาที)
Vaex จะไม่คัดลอก/แปลงตาราง 'ถูกต้อง' เมื่อเข้าร่วม ซึ่งช่วยประหยัดหน่วยความจำได้หลายกิกะไบต์ ด้วยวินาทีที่รวมกันเป็นพันล้านแถว มันค่อนข้างเร็ว!
ดูหน้าการมีส่วนร่วม
เข้าร่วมการสนทนาในช่อง Slack ของเรา!
บทความ
ทำตามบทช่วยสอนของเรา
ดูการพูดคุยล่าสุดของเรา:
ติดต่อเราสำหรับโซลูชันด้านวิทยาศาสตร์ข้อมูล การฝึกอบรม หรือการสนับสนุนระดับองค์กรที่ https://vaex.io/