vaex
Version linked to the paper
Vaex 是一个高性能 Python 库,用于惰性外核数据帧(类似于 Pandas),用于可视化和探索大型表格数据集。它在N 维网格上每秒计算超过十亿( 10^9
)个样本/行的统计数据,例如平均值、总和、计数、标准差等。可视化是使用直方图、密度图和3D 体积渲染完成的,允许对大数据进行交互式探索。 Vaex 使用内存映射、零内存复制策略和惰性计算来实现最佳性能(不浪费内存)。
用点:
$ pip install vaex
或者康达:
$ conda install -c conda-forge vaex
有关更多详细信息,请参阅文档
支持 HDF5 和 Apache Arrow。
阅读有关如何高效转换来自 CSV 文件、Pandas DataFrame 或其他来源的数据的文档。
支持来自 S3 的延迟流与内存映射相结合。
不要在特征工程上浪费内存或时间,我们会在需要时(懒惰地)转换您的数据。
过滤和求值表达式不会因为复制而浪费内存;数据在磁盘上保持不变,并且仅在需要时进行流式传输。延迟需要集群之前的时间。
Vaex 实现并行、高性能的groupby
操作,特别是在使用类别时(> 10 亿/秒)。
Vaex 在加入时不会复制/具体化“正确”的表,从而节省了千兆字节的内存。通过亚秒级连接十亿行,速度相当快!
请参阅贡献页面。
加入我们的 Slack 频道中的讨论!
文章
按照我们的教程进行操作
观看我们最近的演讲:
请联系我们获取数据科学解决方案、培训或企业支持:https://vaex.io/