vaex下载 - vaex源码下载

vaex

Python

Version linked to the paper

下载

什么是 Vaex？

Vaex 是一个高性能 Python 库，用于惰性外核数据帧（类似于 Pandas），用于可视化和探索大型表格数据集。它在N 维网格上每秒计算超过十亿（ 10^9 ）个样本/行的统计数据，例如平均值、总和、计数、标准差等。可视化是使用直方图、密度图和3D 体积渲染完成的，允许对大数据进行交互式探索。 Vaex 使用内存映射、零内存复制策略和惰性计算来实现最佳性能（不浪费内存）。

安装中

用点：

 $ pip install vaex

或者康达：

 $ conda install -c conda-forge vaex

有关更多详细信息，请参阅文档

主要特点

即时打开大数据文件（内存映射）

支持 HDF5 和 Apache Arrow。

开口1a

开口1b

阅读有关如何高效转换来自 CSV 文件、Pandas DataFrame 或其他来源的数据的文档。

支持来自 S3 的延迟流与内存映射相结合。

开口1c

表达系统

不要在特征工程上浪费内存或时间，我们会在需要时（懒惰地）转换您的数据。

核外数据框

过滤和求值表达式不会因为复制而浪费内存；数据在磁盘上保持不变，并且仅在需要时进行流式传输。延迟需要集群之前的时间。

occ动画

快速分组/聚合

Vaex 实现并行、高性能的groupby操作，特别是在使用类别时（> 10 亿/秒）。

分组依据

快速高效的加入

Vaex 在加入时不会复制/具体化“正确”的表，从而节省了千兆字节的内存。通过亚秒级连接十亿行，速度相当快！

贡献

请参阅贡献页面。

松弛

加入我们的 Slack 频道中的讨论！

了解有关 Vaex 的更多信息

文章
- 超越 Pandas：Spark、Dask、Vaex 和其他大数据技术正面交锋（包括基准测试）
- 我喜欢 Vaex 数据科学的 7 个原因（提示和技巧）
- ML 不可能：使用 Vaex 和 Scikit-Learn 在笔记本电脑上 5 分钟内训练 10 亿个样本
- 如何使用 Python 分析笔记本电脑上的 100 GB 数据
- 与 Vaex 一起飞得更高：用 Python 分析 30 多年的飞行数据
- Vaex：具有超级字符串的 DataFrame - 将文本处理速度提高 1000 倍
- Vaex：用于 Python 和快速可视化的 Out of Core Dataframes - 笔记本电脑上有 10 亿行数据集
按照我们的教程进行操作
观看我们最近的演讲：
- PyData 伦敦 2019
- SciPy 2019
请联系我们获取数据科学解决方案、培训或企业支持：https://vaex.io/

展开

附加信息