台锯
概述
Tablesaw是一个数据框架和可视化库,支持加载、清理、转换、过滤和汇总数据。如果您使用 Java 处理数据,它可能会节省您的时间和精力。 Tablesaw 还支持描述性统计,可用于准备数据,以便与 Smile、Tribuo、H20.ai、DL4J 等机器学习库一起使用。
台锯特点
数据处理和转换
- 从 RDBMS、Excel、CSV、TSV、JSON、HTML 或固定宽度文本文件导入数据,无论它们是本地还是远程(http、S3 等)
- 将数据导出到 CSV、JSON、HTML 或固定宽度文件。
- 通过附加或连接来合并表
- 添加和删除列或行
- 排序、分组、过滤、编辑、转置等
- 映射/归约操作
- 处理缺失值
可视化
Tablesaw 通过为 Plot.ly JavaScript 绘图库提供包装器来支持数据可视化。以下是新库的一些实际应用示例。
统计数据
- 描述性统计:平均值、最小值、最大值、中位数、总和、乘积、标准差、方差、百分位数、几何平均值、偏度、峰度等。
入门
将 tablesaw-core 添加到您的项目中。您可以在发行说明中找到最新版本的版本号:
< dependency >
< groupId >tech.tablesaw</ groupId >
< artifactId >tablesaw-core</ artifactId >
< version >VERSION_NUMBER_GOES_HERE</ version >
</ dependency >
您还可以添加支持项目:
-
tablesaw-beakerx
- 用于在 BeakerX 内使用 Tablesaw -
tablesaw-excel
- 用于使用 Excel 工作簿 tablesaw-html
- 用于使用 HTML-
tablesaw-json
- 用于使用 JSON -
tablesaw-jsplot
- 用于创建图表
外部支持项目 -本组织之外:
- Tablesaw-parquet - 用于在 Tablesaw 中使用 Apache Parquet 文件格式(报告问题)
文档和支持
- 从这里开始:https://jtablesaw.github.io/tablesaw/gettingstarted
- 然后查看我们的文档页面:https://jtablesaw.github.io/tablesaw/ 和 Tablesaw 用户指南。
- 在新的 GitHub 讨论论坛中提出问题、提出建议或告诉我们您如何使用 Tablesaw。
- 可以在问题选项卡上提出功能请求和错误报告。
集成
Jupyter 笔记本
- 我们建议在 Jupyter Notebook 中尝试 Tablesaw,这样您可以以更具交互性的方式尝试 Tablesaw。首先安装 BeakerX 并尝试示例 Tablesaw 笔记本
- 在 Jupyter Notebook 中使用 Tablesaw 的第二种方法是使用 IJava,它内置了对 Tablesaw 的支持。 Gary Sharpe 编写了一个出色的教程,向您展示如何使用 Tablesaw 图。 Gary 编写了许多其他以 Tablesaw 为特色的教程:
- 使用 Java 和 Jupyter 整理数据
- 使用 Tablesaw 的数据框 — JSON
- 使用 Tablesaw 的数据框 — CSV 文件
- 第三种方法是使用 Google Colab。同样,Gary Sharpe 有一个很棒的教程:使用 Java 和 Google Colab 开始使用 Dataframes
其他集成
- 使用 Eclipse 可能会发现 etablesaw 很有用。它提供 Eclipse 集成,旨在将 Eclipse 转变为数据工作台。
- 您可以将 Tablesaw 与许多机器学习库结合使用。要查看将 Tablesaw 与 Smile 结合使用的示例,请查看示例 Tablesaw Jupyter 笔记本
- 如果您想将 Quandl 中的金融和经济数据加载到 Tablesaw 中,您可以使用 quandl4j-tablesaw。示例 Tablesaw 笔记本中也演示了这一点