Настольная пила
Обзор
Tablesaw — это библиотека фреймов данных и визуализации, которая поддерживает загрузку, очистку, преобразование, фильтрацию и обобщение данных. Если вы работаете с данными на Java, это может сэкономить вам время и усилия. Tablesaw также поддерживает описательную статистику и может использоваться для подготовки данных для работы с библиотеками машинного обучения, такими как Smile, Tribuo, H20.ai, DL4J.
Особенности настольной пилы
Обработка и преобразование данных
- Импортируйте данные из СУБД, Excel, CSV, TSV, JSON, HTML или текстовых файлов фиксированной ширины, независимо от того, являются ли они локальными или удаленными (http, S3 и т. д.).
- Экспортируйте данные в файлы CSV, JSON, HTML или фиксированной ширины.
- Объединение таблиц путем добавления или соединения
- Добавляйте и удаляйте столбцы или строки
- Сортировка, группировка, фильтрация, редактирование, транспонирование и т. д.
- Операции Map/Reduce
- Обработка пропущенных значений
Визуализация
Tablesaw поддерживает визуализацию данных, предоставляя оболочку для библиотеки построения графиков JavaScript Plot.ly. Вот несколько примеров новой библиотеки в действии.
Статистика
- Описательная статистика: среднее, минимальное, максимальное, медиана, сумма, произведение, стандартное отклонение, дисперсия, процентили, среднее геометрическое, асимметрия, эксцесс и т. д.
Начиная
Добавьте tablesaw-core в свой проект. Номер версии последней версии можно найти в примечаниях к выпуску:
< dependency >
< groupId >tech.tablesaw</ groupId >
< artifactId >tablesaw-core</ artifactId >
< version >VERSION_NUMBER_GOES_HERE</ version >
</ dependency >
Вы также можете добавить поддерживающие проекты:
-
tablesaw-beakerx
— для использования Tablesaw внутри BeakerX -
tablesaw-excel
— для использования книг Excel -
tablesaw-html
— для использования HTML -
tablesaw-json
— для использования JSON -
tablesaw-jsplot
— для создания диаграмм
Внешние поддерживающие проекты – за пределами этой организации :
- tablesaw-parquet — для использования формата файла Apache Parquet с Tablesaw (сообщить о проблеме)
Документация и поддержка
- Начните здесь: https://jtablesaw.github.io/tablesaw/gettingstarted.
- Затем посетите нашу страницу документации: https://jtablesaw.github.io/tablesaw/ и руководство пользователя Tablesaw.
- Задавайте вопросы, вносите предложения или рассказывайте нам, как вы используете Tablesaw, на новом дискуссионном форуме GitHub.
- Запросы на добавление функций и отчеты об ошибках можно сделать на вкладке «Проблемы».
Интеграции
Ноутбуки Jupyter
- Мы рекомендуем попробовать Tablesaw в блокнотах Jupyter, что позволит вам экспериментировать с Tablesaw более интерактивно. Начните с установки BeakerX и попробуйте образец блокнота Tablesaw.
- Второй способ использования Tablesaw в блокнотах Jupyter — это IJava, которая имеет встроенную поддержку Tablesaw. Гэри Шарп написал отличный учебник, который покажет вам, как использовать графики Tablesaw. Гэри написал ряд других руководств с использованием Tablesaw:
- Аккуратные данные с помощью Java и Jupyter
- Кадры данных с Tablesaw — JSON
- Кадры данных с Tablesaw — файлы CSV
- Третий подход — использовать Google Colab. Опять же, у Гэри Шарпа есть отличный учебник: Начало работы с Dataframes с использованием Java и Google Colab.
Другие интеграции
- Использование Eclipse может оказаться полезным. Он обеспечивает интеграцию Eclipse, направленную на превращение Eclipse в среду обработки данных.
- Вы можете использовать Tablesaw со многими библиотеками машинного обучения. Чтобы увидеть пример использования Tablesaw с Smile, ознакомьтесь с образцом блокнота Tablesaw Jupyter.
- Вы можете использовать quandl4j-tablesaw, если хотите загрузить финансовые и экономические данные из Quandl в Tablesaw. Это также продемонстрировано в образце блокнота Tablesaw.