vaex Download - vaex Quellcode herunterladen

vaex

Python

Version linked to the paper

Herunterladen

Was ist Vaex?

Vaex ist eine leistungsstarke Python-Bibliothek für verzögerte Out-of-Core-DataFrames (ähnlich wie Pandas), um große tabellarische Datensätze zu visualisieren und zu untersuchen. Es berechnet Statistiken wie Mittelwert, Summe, Anzahl, Standardabweichung usw. auf einem N-dimensionalen Gitter für mehr als eine Milliarde ( 10^9 ) Abtastwerte/Zeilen pro Sekunde . Die Visualisierung erfolgt mithilfe von Histogrammen , Dichtediagrammen und 3D-Volumenrendering und ermöglicht so die interaktive Erkundung großer Datenmengen. Vaex verwendet Speicherzuordnung, Null-Speicherkopie-Richtlinie und verzögerte Berechnungen für beste Leistung (keine Speicherverschwendung).

Installieren

Mit Pip:

 $ pip install vaex

Oder conda:

 $ conda install -c conda-forge vaex

Weitere Einzelheiten finden Sie in der Dokumentation

Hauptmerkmale

Sofortiges Öffnen großer Datendateien (Speicherzuordnung)

HDF5 und Apache Arrow werden unterstützt.

Eröffnung1a

Eröffnung1b

Lesen Sie die Dokumentation zur effizienten Konvertierung Ihrer Daten aus CSV-Dateien, Pandas DataFrames oder anderen Quellen.

Lazy Streaming von S3 wird in Kombination mit Speicherzuordnung unterstützt.

Eröffnung1c

Ausdruckssystem

Verschwenden Sie weder Speicher noch Zeit mit Feature-Engineering, wir transformieren Ihre Daten bei Bedarf (träge).

Ausdruck

Out-of-Core-DataFrame

Durch das Filtern und Auswerten von Ausdrücken wird kein Speicher durch das Erstellen von Kopien verschwendet. Die Daten bleiben unberührt auf der Festplatte und werden nur bei Bedarf gestreamt. Verzögern Sie die Zeit, bevor Sie einen Cluster benötigen.

okc-animiert

Schnelle Gruppierung/Aggregationen

Vaex implementiert parallelisierte, hochleistungsfähige groupby -Operationen, insbesondere bei der Verwendung von Kategorien (>1 Milliarde/Sekunde).

gruppieren

Schneller und effizienter Beitritt

Vaex kopiert/materialisiert beim Beitritt nicht die „richtige“ Tabelle, wodurch Gigabyte an Speicher gespart werden. Mit der Verknüpfung von einer Milliarde Zeilen in Sekundenbruchteilen geht das ziemlich schnell!

verbinden

Weitere Funktionen

Remote DataFrames (Dokumentation folgt in Kürze)
Integration in Jupyter und Voila für interaktive Notizbücher und Dashboards
Maschinelles Lernen ohne (explizite) Pipelines

Mitwirken

Siehe Beitragsseite.

Locker

Beteiligen Sie sich an der Diskussion in unserem Slack-Kanal!

Erfahren Sie mehr über Vaex

Artikel
- Jenseits von Pandas: Spark, Dask, Vaex und andere Big-Data-Technologien liefern sich ein Kopf-an-Kopf-Rennen (einschließlich Benchmarks)
- 7 Gründe, warum ich Vaex für die Datenwissenschaft liebe (Tipps und Tricks)
- ML unmöglich: Trainieren Sie 1 Milliarde Proben in 5 Minuten auf Ihrem Laptop mit Vaex und Scikit-Learn
- So analysieren Sie 100 GB Daten auf Ihrem Laptop mit Python
- Hoch hinaus mit Vaex: Analyse von über 30 Jahren Flugdaten in Python
- Vaex: Ein DataFrame mit Super-Strings – Beschleunigen Sie Ihre Textverarbeitung um das 1000-fache
- Vaex: Out-of-Core-Datenrahmen für Python und schnelle Visualisierung – 1 Milliarde Zeilendatensätze auf Ihrem Laptop
Folgen Sie unseren Tutorials
Sehen Sie sich unsere neueren Vorträge an:
- PyData London 2019
- SciPy 2019
Kontaktieren Sie uns für Data-Science-Lösungen, Schulungen oder Unternehmensunterstützung unter https://vaex.io/

Expandieren

Zusätzliche Informationen