Testen | |
Paket | |
Meta |
pandas ist ein Python-Paket, das schnelle, flexible und ausdrucksstarke Datenstrukturen bereitstellt, die die Arbeit mit „relationalen“ oder „beschrifteten“ Daten sowohl einfach als auch intuitiv machen sollen. Es soll der grundlegende High-Level-Baustein für die Durchführung praktischer, realer Datenanalysen in Python sein. Darüber hinaus verfolgt es das umfassendere Ziel, das leistungsstärkste und flexibelste Open-Source-Tool zur Datenanalyse/-manipulation zu werden, das in jeder Sprache verfügbar ist . Es ist bereits auf einem guten Weg, dieses Ziel zu erreichen.
Hauptmerkmale
Wo man es bekommt
Abhängigkeiten
Installation aus Quellen
Lizenz
Dokumentation
Hintergrund
Hilfe bekommen
Diskussion und Entwicklung
Beitrag zu Pandas
Hier sind nur einige der Dinge, die Pandas gut können:
Einfache Handhabung fehlender Daten (dargestellt als NaN
, NA
oder NaT
) in Gleitkomma- und Nicht-Gleitkomma-Daten
Größenveränderbarkeit: Spalten können in DataFrame und höherdimensionale Objekte eingefügt und gelöscht werden
Automatische und explizite Datenausrichtung : Objekte können explizit an einer Reihe von Beschriftungen ausgerichtet werden, oder der Benutzer kann die Beschriftungen einfach ignorieren und Series
, DataFrame
usw. die Daten in Berechnungen automatisch für Sie ausrichten lassen
Leistungsstarke, flexible Gruppierungsfunktion zur Durchführung von Split-Apply-Combine-Vorgängen für Datensätze, sowohl zum Aggregieren als auch zum Transformieren von Daten
Erleichtern Sie die Konvertierung unregelmäßiger, unterschiedlich indizierter Daten in anderen Python- und NumPy-Datenstrukturen in DataFrame-Objekte
Intelligentes, auf Etiketten basierendes Slicing , ausgefallene Indizierung und Unterteilung großer Datensätze
Intuitives Zusammenführen und Verbinden von Datensätzen
Flexibles Umformen und Pivotieren von Datensätzen
Hierarchische Beschriftung der Achsen (mehrere Beschriftungen pro Tick möglich)
Robuste IO-Tools zum Laden von Daten aus Flatfiles (CSV und durch Trennzeichen getrennt), Excel-Dateien , Datenbanken und zum Speichern/Laden von Daten aus dem ultraschnellen HDF5-Format
Zeitreihenspezifische Funktionalität: Datumsbereichsgenerierung und Häufigkeitskonvertierung, Statistiken für gleitende Fenster, Datumsverschiebung und -verzögerung
Der Quellcode wird derzeit auf GitHub gehostet unter: https://github.com/pandas-dev/pandas
Binäre Installationsprogramme für die neueste veröffentlichte Version sind im Python Package Index (PyPI) und auf Conda verfügbar.
# condaconda install -c conda-forge pandas
# oder PyPipip Pandas installieren
Die Liste der Änderungen an Pandas zwischen den einzelnen Releases finden Sie hier. Ausführliche Informationen finden Sie in den Commit-Protokollen unter https://github.com/pandas-dev/pandas.
NumPy – Fügt Unterstützung für große, mehrdimensionale Arrays, Matrizen und mathematische Funktionen auf hoher Ebene hinzu, um diese Arrays zu bearbeiten
python-dateutil – Bietet leistungsstarke Erweiterungen zum Standard-Datetime-Modul
pytz – Bringt die Olson tz-Datenbank in Python, was genaue und plattformübergreifende Zeitzonenberechnungen ermöglicht
In den vollständigen Installationsanweisungen finden Sie die unterstützten Mindestversionen erforderlicher, empfohlener und optionaler Abhängigkeiten.
Um Pandas aus dem Quellcode zu installieren, benötigen Sie zusätzlich zu den oben genannten normalen Abhängigkeiten Cython. Cython kann von PyPI aus installiert werden:
pip Cython installieren
Führen Sie im pandas
-Verzeichnis (dem Verzeichnis, in dem Sie diese Datei nach dem Klonen des Git-Repos gefunden haben) Folgendes aus:
pip install .
oder zur Installation im Entwicklungsmodus:
python -m pip install -ve . --no-build-isolation -Ceditable-verbose=true
Sehen Sie sich die vollständigen Anweisungen zur Installation von der Quelle an.
BSD 3
Die offizielle Dokumentation wird auf PyData.org gehostet.
Die Arbeit an pandas
begann 2008 bei AQR (einem quantitativen Hedgefonds) und wird seitdem aktiv weiterentwickelt.
Bei Fragen zur Verwendung wenden Sie sich am besten an StackOverflow. Darüber hinaus können allgemeine Fragen und Diskussionen auch auf der pydata-Mailingliste stattfinden.
Die meisten Entwicklungsdiskussionen finden in diesem Repo auf GitHub über den GitHub Issue Tracker statt.
Darüber hinaus kann die Mailingliste pandas-dev auch für Fachdiskussionen oder Designfragen genutzt werden, und für schnelle entwicklungsbezogene Fragen steht ein Slack-Kanal zur Verfügung.
Es gibt auch regelmäßige Community-Treffen für Projektbetreuer, die der Community offen stehen, sowie monatliche Treffen neuer Mitwirkender, um neue Mitwirkende zu unterstützen.
Weitere Informationen zu den Kommunikationskanälen finden Sie auf der Seite der Mitwirkenden-Community.
Alle Beiträge, Fehlerberichte, Fehlerbehebungen, Dokumentationsverbesserungen, Erweiterungen und Ideen sind willkommen.
Eine detaillierte Übersicht darüber, wie Sie einen Beitrag leisten können, finden Sie im Beitragsleitfaden .
Wenn Sie einfach nur mit der Pandas-Codebasis arbeiten möchten, navigieren Sie zur GitHub-Registerkarte „Issues“ und beginnen Sie mit der Suche nach interessanten Issues. Es gibt eine Reihe von Problemen, die unter „Dokumente“ aufgeführt sind, und eine gute erste Ausgabe, mit der Sie beginnen können.
Sie können auch Probleme selektieren, was das Reproduzieren von Fehlerberichten oder das Anfordern wichtiger Informationen wie Versionsnummern oder Reproduktionsanweisungen umfassen kann. Wenn Sie mit der Triage von Problemen beginnen möchten, besteht eine einfache Möglichkeit darin, Pandas auf CodeTriage zu abonnieren.
Oder vielleicht haben Sie durch die Verwendung von Pandas eine eigene Idee oder suchen etwas in der Dokumentation und denken: „Das kann verbessert werden“ ... Sie können etwas dagegen tun!
Stellen Sie Fragen gerne über die Mailingliste oder auf Slack.
Als Mitwirkende und Betreuer dieses Projekts wird von Ihnen erwartet, dass Sie sich an den Verhaltenskodex von pandas halten. Weitere Informationen finden Sie unter: Verhaltenskodex für Mitwirkende
Nach oben gehen