In diesem Tutorial werde ich eine grundlegende Einführung geben Pandas. Oh, ich meine nicht den Tierpanda, sondern eine Python-Bibliothek!
Wie auf der Pandas-Website erwähnt:
pandas ist eine von BSD lizenzierte Open Source-Bibliothek, die leistungsstarke, benutzerfreundliche Datenstrukturen und Datenanalysetools für die Programmiersprache Python bietet.
Somit, Pandas
ist eine Datenanalyse-Bibliothek mit den Datenstrukturen, die wir benötigen, um Rohdaten in ein für die Analyse geeignetes Formular (d. h. Tabellen) zu bereinigen. Es ist wichtig, das hier zu beachten Pandas
Er führt wichtige Aufgaben aus, z. B. das Ausrichten von Daten zum Vergleich und das Zusammenführen von Datensätzen, das Bearbeiten fehlender Daten usw., und ist zu einer De-facto-Bibliothek für die Datenverarbeitung auf hoher Ebene in Python geworden (d. h. Statistiken). Gut, Pandas
wurde ursprünglich für den Umgang mit Finanzdaten entwickelt, vorausgesetzt, die übliche Alternative ist die Verwendung einer Tabelle (d. h. Microsoft Excel).
Die grundlegende Datenstruktur von Pandas
wird genannt DataFrame
, Dabei handelt es sich um eine geordnete Auflistung von Spalten mit Namen und Typen, die wie eine Datenbanktabelle aussehen, in der eine einzelne Zeile einen einzelnen Fall (Beispiel) und Spalten bestimmte Attribute darstellt. Hierbei ist zu beachten, dass die Elemente in verschiedenen Spalten unterschiedliche Typen haben können.
Die Quintessenz ist also die Pandas
library stellt uns die für die Datenanalyse notwendigen Datenstrukturen und Funktionen zur Verfügung.
Mal sehen, wie wir installieren können Pandas
auf unseren Maschinen und zur Datenanalyse. Der einfachste Weg zur Installation Pandas
und vermeiden Sie Abhängigkeitsprobleme durch die Verwendung von Anaconda Pandas
kommt ein Teil von. Wie auf der Anaconda-Download-Seite erwähnt:
Anaconda ist eine vollständig kostenlose Python-Distribution (einschließlich für kommerzielle Nutzung und Weiterverteilung). Es enthält mehr als 400 der beliebtesten Python-Pakete für Wissenschaft, Mathematik, Engineering und Datenanalyse
Die Anaconda-Distribution ist plattformübergreifend, dh sie kann auf OS X-, Windows- und Linux-Computern installiert werden. Ich werde das OS X-Installationsprogramm verwenden, da ich an einem Mac OS X El Capitan-Computer arbeite. Natürlich können Sie auch das für Ihr Betriebssystem geeignete Installationsprogramm auswählen. Ich werde mit dem grafischen Installer gehen (Vorsicht, es ist 339 MB).
Anaconda Mac OS X Grafisches InstallationsprogrammNachdem Sie das Installationsprogramm heruntergeladen haben, gehen Sie einfach die Schritte des einfachen Installationsassistenten durch und schon sind Sie fertig!
Alles, was wir jetzt tun müssen, um es zu benutzen Pandas
ist das Paket wie folgt zu importieren:
Pandas als pd importieren
Ich habe eine der drei erwähnt Pandas
Datenstrukturen oben, die DataFrame
. Ich werde diese Datenstruktur in diesem Abschnitt zusätzlich zu dem anderen beschreiben Pandas
Datenstruktur, Serie
. Es wird eine andere Datenstruktur genannt Panel
, Ich werde es jedoch in diesem Tutorial nicht beschreiben, da es nicht so häufig verwendet wird, wie in der Dokumentation erwähnt. DataFrame
ist eine 2D-Datenstruktur, Serie
ist eine 1D-Datenstruktur und Panel
ist eine 3D- und höhere Datenstruktur.
Das DataFrame
ist eine tabellarische Datenstruktur, die aus geordneten Spalten und Zeilen besteht. Um die Dinge klarer zu machen, betrachten wir das Beispiel der Erstellung einer DataFrame
(Tabelle) aus einem Wörterbuch der Listen. Das folgende Beispiel zeigt ein Wörterbuch, das aus zwei Schlüsseln besteht, Name und Alter, und ihre entsprechende Liste von Werten.
pandas als pd importieren import numpy als np name_age = 'Name': ['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], 'Age': [32, 55, 20, 43, 30] data_frame = pd.DataFrame (name_age) drucke data_frame
Wenn Sie das obige Skript ausführen, sollten Sie eine Ausgabe erhalten, die der folgenden ähnelt:
Beachten Sie, dass die DataFrame
Konstruktor ordnet die Spalten alphabetisch an. Wenn Sie die Reihenfolge der Spalten ändern möchten, können Sie Folgendes unter eingeben Datenrahmen
über:
data_frame_2 = pd.DataFrame (name_age, Spalten = ['Name', 'Age'])
Um das Ergebnis anzuzeigen, geben Sie einfach Folgendes ein: print data_frame_2
.
Angenommen, Sie wollten nicht die Standardbezeichnungen 0,1,2,… verwenden und stattdessen a, b, c,… verwenden. In diesem Fall können Sie verwenden Index
im obigen Skript wie folgt:
data_frame_2 = pd.DataFrame (name_age, Spalten = ['Name', 'Alter'], Index = ['a', 'b', 'c', 'd', 'e'])
Das war sehr schön, oder? Verwenden DataFrame
, Wir konnten unsere Daten in tabellarischer Form sehen.
Serie
ist der zweite Pandas
Datenstruktur, über die ich sprechen werde. EIN Serie
ist ein eindimensionales (1D) Objekt ähnlich einer Spalte in der Tabelle. Wenn wir ein erstellen möchten Serie
Für eine Liste mit Namen können wir Folgendes tun:
series = pd.Series (['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], Index = [1, 2, 3, 4, 5]) drucken Serien
Die Ausgabe dieses Skripts lautet wie folgt:
Beachten Sie, dass wir verwendet haben Index
um die Daten zu kennzeichnen. Andernfalls beginnen die Standardbeschriftungen mit 0,1,2…
In diesem Abschnitt zeige ich Ihnen Beispiele einiger Funktionen, mit denen wir arbeiten können DataFrame
und Serie
.
Die Funktionen Kopf()
und Schwanz()
ermöglichen es uns, eine Stichprobe unserer Daten einzusehen, insbesondere bei einer großen Anzahl von Einträgen. Die Standardanzahl der Elemente, die angezeigt werden, ist 5, aber Sie können die benutzerdefinierte Anzahl zurückgeben, die Sie möchten.
Nehmen wir an, wir haben eine Serie
bestehend aus 20.000 zufälligen Artikeln (Zahlen):
pandas als pd importieren import numpy als np series = pd.Series (np.random.randn (20000))
Verwendung der Kopf()
und Schwanz()
Um die ersten und letzten fünf Elemente zu beobachten, können wir Folgendes tun:
print series.head () print series.tail ()
Die Ausgabe dieses Skripts sollte der folgenden ähneln (beachten Sie, dass Sie möglicherweise andere Werte haben, seit wir zufällige Werte generieren):
Nehmen wir ein Beispiel für die hinzufügen()
Funktion, wo wir versuchen, zwei hinzuzufügen Datenrahmen wie folgt:
pandas als pd dictionary_1 importieren = 'A': [5, 8, 10, 3, 9], 'B': [6, 1, 4, 8, 7] dictionary_2 = 'A': [4, 3 , 7, 6, 1], 'B': [9, 10, 10, 1, 2] data_frame_1 = pd.DataFrame (dictionary_1) data_frame_2 = pd.DataFrame (dictionary_2) data_frame_3 = data_frame_1.add (data_frame_2) druckt data_frame_1 print data_frame_2 print data_frame_3
Die Ausgabe des obigen Skripts lautet:
Sie können diesen Hinzufügungsvorgang auch durchführen, indem Sie einfach die +
Operator: data_frame_3 = data_frame_1 + data_frame_2
.
Ein sehr schöner Pandas
Funktion ist beschreiben()
, das generiert verschiedene zusammenfassende Statistiken für unsere Daten. Lassen Sie uns für das Beispiel im letzten Abschnitt Folgendes tun:
print data_frame_3.describe ()
Die Ausgabe dieser Operation wird sein:
Dies war nur ein Kratzer auf der Oberfläche von Python Pandas
. Für weitere Details können Sie das überprüfen Pandas
Dokumentation, und Sie können auch einige Bücher wie Pandas lernen und Pandas lernen.
Wissenschaftler müssen gelegentlich einige statistische Operationen ausführen und einige übersichtliche Grafiken anzeigen, für die sie eine Programmiersprache benötigen. Gleichzeitig möchten sie jedoch nicht zu viel Zeit aufwenden oder eine ernsthafte Lernkurve bei der Ausführung solcher Aufgaben vorfinden.
Wie wir in diesem Tutorial gesehen haben, Pandas
ermöglicht es uns, Daten tabellarisch darzustellen und einige Operationen an diesen Tabellen auf sehr einfache Weise auszuführen. Kombinieren Pandas
Mit anderen Python-Bibliotheken können Wissenschaftler sogar fortgeschrittenere Aufgaben erledigen, z. B. das Erstellen spezieller Grafiken für ihre Daten.
Somit, Pandas
ist eine sehr hilfreiche Bibliothek und Ausgangspunkt für Wissenschaftler, Ökonomen, Statistiker und alle, die bereit sind, einige Datenanalyse-Aufgaben durchzuführen.