Pandas vorstellen

In diesem Tutorial werde ich eine grundlegende Einführung geben Pandas. Oh, ich meine nicht den Tierpanda, sondern eine Python-Bibliothek!

Wie auf der Pandas-Website erwähnt:

pandas ist eine von BSD lizenzierte Open Source-Bibliothek, die leistungsstarke, benutzerfreundliche Datenstrukturen und Datenanalysetools für die Programmiersprache Python bietet.

Somit, Pandas ist eine Datenanalyse-Bibliothek mit den Datenstrukturen, die wir benötigen, um Rohdaten in ein für die Analyse geeignetes Formular (d. h. Tabellen) zu bereinigen. Es ist wichtig, das hier zu beachten Pandas Er führt wichtige Aufgaben aus, z. B. das Ausrichten von Daten zum Vergleich und das Zusammenführen von Datensätzen, das Bearbeiten fehlender Daten usw., und ist zu einer De-facto-Bibliothek für die Datenverarbeitung auf hoher Ebene in Python geworden (d. h. Statistiken). Gut, Pandas wurde ursprünglich für den Umgang mit Finanzdaten entwickelt, vorausgesetzt, die übliche Alternative ist die Verwendung einer Tabelle (d. h. Microsoft Excel).

Die grundlegende Datenstruktur von Pandas wird genannt DataFrame, Dabei handelt es sich um eine geordnete Auflistung von Spalten mit Namen und Typen, die wie eine Datenbanktabelle aussehen, in der eine einzelne Zeile einen einzelnen Fall (Beispiel) und Spalten bestimmte Attribute darstellt. Hierbei ist zu beachten, dass die Elemente in verschiedenen Spalten unterschiedliche Typen haben können.

Die Quintessenz ist also die Pandas library stellt uns die für die Datenanalyse notwendigen Datenstrukturen und Funktionen zur Verfügung.

Pandas installieren

Mal sehen, wie wir installieren können Pandas auf unseren Maschinen und zur Datenanalyse. Der einfachste Weg zur Installation Pandas und vermeiden Sie Abhängigkeitsprobleme durch die Verwendung von Anaconda Pandas kommt ein Teil von. Wie auf der Anaconda-Download-Seite erwähnt:

Anaconda ist eine vollständig kostenlose Python-Distribution (einschließlich für kommerzielle Nutzung und Weiterverteilung). Es enthält mehr als 400 der beliebtesten Python-Pakete für Wissenschaft, Mathematik, Engineering und Datenanalyse

Die Anaconda-Distribution ist plattformübergreifend, dh sie kann auf OS X-, Windows- und Linux-Computern installiert werden. Ich werde das OS X-Installationsprogramm verwenden, da ich an einem Mac OS X El Capitan-Computer arbeite. Natürlich können Sie auch das für Ihr Betriebssystem geeignete Installationsprogramm auswählen. Ich werde mit dem grafischen Installer gehen (Vorsicht, es ist 339 MB).

Anaconda Mac OS X Grafisches Installationsprogramm

Nachdem Sie das Installationsprogramm heruntergeladen haben, gehen Sie einfach die Schritte des einfachen Installationsassistenten durch und schon sind Sie fertig!

Alles, was wir jetzt tun müssen, um es zu benutzen Pandas ist das Paket wie folgt zu importieren:

Pandas als pd importieren

Pandas-Datenstrukturen

Ich habe eine der drei erwähnt Pandas Datenstrukturen oben, die DataFrame. Ich werde diese Datenstruktur in diesem Abschnitt zusätzlich zu dem anderen beschreiben Pandas Datenstruktur, Serie. Es wird eine andere Datenstruktur genannt Panel, Ich werde es jedoch in diesem Tutorial nicht beschreiben, da es nicht so häufig verwendet wird, wie in der Dokumentation erwähnt. DataFrame ist eine 2D-Datenstruktur, Serie ist eine 1D-Datenstruktur und Panel ist eine 3D- und höhere Datenstruktur.

DataFrame

Das DataFrame ist eine tabellarische Datenstruktur, die aus geordneten Spalten und Zeilen besteht. Um die Dinge klarer zu machen, betrachten wir das Beispiel der Erstellung einer DataFrame (Tabelle) aus einem Wörterbuch der Listen. Das folgende Beispiel zeigt ein Wörterbuch, das aus zwei Schlüsseln besteht, Name und Alter, und ihre entsprechende Liste von Werten.

pandas als pd importieren import numpy als np name_age = 'Name': ['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], 'Age': [32, 55, 20, 43, 30] data_frame = pd.DataFrame (name_age) drucke data_frame

Wenn Sie das obige Skript ausführen, sollten Sie eine Ausgabe erhalten, die der folgenden ähnelt:

Beachten Sie, dass die DataFrame Konstruktor ordnet die Spalten alphabetisch an. Wenn Sie die Reihenfolge der Spalten ändern möchten, können Sie Folgendes unter eingeben Datenrahmen über:

data_frame_2 = pd.DataFrame (name_age, Spalten = ['Name', 'Age'])

Um das Ergebnis anzuzeigen, geben Sie einfach Folgendes ein: print data_frame_2.

Angenommen, Sie wollten nicht die Standardbezeichnungen 0,1,2,… verwenden und stattdessen a, b, c,… verwenden. In diesem Fall können Sie verwenden Index im obigen Skript wie folgt:

data_frame_2 = pd.DataFrame (name_age, Spalten = ['Name', 'Alter'], Index = ['a', 'b', 'c', 'd', 'e'])

Das war sehr schön, oder? Verwenden DataFrame, Wir konnten unsere Daten in tabellarischer Form sehen.

Serie

Serie ist der zweite Pandas Datenstruktur, über die ich sprechen werde. EIN Serie ist ein eindimensionales (1D) Objekt ähnlich einer Spalte in der Tabelle. Wenn wir ein erstellen möchten Serie Für eine Liste mit Namen können wir Folgendes tun:

series = pd.Series (['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], Index = [1, 2, 3, 4, 5]) drucken Serien

Die Ausgabe dieses Skripts lautet wie folgt:

Beachten Sie, dass wir verwendet haben Index um die Daten zu kennzeichnen. Andernfalls beginnen die Standardbeschriftungen mit 0,1,2…

Pandas-Funktionen

In diesem Abschnitt zeige ich Ihnen Beispiele einiger Funktionen, mit denen wir arbeiten können DataFrame und Serie.

Kopf und Schwanz

Die Funktionen Kopf() und Schwanz() ermöglichen es uns, eine Stichprobe unserer Daten einzusehen, insbesondere bei einer großen Anzahl von Einträgen. Die Standardanzahl der Elemente, die angezeigt werden, ist 5, aber Sie können die benutzerdefinierte Anzahl zurückgeben, die Sie möchten.

Nehmen wir an, wir haben eine Serie bestehend aus 20.000 zufälligen Artikeln (Zahlen):

pandas als pd importieren import numpy als np series = pd.Series (np.random.randn (20000))

Verwendung der Kopf() und Schwanz() Um die ersten und letzten fünf Elemente zu beobachten, können wir Folgendes tun:

print series.head () print series.tail ()

Die Ausgabe dieses Skripts sollte der folgenden ähneln (beachten Sie, dass Sie möglicherweise andere Werte haben, seit wir zufällige Werte generieren):

Hinzufügen

Nehmen wir ein Beispiel für die hinzufügen() Funktion, wo wir versuchen, zwei hinzuzufügen Datenrahmen wie folgt:

pandas als pd dictionary_1 importieren = 'A': [5, 8, 10, 3, 9], 'B': [6, 1, 4, 8, 7] dictionary_2 = 'A': [4, 3 , 7, 6, 1], 'B': [9, 10, 10, 1, 2] data_frame_1 = pd.DataFrame (dictionary_1) data_frame_2 = pd.DataFrame (dictionary_2) data_frame_3 = data_frame_1.add (data_frame_2) druckt data_frame_1 print data_frame_2 print data_frame_3

Die Ausgabe des obigen Skripts lautet:

Sie können diesen Hinzufügungsvorgang auch durchführen, indem Sie einfach die + Operator: data_frame_3 = data_frame_1 + data_frame_2.

Beschreiben

Ein sehr schöner Pandas Funktion ist beschreiben(), das generiert verschiedene zusammenfassende Statistiken für unsere Daten. Lassen Sie uns für das Beispiel im letzten Abschnitt Folgendes tun:

print data_frame_3.describe ()

Die Ausgabe dieser Operation wird sein:

Weitere Ressourcen

Dies war nur ein Kratzer auf der Oberfläche von Python Pandas. Für weitere Details können Sie das überprüfen Pandas Dokumentation, und Sie können auch einige Bücher wie Pandas lernen und Pandas lernen.

Fazit

Wissenschaftler müssen gelegentlich einige statistische Operationen ausführen und einige übersichtliche Grafiken anzeigen, für die sie eine Programmiersprache benötigen. Gleichzeitig möchten sie jedoch nicht zu viel Zeit aufwenden oder eine ernsthafte Lernkurve bei der Ausführung solcher Aufgaben vorfinden.

Wie wir in diesem Tutorial gesehen haben, Pandas ermöglicht es uns, Daten tabellarisch darzustellen und einige Operationen an diesen Tabellen auf sehr einfache Weise auszuführen. Kombinieren Pandas Mit anderen Python-Bibliotheken können Wissenschaftler sogar fortgeschrittenere Aufgaben erledigen, z. B. das Erstellen spezieller Grafiken für ihre Daten.

Somit, Pandas ist eine sehr hilfreiche Bibliothek und Ausgangspunkt für Wissenschaftler, Ökonomen, Statistiker und alle, die bereit sind, einige Datenanalyse-Aufgaben durchzuführen.

Code