Die statistische Analyse der Daten hilft uns, die Informationen als Ganzes zu verstehen. Dies hat Anwendungen in vielen Bereichen wie der Biostatistik und der Geschäftsanalytik.
Anstatt einzelne Datenpunkte zu durchlaufen, kann ein Blick auf ihren kollektiven Mittelwert oder die Abweichung Trends und Merkmale aufzeigen, die wir durch die Beobachtung aller Daten im Rohformat möglicherweise übersehen hätten. Außerdem wird der Vergleich zwischen zwei großen Datensätzen einfacher und aussagekräftiger.
Unter Berücksichtigung dieser Anforderungen hat Python uns das Statistikmodul zur Verfügung gestellt.
In diesem Lernprogramm erfahren Sie, wie Sie Durchschnittswerte berechnen und die Streuung eines bestimmten Datensatzes messen können. Wenn nicht anders angegeben, unterstützen alle Funktionen in diesem Modul int
, schweben
, Dezimal
und Fraktion
basierte Datensätze als Eingabe.
Du kannst den ... benutzen Mittelwert (Daten)
Funktion zur Berechnung des Mittelwerts bestimmter Daten. Sie wird berechnet, indem die Summe aller Datenpunkte durch die Anzahl der Datenpunkte dividiert wird. Wenn die Daten leer sind, wird ein StatisticsError ausgelöst. Hier einige Beispiele:
Import von Statistiken aus Brüchen Import von Fraktionen als F aus Dezimalimport Dezimal als D statistics.mean ([11, 2, 13, 14, 44]) # gibt 16.8 statistics.mean ([F (8, 10), F (11, 20) zurück ), F (2, 5), F (28, 5)]) # gibt Statistik der Fraktion (147, 80) zurück.mean ([D ("1.5"), D ("5.75"), D ("10.625") , D ("2.375")]) # gibt Dezimal ('5.0625') zurück
In unserem letzten Tutorial haben Sie viele Funktionen zur Erzeugung von Zufallszahlen kennen gelernt. Verwenden wir sie jetzt, um unsere Daten zu generieren und zu sehen, ob der endgültige Mittelwert dem entspricht, von dem wir erwarten, dass er ist.
Import-Statistik importieren data_points = [random.randint (1, 100) für x im Bereich (1.1001)] statistics.mean (data_points) # gibt 50.618 data_points = [random.triangular (1, 100, 80) für x in zurück range (1,1001)] statistics.mean (data_points) # gibt 59.93292281437689 zurück
Mit dem randint ()
In der Funktion wird erwartet, dass der Mittelwert nahe am Mittelpunkt beider Extreme liegt, und mit der Dreiecksverteilung sollte er nahe sein niedrig + hoch + Modus / 3
. Daher sollte der Mittelwert im ersten und zweiten Fall 50 bzw. 60,33 betragen, was dem tatsächlichen Ergebnis nahe kommt.
Der Mittelwert ist ein guter Indikator für den Durchschnitt, aber einige extreme Werte können zu einem Durchschnitt führen, der weit von der tatsächlichen zentralen Position entfernt ist. In einigen Fällen ist es wünschenswerter, den häufigsten Datenpunkt in einem Datensatz zu bestimmen. Das Modus()
Die Funktion gibt den häufigsten Datenpunkt aus diskreten numerischen und nicht numerischen Daten zurück. Dies ist die einzige statistische Funktion, die mit nicht numerischen Daten verwendet werden kann.
Import-Statistik importieren data_points = [random.randint (1, 100) für x im Bereich (1.1001)] statistics.mode (data_points) # gibt 94 data_points = [random.randint (1, 100) für x im Bereich zurück ( 1,1001)] statistics.mode (data_points) # gibt 49 data_points = [random.randint (1, 100) für x im Bereich (1.1001)] statistics.mode (data_points) # gibt den 32-Modus zurück (["cat" , "Hund", "Hund", "Katze", "Affe", "Affe", "Hund"]) # gibt 'Hund' zurück
Der Modus von zufällig erzeugten Ganzzahlen in einem gegebenen Bereich kann eine beliebige dieser Zahlen sein, da die Häufigkeit des Auftretens jeder Zahl nicht vorhersagbar ist. Die drei Beispiele im obigen Code-Snippet belegen diesen Punkt. Das letzte Beispiel zeigt uns, wie wir den Modus nicht numerischer Daten berechnen können.
Die Berechnung eines zentralen Werts auf den Modus kann etwas irreführend sein. Wie wir gerade im vorherigen Abschnitt gesehen haben, wird dies unabhängig von allen anderen Werten im Datensatz immer der beliebteste Datenpunkt sein. Eine andere Möglichkeit, einen zentralen Standort zu bestimmen, ist die Verwendung der Median()
Funktion. Sie gibt den Mittelwert der angegebenen numerischen Daten zurück, indem sie den Mittelwert zweier Mittelpunkte berechnet, falls dies erforderlich ist. Wenn die Anzahl der Datenpunkte ungerade ist, wird der mittlere Punkt zurückgegeben. Wenn die Anzahl der Datenpunkte gerade ist, wird der Durchschnitt von zwei Medianwerten zurückgegeben.
Das Problem mit dem Median()
Funktion ist, dass der endgültige Wert möglicherweise kein tatsächlicher Datenpunkt ist, wenn die Anzahl der Datenpunkte gerade ist. In solchen Fällen können Sie entweder verwenden median_low ()
oder median_high ()
den Median berechnen Bei einer geraden Anzahl von Datenpunkten geben diese Funktionen jeweils den kleineren und größeren Wert der beiden mittleren Punkte zurück.
Import-Statistik importieren data_points = [random.randint (1, 100) für x im Bereich (1,50)] statistics.median (data_points) # gibt 53 data_points = [random.randint (1, 100) für x im Bereich ( 1,51)] statistics.median (data_points) # gibt 51.0 data_points = [random.randint (1, 100) für x im Bereich (1,51)] statistics.median (data_points) # gibt 49.0 data_points = [random.randint (1, 100) für x in Reichweite (1,51)] statistics.median_low (data_points) # gibt 50 statistics.median_high (data_points) # liefert 52 statistics.median (data_points) # gibt 51.0 zurück
Im letzten Fall waren der niedrige und der hohe Median 50 und 52. Dies bedeutet, dass sich in unserem Datensatz kein Datenpunkt mit dem Wert 51 befand, sondern der Median()
Funktion berechnete den Median immer noch zu 51.0.
Die Bestimmung, wie stark die Datenpunkte vom typischen oder Durchschnittswert des Datensatzes abweichen, ist ebenso wichtig wie die Berechnung des zentralen oder Durchschnittswerts. Das Statistiken Das Modul verfügt über vier verschiedene Funktionen, die uns bei der Berechnung dieser Datenverteilung helfen.
Du kannst den ... benutzen pvariance (data, mu = keine)
Funktion zur Berechnung der Populationsvarianz eines bestimmten Datensatzes.
Das zweite Argument ist in diesem Fall optional. Der Wert von mu, Wenn angegeben, sollte es dem Durchschnitt der angegebenen Daten entsprechen. Der Mittelwert wird automatisch berechnet, wenn der Wert fehlt. Diese Funktion ist hilfreich, wenn Sie die Varianz einer Gesamtpopulation berechnen möchten. Wenn Ihre Daten nur eine Stichprobe der Grundgesamtheit sind, können Sie das verwenden Varianz (Daten, xBar = Keine)
Funktion zur Berechnung der Stichprobenvarianz. Hier, xBar ist der Mittelwert der angegebenen Probe und wird automatisch berechnet, wenn nicht angegeben.
Zur Berechnung der Populationsstandarddefinition und der Standardabweichung der Stichprobe können Sie die pstdev (data, mu = keine)
und stdev (data, xBar = None)
Funktionen.
Statistiken aus Brüchen importieren importieren Fraktionen als F-Daten = [1, 2, 3, 4, 5, 6, 7, 8, 9] statistics.pvariance (data) # gibt 6.666666666666667 statistics.pstdev (data) # gibt 2.581988897471611 statistics.variance zurück (data) # gibt 7.5 statistics.stdev (data) # gibt 2.7386127875258306 more_data = [3, 4, 5, 5, 5, 5, 5, 6, 6] statistics.pvariance (more_data) # gibt 0.7654320987654322 statistics.pstdev (more_data ) # gibt 0.8748897637790901 some_fractions = [F (5, 6), F (2, 3), F (11, 12)] statistics.variance (some_fractions) # gibt Bruch (7, 432) zurück
Wie aus dem obigen Beispiel hervorgeht, bedeutet eine kleinere Varianz, dass mehr Datenpunkte näher am Mittelwert liegen. Sie können auch die Standardabweichung von Dezimalzahlen und Brüchen berechnen.
In diesem letzten Tutorial der Serie haben wir verschiedene Funktionen kennengelernt, die in der zur Verfügung stehen Statistiken Modul. Sie haben möglicherweise festgestellt, dass die Daten, die den Funktionen zugewiesen wurden, in den meisten Fällen sortiert waren, dies aber nicht sein muss. Ich habe in diesem Tutorial sortierte Listen verwendet, weil sie das Verständnis erleichtern, wie der von den verschiedenen Funktionen zurückgegebene Wert mit den Eingabedaten zusammenhängt.