R


Häufigkeitsverteilung


Statistik


Basiwissen


In dem Wort „Wasser“ kommen die Buchstaben W, a und r genau einmal vor und der Buchstabe s genau zweimal: eine solche vollständige Übersicht über alle möglichen Häufigkeiten nennt man in der Statistik eine Häufigkeitsverteilung. Hier steht kurz beschrieben was dabei die absolute und relative Häufigkeiten sowie das arithmetische Mittel und die Standardabweichung bedeuten.

Definition


Für eine Menge von Objekten, zum Beispiel Worte aus einem Stück Text, legt man ein interessierendes Merkmal fest, zum Beispiel die Länge eines Wortes (Anzahl Buchstaben). Dann zählt man wie oft jede der einzelnen möglichen Längen vorkommt. Die Zuordnung der Anzahl wie oft ein Merkmal vorkommt zum jeweiligen Merkmal ist die Häufigkeitsverteilung. Das ist hier mit einem Beispiel kurz erklärt.

Beispiel Genesis


Die Bibel beginnt mit einm Bericht von der Schöpfung der Welt. Dieser Text ist bekannt unter dem Namen Genesis. HIer stehen die ersten zwei Zeilen der Genesis aus der Bibel: „Am Anfang schuf Gott Himmel und Erde. Und die Erde war wüst und leer, und es war finster auf der Tiefe; und der Geist Gottes schwebte auf dem Wasser.“

Die Grundidee einer Häufigkeitsverteilung


Die Bibel ist ein klassisches Beispiel für einen sehr einfach zu verstehenden Text. Die Wort sind kurz, es kommen fast nur Alltagsworte vor und auch die Sätze sind eher kurz gehalten. Um die Bibel lesen zu können benötigt man weder eine Fachausbildung noch eine besonders gute Konzentration, etwa zum Verstehen langer Sätze.

Die Verteilung der absoluten Häufigkeiten


Betrachtet wird jetzt das Merkmal "Wortlänge". Als Wortlänge sei die Anzahl der Buchstaben in einem Wort definiert. Die Wortlänge hat Ausprägung wie 0, 1, 2, 3 ... 10, 11 oder 12. Schreibt man zu jeder möglichen Ausprägung dazu, wie oft sie vorkam, dann hat man eine Häufigkeitsverteilung der absoluten Häufigkeiten erstellt. Die absolute Häufigkeit H ist das, was beim Zählen als Ergebnis herauskommt:


Die Verteilung der relativen Häufigkeiten


Teilt man jede absolute Häufigkeit durch die Gesamtzahl aller Worte aus dem Text, dann erhält man die relativen Häufigkeiten der verschiedenen Wortlängen. Das Textstück der Genesis besteht aus insgesamt 29 Worten. Man teilt also jede einzelne absolute Häufigkeit H durch 29 und erhält dann die Verteilung der relativen Häufigkeiten h:


Die Summenprobe für die relativen Häufigkeiten


Für die relativen Häufigkeiten h kann man immer eine einfache Probe machen: die Summe aller möglichen relativen Häufigkeiten einer Verteilung muss immer 1 ergeben. Das geht mit Brüchen gerechnet immer genau auf und mit den Dezimalen gerundet:


Das arithmetische Mittel einer Häufigkeitsverteilung


Um das arithmetische Mittel aus den absoluten Häufigkeiten H zu berechnen, stellt man sich am besten die sogenannte Urliste vor oder schreibt diese sogar auf. Für jedes einzelne Wort notiert man dann dessen Länge. Hier steht noch einmal der Originaltext der Genesis: „Am Anfang schuf Gott Himmel und Erde. Und die Erde war wüst und leer, und es war finster auf der Tiefe; und der Geist Gottes schwebte auf dem Wasser.“ Und das ist die Urliste der Länge jedes einzelnen Wortes: 2, 6, 5, 4, 6, 3, 4, 3, 3, 4, 3, 4, 3, 4, 3, 2, 3, 7, 3, 3, 5, 3, 3, 5, 6, 8, 3, 3, 6. Alle diese Zahlen auffaddiert (gibt 117) und dann durch die Anzahl aller Zahlen (29) geteilt gibt die durchschnittliche Länge eine Worte sind dem Text. Hier ist das arithmetische Mittel x̄ =117/29 ≈ 4. Siehe auch arithmetisches Mittel berechnen ↗

Die Standardabweichung einer Häufigkeitsverteilung


Wie beim arithemtischen Mittel schreibt man auch für die Berechnung der sogenannten Standardabweichung s, auch Stichprobenstreuung genannt, zunächst die Urliste aller Werte auf: 2, 6, 5, 4, 6, 3, 4, 3, 3, 4, 3, 4, 3, 4, 3, 2, 3, 7, 3, 3, 5, 3, 3, 5, 6, 8, 3, 3, 6. Die Standardabweichung gibt hier die Zahl 1,52322. Wie man das berechnet ist erklärt im Artikel Standardabweichung berechnen ↗