Cosinus-Ähnlichkeit
Vektorrechnung
© 2024
- 2025
Basiswissen|
Grundidee|
Rechenbeispiel|
Fünf Beispielsätze|
Schritt 1: Den Vektorraum aufspannen ==|
Schritt 2: Die Sätze vektorisieren|
Schritt 3: Ähnlichkeiten berechnen|
Schritt 4: Rückblick
Basiswissen
Als Cosinus-Ähnlichkeit bezeichnet man einen Zahlenwert zwischen -1 und 1, der für die Ähnlichkeit von zwei Wortfolgen steht. Je ähnlicher sich zwei Wortfolgen, etwa Sätze, sind desto näher liegt der Wert bei 1. Mit Hilfe der Vektorrechnung läßt sich die Ähnlichkeit recht unkompliziert berechnen. Das ist hier mit einem Beispiel vorgestellt.
Grundidee
Zwei Sätze oder Wortfolgen sind umso cosinus-ähnlicher je mehr Worte sie gemeinsam und je weniger Worte sind nicht gemeinsam haben. Dabei werden mehrfach in einem Satz vorkommende Worte auch mehrfach gezählt. Also auch die Anzahl einzelner Worte spielteine Rolle. Anschaulich spannen alle vorkommenden Worte aus beiden Sätzen gemeinsam einen Vektorraum auf. Jede Wortfolge wird dann zu einem eigenen Vektor in diesem Vektorraum. Je kleiner der Winkel zwischen den Vektoren ist, desto mehr zeigen sie auch in dieselbe Richtung. Ist der Winkel gleich 0°, ist der Cosinus gleich 1 und damit maximal.
Rechenbeispiel
Nehmen wir fünf verschiedene Wortfolgen oder einfachste Sätze, die sich untereinander mehr oder minder stark ähneln oder auch unterscheiden. In ihnen kommen insgesamt drei verschiedene Worte vor: Fliegen, aufwärts und das Wort immer:
Fünf Beispielsätze
- 1) Fliegen fliegen immer.
- 2) Immer aufwärts fliegen!
- 3) Aufwärts, immer aufwärts!
- 4) Fliegen, immer fliegen!
- 5) Immer? Immer! Immer!