Häufigkeitsklassen

Als Hilfsmittel zur Quantifizierung der Geläufigkeit eines Wortes verwendet die deutsche Wikipedia Häufigkeitsklassen (im Folgenden HK genannt), welche im Wortschatz-Lexikon der Universität Leipzig angegeben werden. Sehr häufig gibt es Diskussionen darüber, unter welchem Lemma eine Stadt, Region oder Ähnliches in einem nichtdeutschsprachigen Land eingeordnet werden soll. Dabei prallen häufig verschiedene Ansichten, Erfahrungen und Meinungen aufeinander, ohne dass man zu einem Konsens kommt.

Was ist eine Häufigkeitsklasse?

Eine ausgewählte und repräsentative Menge an verfügbaren schriftlichen Quellen, genannt das Korpus, aus einer Sprache wird als Grundlage für die Auswertung verwendet. Das am häufigsten auftretende Wort in diesem Korpus wird als Vergleichsgrundlage verwendet. In der deutschen Sprache ist dies das Wort der.

Das Zipfsche Gesetz dient der Berechnungsgrundlage. Der Wert der Häufigkeitsklasse berechnet sich dabei mit dem Logarithmus zur Basis 2 aus dem Quotienten des zu bestimmenden Wortes und dem am häufigsten auftretenden Wortes. Dabei ergibt sich, um wie viel mal häufiger das Wort der im ausgewerteten Datenbestand ist, als das gesuchte Wort.

Ein Beispiel: Das Wort Wilna hat die HK 15 (Stand 2011: Anzahl 57, HK 17). Das bedeutet, dass das Wort der ungefähr 2¹⁵=32.768 mal häufiger auftritt, als das Wort Wilna. Je größer die HK, um so seltener ist also das gesuchte Wort anzutreffen. Die Rechnung dazu sieht folgendermaßen aus:

Korpus aller Wörter:	500 Millionen (Stand 1. Juli 2003)
Wort:	Wilna kommt 543 mal im Korpus vor
Vergleichswort:	der, (das häufigste Wort im Korpus) kommt 15.151.724 mal vor

{\textrm {HK}}_{\textrm {Wilna}}=\left\lfloor \log _{2}{\frac {15151724+1}{543+1}}+0{,}5\right\rfloor =\left\lfloor 0{,}5-\log _{2}{\frac {543+1}{15151724+1}}\right\rfloor =\lfloor 15{,}26...\rfloor

, also HK 15

Das exakte Ergebnis wird gerundet (entspricht der Addition von 0,5 und der anschließenden Abrundung. Im Quotienten wird im Zähler und im Nenner (aus Gründen den Symmetrie) 1 addiert, damit auch die Häufigkeit 0 beim Beispielwort zu einem definierten Ergebis führt. Bei großen Zahlen spielt diese additive Konstante, insbesondere angesichts der Rundung, keine Rolle.

Den Logarithmus zur Basis 2 erhält man folgendermaßen: $\log _{2}x={\frac {\lg x}{\lg 2}}$

Antworten eines am Projekt beteiligten

Da im Januar 2005 einige Fragen bezüglich der Zuverlässigkeit der Aussagen über die Häufigkeitklassen auftauchten, haben einige Wikipedianer Kontakt zur Uni Leipzig aufgenommen und um die Beantwortung einiger Fragen gebeten. Freundlicherweise hat sich Matthias Richter (de:Benutzer:Meep), der an dem Projekt mitarbeit, sich bereit, erklärt diese Fragen in einem Chat zu beantworten. Die folgenden Fragen und Antworten wurden dem Log des Chats entnommen. Die Beteiligten an dem Chat haben ihre Zustimmung zur Veröffentlichung gegeben.

Die Fragen und Antworten wurden teilweise umsortiert, um eine bessere Lesbarkeit zu erreichen, da sich diese manchmal überschnitten. Aus dem gleichen Grund wurde hier und da die Syntax korrigiert. Außerdem wurden Passagen entfernt, die nach Meinung des Autors (de:Benutzer:Finanzer) kaum etwas oder nichts zum Verständnis der Thematik beitragen können. Der komplette Log zum Nachlesen kann jedoch von de:Benutzer:Sanculotte und de:Benutzer:Finanzer bereitgestellt werden.

Beteiligte: de:Benutzer:Paddy, de:Benutzer:Sanculotte, alhague = Matthias Richter

<finanzer>1. Welche Art Publikationen wurden bzw. werden für die Gewinnung des Wortschatzes ausgewertet? (also Zeitungen, Internet etc.)
- <alhague> Ich hätte eine PDF-File mit allen Quellen aus denen mehr als 50.000 Sätze stammen... zum Inhalt dieses Dokuments siehe den nächsten Abschnitt (Anmerkung des Verfassers)
- <alhague> Tenor ist aber "Zeitungstexte nach 1989"
<finanzer> also fast nur Zeitungen
- <alhague> ja. Momentan ist auch Zeugs aus dem Projekt Gutenberg mit drin, das ist in der nächsten Überarbeitung aber wieder raus.
<paddyez> bis Juli 2003?
- <alhague>Kann hinkommen, ich habe heute die Satzauswahl für das neue Korpus beendet, das geht dann bis 31.12 2004
<finanzer> 2. Wie groß ist der Umfang der ausgewertet wird oder wurde?
- <alhague> Das derzeitige Korpus hat ca. 35 Mio. Sätze mit über 500 Millionen laufenden Wortformen

Die ursprüngliche Frage Nr. 3 entfiel, da diese bereits beantwortet wurde. Sie lautete „Aus welchem Zeitraum stammen die ausgewerteten Quellen?“

<finanzer> 4. Wie oft wird der Wortschatz aktualisiert und wann war die letzte Aktualisierung? Diese Frage bezieht sich besonders auf die Berechnung der Häufigkeitsklassen.
- <alhague> Eigentlich hätte das Korpus im September erneuert werden sollen, aber das hat sich jetzt etwas verzögert
- <alhague> Das ist dann auch Stand Juli 2003. Ich weiß nicht, wie lange die Berechnung diesmal geht.
<sansculotte> wie ist der übliche turnus?
- <alhague> Turnus ist "wenn's fertig ist". Problem an der Sache ist, dass das eigentlich alles nebenher geht...
<finanzer> 5. Gibt es Schranken bezüglich der Häufigkeitsklassen, bei der keine gesicherten statistischen Aussagen mehr möglich sind?
- <alhague> Naja, Anzahl=1 ist nicht so ... aussagekräftig. Die Lexikographen sagen immer gerne Anzahl = 20 oder Anzahl = 30. Das entspricht so Häufigkeitsklassen jenseits der 20, ungefähr.
<finanzer> also ab HK 20 kann man nicht mehr genau sagen, das wort ist häufiger als das mit HK 21?
- <alhague> finanzer: nein, so würde ich das nicht sagen...
<sansculotte> aber man kann ab HK20 nichts genaues mehr über den allgemeinen Sprachgebrauch ableiten?
- <alhague> sansculotte: das wäre die Aussage der Lexikograpen. Ich sehe durchaus auch bei niederfrequenten Formen noch eine Aussagekraft.
<paddyez> alhague: ich habe das gefühl zwischen 8/9 ist 12/13 so das aussagekräftige feld
- <alhague> paddyez: ich würde vor allem immer auch mit Google vergleichen, die haben ein 1000mal größeres "Korpus"
<sansculotte> alhage: nach welchen kriterien wählt ihr denn eure quellen aus? google enthält ja alles und z.t. unglücklich gewichtet?
- <alhague> sansculotte: Wir hatten früher ein paar Textspenden, inzwischen nehmen wir halt, was man an Zeitungen elektronisch bekommen kann, vor allem.
<paddyez> alhague: werden ältere datensätze dann rausgeschmissen?
- <alhague> paddyez: Jein. Wir basteln derzeit parallel an Zeitscheiben-Korpora, also z.B. 2 Mio. Sätze pro Jahr, da könnte man dann Entwicklungen beobachten... weggeworfen wird nur, wenn sich eine Quelle als Mist herausstellt
<sansculotte> aber ihr habt euch mit absicht v.a. auf zeitungen festgelegt?
- <alhague> Zeitungen sind halt das, was man massenhaft am besten abfassen kann und von dem man dann auch weiß, dass es aktuell ist. Dass es dann zufällig auf jemanden trifft, der auch journalistisches Interesse hat, das ist Schicksal ;)
<finanzer> kann man irgendwelche aussagen über die genauigkeit der HK treffen
- <alhague> Die Häufigkeitsklassen sind einfach nur Hilfskonstruktionen, um Korpusübergreifend Aussagen machen zu können. Die Leute aus der Psycholinguistik hätten da lieber normiert auf 1.000.000 Sätze Korpusgröße, wenn ich das richtig verstanden hatte.
<sansculotte> alhague: wortschatz-leipzig bildet doch nur die verwendung in deutschsprachigen medien ab, oder?
- <alhague> sansculotte: ja, und da auch nur in einer Auswahl.
<paddyez> alhague: Wilna Vilnius war mein beispiel
<paddyez> bzw Pilsen Plzeň?
- <alhague> Pilsen ist ein Problem, weil der Deutsche Wortschatz derzeit latin1 verwendet...
<finanzer> heißt das die schreibweise in den fremden sprachen unterrepräsentiert sein könnte?
- <alhague> finanzer: ja. Definitiv. Wir haben zwar die Möglichkeit UTF-8 zu verarbeiten, aber das bringt die frÜher wegen nicht-latin1 weggeworfenen Sätze nicht wieder zurück.
- <sansculotte> finanzer: wohl nur insoweit, wenn eine deutsche zeitung die diaktritika auch verwendet
<paddyez> alhague: aber meine frage wenn Stadname_deutsch (Stadtname_tschechisch) steht bekomme ich doch nicht wirklich eine aussage was häufiger ist?
- <alhague> paddyez: für diesen Fall taugt es quasi nicht. Da ist Google die bessere Heuristik.
<alhague> Also bei unserer letzten Wörterbucharbeit (Dornseiff) haben wir auch oft mit Google verglichen
<sansculotte> und?
- <alhague> sansculotte: Es ist in der Breite nicht so schlimm. Im einzelfall kann es halt daneben liegen, we don't care
<sansculotte> we do :)
- <alhague> sansculotte: wir wissen das zu schätzen. Wir haben ein Arbeitsmittel, Ihr ein Wörterbuch / eine Enzyklopädie
<finanzer> alhague: ab welchen abstand könnte man auf Grund der Probleme bezüglich der Schreibweise, von einem signifikanten Unterschied im Gebrauch sprechen
- <alhague> finanzer: Häufigkeitsklassen sind logarithmisch, also ist ein Abstand von 3 schon ungeheuer viel

Einige Minuten später nach einem kurzen Exkurs zu Google und deutschsprachigen Nachrichtenseiten und deren Gebrauch fremdsprachiger Namen:

<alhague> Also H.E. Wiegand und DeGruyter fanden den Wortschatz gut genug, um damit ein Projekt zu machen... ;)
- <finanzer> alhague: aha, was haben die gemacht, ein wörterbuch
<alhague> finanzer: Ja, die 8. Auflage des Dornseiff

wieder etwas später:

<paddyez> alhague: es gibt halt Eger (Fluss), Eger (Donau), Eger (Böhmen) und Eger (Ungarn) und da wären aussschlußkriterien echt notwendig um aussagen über eines der 4 zu treffen
- <alhague> Das eine ist Cheb, da ist meine Oma her :-p
<paddyez> alhague: das steht halt in WP unter Eger :-(
<paddyez> und das wegen HK15
- <alhague> Disambiguiert soviel wie begrifssgeklärt, unterschieden (Anmerkung des Autors, der auch nachfragen mußte :-) wird halt auch gar nicht...
<paddyez> alhague: das ist schlecht
- <alhague> paddyez: das kann noch keiner wirklich automatisch und performant.

Weitere Informationen

Die folgenden Informationen wurden uns freundlicherweise ebenfalls zur Verfügung gestellt und illustrieren u.a. den aktuellen Stand (1. Juli 2003) der ausgewerteten Datenquellen.

SATZZAHL QUELLE
8.140.465 Berliner Zeitung
5.992.459 Die Welt
5.762 637 Süddeutsche Zeitung
2.711 983 Projekt Gutenberg
1.854 209 die tageszeitung
1.844 812 Die Zeit
1.729 573 Stuttgarter Zeitung
1.500 720 Frankfurter Rundschau
1.053 943 BILD
975.889 Tagesspiegel
909.947 Telefonbuch (Namen)
603.427 Der Spiegel
444.157 Junge Welt
237.978 IDS-Korpus
214.443 Junge Freiheit
188.952 Lexikontext
158.362 OTS-Newsticker
151.777 Der Freitag
149.529 Rheinischer Merkur
141.785 Frankfurter Allgemeine Zeitung
134.034 Netzeitung
97.324 Schweriner Volkszeitung
84.245 Onvista Wirtschafts-News
74.849 Spektrum der Wissenschaft
71.905 Neue Juristische Wochenschrift
66.049 BMBF Forschungslandkarte Deutschland
63.762 Neues Deutschland
62.983 Financial Times Deutschland

Zusammenfassung

Aus den Antworten wird klar, dass die Mitarbeiter des Projektes einiges kritischer sehen, als dies eventuell in der deutschsprachigen Wikipedia bisher gesehen wurde. Jedoch wird m.E. (de:Benutzer:Finanzer) auch klar, dass die Wortschatzliste in den meisten Fällen ein sehr gutes und meist auch hinreichendes Entscheidungskriterium über die Wahl eines Lemmas bietet.

Dass ein bislang wichtiges Argument in Frage gestellt wird, heißt m.E. (User:Paddy) noch lange nicht, dass es falsch oder richtig ist. Das heißt lediglich, dass es nicht mehr als ein Argument durchgeht, sondern lediglich als Richtwert. Die Betreiber des Wortschatz-Lexikons werten in erster Linie selbst aus. Sie bewerten aber die Ergebnisse nicht in dem Maße, wie andere Institute, die dies als primäre Aufgabe sehen. Wir sollten deswegen und aus weiteren Gründen die Meta-Erebnisse genauso kritisch und skeptisch betrachten, wie wir bislang google-Ergebnisse betrachtet haben. Man sollte die Ergebnisse am Anfang der Diskussionen alle zusammenfassen: HKs, google, Aktuelle Bücher etc. und dann erst eine Auswertung betreiben. Dabei sollte man sich nur überlegen, warum und welche Ergebnisse verzerrt sein könnten. Dies ist die Vorgehensweise, die mir der gesunde Menschenverstand sagt. Aber google sagt oder die HKs zeigen eindeutig: er zählt nicht mehr. Und diese Vorgehensweise kritisiere ich weiterhin zutiefst. Denn im Zweifelsfall führt dies zu einem Zwei-Fronten-Krieg der google-Anhänger und der HK-Fraktion. Wer aber alle Seiten auswertet, sie am Ende zusammenfasst und dies eine Tendenz erkennen lässt, der ist ganz klar im Vorteil.