Meritokratischer Review

From Meta, a Wikimedia project coordination wiki

Ziel: Effiziente Bestimmung von geprüften Versionen eines Artikels über ein in MediaWiki integriertes Peer-Review-System mit automatisierter Abstimmungsfunktion, so dass es realistisch wird alle Wikipediaartikel innerhalb eines Jahres einmal zu begutachten. Dieses Reviewsystem ist stark an das bisher existierende händische System angelehnt (bspw. de:Wikipedia:Review) und erweitert dieses und lässt so viel wie möglich an seiner bisherigen (sichtbaren) Struktur unverändert. Die wichtigsten Designziele sind eine Vermeidung einer (im Gegensatz zu Software) nicht handhabbaren Verzweigung in stabile und Entwicklungsversion der Wikipedia und ein cheater- und sockenpuppenresistentes meritokratisches Abstimmungssystem.

Abgrenzung zum bisherigen Auszeichnungssystem[edit]

Dieses System soll in keinem Fall die bisherige Qualitätsoffensive der Exzellenten und Lesenswerten Artikel ablösen, sondern diese ergänzen, da sie eine komplementäre Ausrichtung haben: Geprüfte Versionen eines Artikels sind immer nur einzelne Versionen, Exzellente/Lesenswerte Artikel hingegen zeichnen einen allgemeinen Zustand des Artikels weitgehend unabhängig von einer speziellen Version aus. Ein häufig bevandalierter Exzellenter Artikel kann also durchaus auch geprüfte Versionen haben und benötigen.

Der Review[edit]

Grundlegender Aufbau[edit]

Bislang werden Artikel händisch im Review auf der jeweiligen Unterseite eingetragen und im Artikel der Reviewbaustein eingetragen. Künftig soll der Review folgende Benutzerführung haben:

  • Alle Reviewseiten kommen in den speziellen Namensraum "Review".
  • Die Reviewseitenstruktur entspricht der bisherigen mit ihren Themenunterseiten (siehe de:Wikipedia:Review).
  • Reviewseiten sind spezielle Seiten, bestehend aus einem "normalen" Kopf und einem Bereich in dem die einzelnen Artikelreviews eingefügt werden. Die einzelnen Reviewdiskussionsfäden sind spezielle in die Reviewseite eingebettete "Seiten" (siehe weiter unten).
  • Jeder Artikel aus dem Artikelnamensraum (ns0) hat (neben "bearbeiten", "Diskussion", "Versionen/Autoren" usw. einen zusätzlichen Reiter namens "Review"). Das Gleiche gilt für den Bildnamensraum (und evtl. den Vorlagennamensraum).
  • Die jeweilige passende Reviewseite wird durch die erste Kategorie des Artikels bestimmt, indem in der Kategorieseite der Link [[Review:passende Reviewseite]] eingetragen wird und somit alle Artikel die diese Kategorie als erstes haben zur dort eingetragenen Reviewseite gehören (ein bischen wie die Interwikilinks).
  • Klickt man den Reviewreiter an, so wird man (falls der Revieweintrag bereits existiert) zum entsprechenden Reviewdiskussionsfaden geleitet, ansonsten wird man gefragt, ob man den Artikel in den Review schicken und einen neuen Diskussionsfaden dort anlegen möchte. Reviewdiskussionsfäden lassen sich nicht händisch direkt in der Reviewseite anlegen, sondern nur über den Reviewreiter. In ihnen kann man jedoch, sind sie einmal angelegt in bekannter Wikimanier Kommentare verfassen und ändern.

Review und Abstimmung[edit]

  • Wird ein Artikel in den Review geschickt, so wird die Version, die zu diesem Zeitpunkt existiert, intern in der Software markiert und der Artikel bekommt von MediaWiki einen Reviewhinweis, analog dem bisher händisch einzufügenden Textbaustein.
  • Es beginnt nun eine von der Software in ihrer Länge festgelegte Reviewphase (ca. eine Woche) in der im Peer-Review die beteiligten Personen neue verbesserte Versionen des Artikels schaffen.
  • Nach dieser Reviewphase kommt die Abstimmungsphase (ebenfalls ca. eine Woche) in der alle angemeldeten Benutzer ihre Stimme geben können. Die Abstimmung läuft wie folgt:
    • Über alle Versionen vom Beginn des Reviews bis zum Ende wird einzeln abgestimmt.
    • Man kann über eine mehrere oder über alle Versionen innerhalb (aber nicht außerhalb) des Reviewzeitraums abstimmen.
    • Man kann nur jeweils "pro" oder oder "contra" stimmen, man kann keine einzelne Punktewertung vergeben.
    • Die Stimmen der einzelnen Benutzer sind nach einem meritokratischen System (siehe folgende Kapitel) gewichtet (Stimmen werden in Punkte umgerechnet, Prostimmen positiv, Contrastimmen negativ).
    • Die Version die die höchste Punktzahl auf sich vereinigt und über einem gewissen Schwellwert liegt wird die neue geprüfte Version des Artikels und von der Software speziell markiert (kommt keine Version über den Schwellwert, wird keine Version als geprüft markiert).
    • Nach dem Ende der Abstimmung wird der Reviewdiskussionsfaden automatisch archiviert, falls eine geprüfte Version bestimmt wurde. Admins können "Reviewleichen" ebenfalls archivieren.

Ergebnis[edit]

Das Ergebnis dieser Prozedur ist wie folgt: Hat ein Artikel eine geprüfte Version, so wird sie standardmäßig für anonyme Leser angezeigt (mit einem Vermerk, falls neuere ungeprüfte Versionen existieren). Angemeldete Benutzer können per Benutzereinstellung entscheiden ob sie die geprüfte oder die jeweils letzte Version eines Artikels standardmäßig angezeigt bekommen wollen.

Das Benutzerbewertungssystem[edit]

Ausganglage: Das Problem der meisten im Internet genutzten Abstimmungssysteme ist, dass man sich mit Mehrfachabstimmung durch Sockenpuppen einen Vorteil verschaffen und somit die Systeme unterminieren kann. Die allermeisten automatischen Belohnungssysteme lassen sich durch gezieltes Ausnutzen von Schwächen des Belohnungskriteriums ebenfalls unterwandern (eine Art Cheating).

Diese Probleme sollen dadurch vermieden werden, dass Benutzer in den Reviewabstimmungen unterschiedliche Stimmgewichte bekommen und das Stimmgewicht bei unerwünschtem Verhalten (Sockenpuppen usw.) durch geeignete Algorithmen geringer ausfällt, als bei gewünschtem Verhalten. Das Stimmgewicht wird zum einen automatisch durch die Artikelarbeit des Benutzers und durch das Vertrauen, dass andere Benutzer in ihn haben, bestimmt. Das gesamte System der Bestimmung geprüfter Artikel ist also somit ein zweistufiges Bewertungssystem.

Basiskriterium zur Benutzerbelohnung[edit]

Zunächst einmal ist es wichtig zu überlegen, welche Art von Artikelarbeit erstrebenswert ist und wie diese automatisch per Software formal (nicht inhaltlich!) bewertet werden kann. Im Grunde läuft es auf zwei gleichzeitig zu erfüllende Bedingungen hinaus:

  • Die Menge der geschriebenen Bytes eines Benutzers an Artikeln (Artikelarbeit ist der Fokus, forenartige ausufernde Metadiskussionen zählen bewusst nicht). Je mehr desto besser.
  • Beständigkeit der eigenen Beiträge. Umso länger ein eigener Beitrag im Artikel verbleibt umso wertvoller ist er (ein kurzzeitiger Revert durch einen Vandalen darf nur geringe Einbußen zur Folge haben).

Ein mögliches messbares objektives Kriterium, welches die beiden obigen Bedingungen beinhaltet ist die momentan vorhandene Anzahl der geschriebenen Bytes eines Benutzers im Artikelnamensraum, mit folgenden Nebenbedingungen:

  • Bilder werden ebenfalls gezählt, wobei die Bytes der Bilder durch einen festen Quotienten geteilt werden (der durch einen exemplarischen Vergleich von Textarbeit zu Bildarbeit näher bestimmt werden muss). Der Grund dafür die Bytes von Bildern zu zählen ist, dass Bilder mit höherer Auflösung für Wikipedia ebenfalls wertvoller sind (und unkomprimierte BMP's würden eh schnell entfernt werden).
  • Die Bytes von Bildbeschreibungssseiten zählen wie Artikelseiten, da die Benutzer ermuntert werden sollen, gute Bildbeschreibungen mit ordentlichem Lizenznachweis zu verfassen (die meisten sind sehr mickrig).
  • Vorlagen (Vorlagennamensraum) können evtl. ebenfalls wie Artikel gewertet werden.
  • Das Kriterium ist jedoch noch für zwei Arten von Attacken anfällig: Zum Einen einen Cheatangriff durch das kurzzeitige Einfügen von Megabytes an sinnlosem Text in Artikel um eine hohe Belohnungspunktezahl zu bekommen, zum anderen bösartige Reverts zum Zwecke der Schädigung eines Benutzers.
    • Ein menschlicher echter Benutzer hat nur eine begrenzte Zeit zum Schreiben pro Tag. Es gibt daher eine sinnvolle Obergrenze an Bearbeitungseinheiten pro Tag. Zu diesem Zweck darf sich die zur Berechnung der Belohnungspunkte berücksichtigte Bearbeitungsmenge nur um einen maximalen Betrag innerhalb von 24 Stunden nach oben ändern. Falls ein Benutzer mehr Bearbeitungseinheiten hat (bspw. durch nachträgliche Einführung dieses Features), so werden diese nicht verworfen, sondern nur auf die nächsten Tage verteilt gezählt, vorausgesetzt sie existieren dann noch in den Artikeln (die aktuellen Bearbeitungseinheiten werden permanent berechnet).
    • Eine änliche Grenze existiert nach unten bei Reverts. Wenn ein Benutzer ein bestimmte Menge Text seit längerem im Wiki stehen hat dann kann es nicht komplett falsch sein. Ein massiver Totalrevert sehr großer schon länger existierender Artikelpassagen ist deswegen höchstwahrscheinlich ein bösartiger Angriff. Die zur Berechnung herangezogenen Bearbeitungseinheiten eines Nutzers dürfen sich daher innerhalb 24 Stunden ebenfalls nur um einen maximalen Betrag nach unten verändern. Falls die Reverts länger bestehen so verteilt sich der Belohnungsverlust dann über mehrere Tage.
    • Durch diese Dämpfung durch Maximalgrenzen werden schnell eingefügte (und wieder durch andere rückgängig gemachte) sinnlose (Riesen-)beiträge niemals gewertet.
  • Bots müssen ein Spezialbenutzerflag haben und werden von der Software vom Bewertungssystem ausgeschlossen, weswegen ihre Bearbeitungen nicht belohnt werden (zudem sind Botedits überwiegend sehr klein, weswegen sie durch obiges Kriterium nicht so stark gewertet würden, als wenn man stattdessen nur die Bearbeitungsanzahl nehmen würde).
  • Der Algorithmus des Belohnungskriteriums ist bereits in einem Perl-Script unter de:Wikipedia:Hauptautoren realisiert worden (Es wurde zur Analyse der Autoren an Artikeln geschrieben um die in der GFDL nötigen 5 Hauptautoren einfach zu bestimmen).

Der einzig wirklich gangbare Weg ein Belohnungsbewertungskriterium auszutricksen muss es sein es zu erfüllen. Ansonsten läuft jedes Belohnungskriterium auf unerwünschtes Cheating hinaus und verursacht neue Probleme. Das Zählen der Edits ist ein solches Kriterium, welches sich durch eine Flut an unnötig kleinen atomisierten Edits aushebeln lässt (und mit Sicherheit würde dies auch getan werden). Das obige Kriterium hingegen erfüllt die Vorgabe der Cheatsicherheit weitestgehend.

Vertrauenspunkte[edit]

  • Das die Artikelarbeit eines Benutzers messende Basiskriterium bestimmt die Anzahl der Belohnungspunkte, die ein Benutzer bekommt. Hierbei wird einer Menge X des Basiskriteriums 1 Belohnungspunkt zugeordnet. Der Hintergrund für dieses Grundvertrauen durch Belohungspunkte ist das Prinzip "Setze guten Willen voraus." Jemand, der viel geschrieben hat, wird sehr wahrscheinlich die Wikipedia verbessert haben.
  • Die maximale Anzahl der Vertrauensbewertungen, die ein Benutzer anderen Benutzern geben kann ist gleich der Anzahl der Belohnungspunkte die ein Benutzer hat (zunächst zum Zwecke der einfachen Darstellung ist ersteinmal nur von einer Einzelbewertung die Rede, weiter unten wird dann eine feinere Bewertung nach Expertenwissen erörtert).
  • Die Vertrauensbewertung eines Benutzers umfasst nur die Werte negativ (-1) , neutral (0), positiv (1). Bewertungen einer Person sind nicht mehr entfernbar, ihr Wert lässt sich jedoch jederzeit ändern. Grund: Kein temporäres Nutzen von nun freigewordenen Bewertungen zum Zwecke konzertierter Gunst-/Abstrafungsaktionen, außerdem ist es widersinnig einmal gegebene Bewertungen ganz zu entfernen, da man die Person ja kennt und nicht spontant vergisst, so dass man sie nicht mehr bewerten könnte.
  • Die Vertrauenspunkte eines Benutzers sind also somit Belohnungspunkte plus Vertrauensbewertungspunkte durch andere.
  • Die Punktevergabe der Belohnungspunkte auf einen Account darf nicht im Nachteil gegenüber der Aufteilung der gleichen Arbeit auf zwei (oder mehr) Benutzeraccounts (Sockenpuppen) plus zusätzlich sich den jeweiligen Sockenpuppen gegebener Vertrauenspunkte sein (jedem Benutzer steht durch äußere Zwänge nur eine begrenzte Arbeitszeit zur Verfügung, die er bei Aufteilung somit schmälert). Dies wird durch eine überproportionale Punktevergabe der Belohnungspunkte nach dem Basiskriterium erreicht.
    • Folgende Bedingung muss daher beim Erreichen des ersten Belohnungspunkts eingehalten werden: 1 Belohnungspunkt ermöglicht eine Benutzerbewertung: Zwei Accounts können somit mit der doppelten Arbeitseinheit für einen Belohnungspunkt die vierfache Punktezahl in Summe erreichen (2 Belohnungspunkte plus 2 Vertrauensbewertungspunkte). Die doppelte Arbeitseinheit auf einem Account konzentriert muss also die vierfache Belohnungspunktezahl (Quadrierung) ergeben.
    • Da sich zwei Sockenpuppen nicht mehr als jeweils einen Vertrauenspunkt zuschanzen können, egal wie viel sie arbeiten, muss also das Sockenpuppennetz größer werden, will man die zusätzlichen möglichen Bewertungen bei mehr Artikelarbeit ausnutzen. 5 Sockenpuppen mit je doppelter Arbeitseinheit für den ersten Punkt haben also jeweils 4 Grundvertrauenspunkte und können sich somit jeweils nochmal 4 Vertrauenspunkte zuschanzen. In Summe waren also 10 Arbeitseinheiten für 40 Punkte nötig, was schon deutlich weniger als einer Quadrierung entspricht. 10 Arbeitseinheiten auf einem Account entsprechen daher 40 Belohnungspunkten (10 Arbeitseinheiten auf 41 Sockenpuppen bedeuten dann, dass 410 Arbeitseinheiten 3280 Belohnungspunkten entsprechen müssen usw.).
    • Dadurch ist gewährleistet dass die Funktion zwar stärker als linear steigt, aber trotz anfänglichen quadratischen Wachstums im Unendlichen linear wird und somit keine "Punkteexplosion" stattfindet.
    • Bislang konnte der Autor der Idee (Arnomane) nur bestimmte aufeinanderfolgende nötige Belohnungspunkte für Arbeitseinheiten berechnen, hat aber noch nicht die allgemeine Funktion analytisch herleiten können, bei der man mit beliebigen Arbeitseinheiten x die nötigen Belohnungspunkte y errechnet. Vermutlich ist aber folgende durch Probieren hergeleitete Formel, welche in sehr guter Näherung die exakt berechenbaren Werte wiedergibt die richtige:
      , wobei a = 1,427 und b = 8/9. Da die Belohnungspunkte y nur ganzzahlig sein können, wird aber nur der Ganzahlteil vom Ergebnis genommen (Treppenfunktion).
    • Obwohl das System überhaupt nicht feststellen kann, welcher Benutzer eine Sockenpuppe ist, ist durch diese Funktion gewährleistet, dass Sockenpuppen keinen Vorteil haben. Und somit wird ganz automatisch weitestgehend auf böswillige Sockenpuppenattacken verzichtet werden, da Sockenpuppen stets nachteilig sind.
  • Benutzer können nur dann im Review abstimmen, wenn sie mindestens einen Punkt haben. Fällt ein Nutzer durch negative Vertrauensbewertung unter diese Grenze oder hat er noch keine Belohnungs-/Vertrauenspunkte erhalten, so kann er nicht (mehr) abstimmen.

Die Summe der Punkte die ein Benutzer durch dieses System erhält bestimmt nun das Abstimmungsgewicht des Benutzers im Review. Es ist somit gewährleistet, das Benutzer mit hohem Ansehen und großen Arbeitseinsatz ein höheres Gewicht bekommen und die Reviewabstimmung nicht durch Trolle und Sockenpuppen beschädigt werden kann.

Benutzerbewertung nach Expertengebieten[edit]

TODO

weitere Möglichkeiten[edit]

TODO