Abstract Wikipedia/Data

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Abstract Wikipedia/Data and the translation is 100% complete.

Abstraktní Wikipedie prostřednictvím e-mailového seznamu Abstraktní Wikipedie na IRC Wikifunkce na Telegramu Wikifunctions on Mastodon Wikifunkce na Twitteru Wikifunkce na Facebooku Wikifunkce na YouTube Webové stránky Wikifunkcí Translate

Získejte důležité moduly a najděte podobné moduly

Nástroj
abstract-wiki-ds.toolforge.org
Zdroj
GitHub: abstract-wikipedia-data-science
Phabricator
T263678
Ukázkové video (3 minuty, YouTube)
Abstract Wikipedia Data Science with Outreachy Demo
Zvuková ukázka (41 minut)

Popis

Moduly Scribunto napříč projekty wiki a jazyky se používají k provádění různých funkcí. S cílem vytvořit abstraktní Wikipedii nyní potřebujeme shromáždit všechny funkce, jejichž autorem je komunita, na jednom místě, odstranit nadbytečné funkce a pokud možno je modularizovat. Tento nástroj poskytuje uživatelům a přispěvatelům místo, kde mohou analyzovat a začít slučovat wikifunkce, počínaje důležitými moduly a následně slučovat nebo refaktorovat podobné moduly.

Tento úkol začal jako projekt stáže v Outreachy, kde stážistkami byly Liudmila Kalina a Aisha Khatun. Přečtěte si příspěvky na blogu, které ony (a ostatní) zveřejnily během stáže v dvoutýdenních zprávách.

Co obsahuje

  • Seznam důležitých modulů. Představa o důležitosti se může v různých úlohách mírně lišit, a proto nabízíme metodu vážení funkcí. Váhy jsou později normalizovány, takže uživatelé mohou do vstupních vah zadat libovolné číslo, přičemž vyšší číslo znamená větší důležitost určitých rysů.
  • Filtry podle projektů Wiki (výběr několika nebo všech projektů, jako je Wikipedie, Wikibooks atd.)
  • Jazykové filtry.
  • Po kliknutí na modul se zobrazí seznam podobných modulů. Uživatelé mohou začít přispívat ke sloučení těchto funkcí nebo k vytvoření jejich modulárnějších verzí.

Metoda

Pro splnění úkolu najít důležité moduly a navzájem podobné moduly byly postupně splněny následující dílčí úkoly. Výsledkem všech těchto prací je konečný produkt v repozitáři GitHub.

  • Shromáždění zdrojového kódu všech modulů ve jmenném prostoru Module pomocí MediaWiki API (T270494).
  • Shromážděte data týkající se těchto modulů z databází replik (T270492):
  • Analýza shromážděných údajů za účelem identifikace prioritních modulů (T272003):
    • Souhrnná zpráva o analýze dat: PDF.
    • Souhrnná zpráva o mechanismu bodování: PDF.
    • Provádění analýzy dat: notebook, PDF.
    • Bodování modulů podle důležitosti: notebook, PDF.
  • Shlukování modulů pro oddělení podobných modulů (T270827):
    • Souhrnná zpráva o testovaných metodách shlukování a zjištěních: PDF.
    • Analýza obsahu modulů pod stejným názvem: notebook, PDF.
    • Analýza podobnosti: notebook, PDF.
    • Ladění metod shlukování: notebook, PDF.
  • Dále byl proveden pokus o shromáždění údajů o zobrazení stránek (T271400): notebook, PDF.