Abstract Wikipedia/Data
Abstraktní Wikipedie |
---|
(Diskuse) |
Obecné informace |
Vývojový plán |
|
Poznámky, koncepty, diskuse |
|
Příklady a makety |
Datové nástroje |
Historický |
Získejte důležité moduly a najděte podobné moduly
- Nástroj
- abstract-wiki-ds.toolforge.org
- Zdroj
- GitHub: abstract-wikipedia-data-science
- Phabricator
- T263678
- Ukázkové video (3 minuty, YouTube)
- Abstract Wikipedia Data Science with Outreachy Demo
- Zvuková ukázka (41 minut)
Popis
Moduly Scribunto napříč projekty wiki a jazyky se používají k provádění různých funkcí. S cílem vytvořit abstraktní Wikipedii nyní potřebujeme shromáždit všechny funkce, jejichž autorem je komunita, na jednom místě, odstranit nadbytečné funkce a pokud možno je modularizovat. Tento nástroj poskytuje uživatelům a přispěvatelům místo, kde mohou analyzovat a začít slučovat wikifunkce, počínaje důležitými moduly a následně slučovat nebo refaktorovat podobné moduly.
Tento úkol začal jako projekt stáže v Outreachy, kde stážistkami byly Liudmila Kalina a Aisha Khatun. Přečtěte si příspěvky na blogu, které ony (a ostatní) zveřejnily během stáže v dvoutýdenních zprávách.
Co obsahuje
- Seznam důležitých modulů. Představa o důležitosti se může v různých úlohách mírně lišit, a proto nabízíme metodu vážení funkcí. Váhy jsou později normalizovány, takže uživatelé mohou do vstupních vah zadat libovolné číslo, přičemž vyšší číslo znamená větší důležitost určitých rysů.
- Filtry podle projektů Wiki (výběr několika nebo všech projektů, jako je Wikipedie, Wikibooks atd.)
- Jazykové filtry.
- Po kliknutí na modul se zobrazí seznam podobných modulů. Uživatelé mohou začít přispívat ke sloučení těchto funkcí nebo k vytvoření jejich modulárnějších verzí.
Metoda
Pro splnění úkolu najít důležité moduly a navzájem podobné moduly byly postupně splněny následující dílčí úkoly. Výsledkem všech těchto prací je konečný produkt v repozitáři GitHub.
- Shromáždění zdrojového kódu všech modulů ve jmenném prostoru Module pomocí MediaWiki API (T270494).
- Shromážděte data týkající se těchto modulů z databází replik (T270492):
- Analýza shromážděných údajů za účelem identifikace prioritních modulů (T272003):
- Shlukování modulů pro oddělení podobných modulů (T270827):
- Dále byl proveden pokus o shromáždění údajů o zobrazení stránek (T271400): notebook, PDF.