Wikipédia abstraite/Données

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Abstract Wikipedia/Data and the translation is 100% complete.

liste de diffusion de la Wikipédia abstraite Wikipédia abstraite sur IRC Wikifonctions sur Telegram Wikifonctions sur Mastodon Wikifonctions sur Twitter Wikifonctions sur Facebook Wikifonctions sur Youtube site web de Wikifonctions Translate

Obtenir les modules importants et trouver les modules similaires entre eux

Outil
abstract-wiki-ds.toolforge.org
Source
GitHub: abstract-wikipedia-data-science
Phabricator
T263678
Vidéo de démonstration (3 minutes, YouTube)
Démonstration de science des données pour la Wikipédia abstraite avec Outreachy
Enregistrement audio de démonstration (41 minutes)

Description

Des modules Scribunto sur divers projets wikis et langues sont utilisés pour réaliser diverses fonctions. Dans la visée de la Wikipédia abstraite, nous avons maintenant besoin de rassembler toutes les fonctions créées par la communauté en un même lieu, retirer de la redondance et modulariser les fonctions si possible. Cet outil donne aux utilisateurs et contributeurs un même emplacement pour analyser et commencer à fusionner les wikifonctions en commençant par les modules importants et en fusionnant ou en refactorisant les modules similaires.

Cette tâche a commencé comme un projet en internat Outreachy, avec Liudmila Kalina et Aisha Khatun en tant qu’internes. Lisez les billets de blogue qu’ils (et d’autres) ont postés durant toute la période d’internat dans les rapports bihebdomadaires.

Ce que cela contient

  • Une liste des modules importants. L’idée de l’importance peut varier significativement selon les tâches et donc nous fournissons une méthode pour pondérer les caractéristiques. Les poids sont normalisés plus tard, afin que les utilisateurs puissent saisir tout nombre dans les entrées de poids, un nombre plus important indiquant plus d’importance pour certaines caractéristiques.
  • Des filtres applicables à un projet wiki tout entier (sélectionner tous les projets ou bien quelques un tels que Wikipédia, Wikilivres, etc.)
  • Des filtres par langue.
  • En cliquant sur un module, vous obtenez une liste de modules similaires. Les utilisateurs peuvent commencer à contribuer pour fusionner ceux-ci ou rendre plus modulaires des versions de ces fonctions.

Méthode

Pour accomplir la tâche de découverte des modules importants et des modules similaires entre eux, les sous-tâches suivantes sont réalisées dans l’ordre. Tous ces travaux conduisent au produit final dans le dépôt GitHub.

  • Collecte du code source de tous les modules dans l’espace de noms Module en utilisant l’API de MediaWiki (T270494).
  • Collecte des données relatives à ces modules depuis les bases de données répliquées (T270492) :
    • Analyse des tables de base de données : carnet, PDF.
    • Collecte des données appropriées : carnet, PDF.
  • Analyse des données collectées pour identifier les modules prioritaires (T272003) :
    • Rapport résumé de l’analyse des données : PDF.
    • Rapport résumé sur le mécanisme de notation : PDF.
    • Réalisation de l’analyse des données : carnet, PDF.
    • Notation des modules en termes d’importance : carnet, PDF.
  • Regroupement des modules pour isoler les modules similaires (T270827) :
    • Rapport résumé sur les méthodes de regroupement testées et les découvertes : PDF.
    • Analyse des contenus pour les modules de même titre : carnet, PDF.
    • Analyse de similitude : carnet, PDF.
    • Mise au point des méthodes de regroupement : carnet, PDF.
  • En supplément, une tentative de collecte des données de visualisation des pages est réalisée (T271400) : carnet, PDF.