Jump to content

PetScan

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page PetScan and the translation is 100% complete.
Coolest Tool Award 2022 logo
PetScan

2022 Coolest Tool
Award Winner

in the category
Reusable

PetScan est un outil de requête puissant. On décrit une requête grâce au formulaire de l’outil. Voir aussi le pourquoi du comment (en anglais).

Introduction

PetScan est un outil qui permet aux utilisateurs d'extraire des données, de générer des listes de pages Wikipedia (ou projets liés), ou d'éléments Wikidata correspondant à certains critères, tels que toutes les pages d'une catégorie donnée, ou tous les éléments ayant une propriété donnée, et d'extraire et analyser les données à partir de projets Wikimedia. PetScan peut aussi combiner de différentes manières des listes temporaires (appelées « sources ») pour en créer une nouvelle. Les sources comprennent :

Pages de Wiki(m/p)édia

Elles sont définies dans les onglets « Categories », « Page properties » et « Templates&links ». Vous pouvez obtenir des pages dans les arbres de catégories, avec des modèles spécifiques ou des liens depuis/vers des pages spécifiques ; limiter vos résultats à des espaces de noms donnés, des modifications par des humains/robots, les créations de pages, les modifications récentes, etc. Ces trois onglets représentent l'ancienne fonctionnalité CatScan2. Le résultat de la requête est conséquemment empaqueté en tant que « category source ».

Autres sources

Dans cet onglet, vous pouvez ajouter davantage de sources, telles que des requêtes Wikidata SPARQL (WDQS) ou des listes PagePile. Vous pouvez également définir comment combiner les multiples sources ; par défaut, le sous-ensemble (c'est-à-dire seulement les pages qui sont présentes dans toutes les sources) est renvoyé dans le résultat final. Vous pouvez aussi indiquer vers quel wiki vous voulez que votre liste pointe, par exemple si vous combinez des résultats Wikipédia et Wikidata.

Wikidata

Dans cet onglet, vous pouvez annoter ou filtrer davantage vos résultats, par exemple en ne renvoyant uniquement que les éléments Wikidata qui n'ont pas de déclarations. Utiliser n'importe lequel de ces filtres convertira votre liste vers Wikidata.

Résultat

Ici, vous pouvez indiquer des options pour votre liste, par exemple le format (page Web, wiki, PagePile, etc.). Vous pouvez également filtrer davantage vos résultats, par exemple avec des expressions régulières sur les titres de page/libellés d'élément. Vous pouvez aussi remplacer la liste de résultat avec une liste rangée de sujets manquants (« liens rouges »).

Définir votre requête

Les champs qui peuvent être renseignés dans le formulaire de requête sont les suivants :

Champ Signification Valeur par défaut Note
Langue Sélectionner le code de langue du projet, par exemple « fr » pour le français ou « de » pour l'allemand. Sélectionner « commons » pour Wikimedia Commons "en"
Projet Projet Wikimédia dans lequel rechercher (wikipedia, wiktionary, wikiversity, etc.) "wikipedia" NOTE: If you choose "Commons," be sure to go to the "Page properties" tab and check the "File" namespace to get useful results.
Profondeur Profondeur des arbres de catégories à laquelle rechercher. 0 signifie de ne pas utiliser les sous-catégories. "0"
Catégories Liste des catégories, une par ligne sans la partie « category: ». vide Ajouter '|' et un nombre réglera la profondeur de cet arbre de catégorie, écrasant la valeur du champ Profondeur. En indiquant une catégorie, vous pouvez réduire les résultats de la recherche et mettre ainsi l'accent sur les pages concernant un sujet particulier.
Retirer les catégories Liste des catégories comme ci-dessus. Seuls des articles qui n'appartiennent pas à ces catégories seront présents dans les résultats. Vide
Combinaison Utilisation des options précédentes. Ici une page est considérée comme « catégorisée dans » une catégorie si elle est catégorisée directement dans la catégorie, mais également si elle est catégorisée dans son arbre de sous-catégories :
  • Liste de Catégories : Lister les sous-catégories
  • Intersection : Toutes les pages catégorisées dans tous les arbres de catégories
  • Union : Toutes les pages catégorisées dans au moins un arbre de catégories
  • Différence : Toutes les pages catégorisées dans un seul des arbres de catégories
  • Au moins (N) : Les pages catégorisées dans au moins N arbres de catégories

Les options actuellement disponibles sont « sous-ensemble » (intersection) ou « union » .

sous-ensemble
Espaces de noms Les espaces de noms des pages candidates Articles
Redirections L’une d’elle
Modèles Utilisation des pages qui :
  • Box 1 : contiennent tous les modèles demandés
  • Box 2 : contiennent un des modèles demandés
  • Box 3 : contiennent aucun des modèles demandés

Entrer un modèle par ligne, sans le précéder de la mention "template:". Chaque box peut être définie en sélectionnant "Use talk page instead".

Vide Cette option semble seulement compatible avec les modèles définis dans l'espace de noms "template:". Elle ne peut être utilisée avec des modèles définis dans l'espace de noms "User:". Elle ne peut pas non plus être utilisée dans les espaces de noms "Creator:" ou "Institution:" qui sont utilisés dans Wikimedia Commons.
Lié depuis :
Dernière modification Affiche les pages dont la dernière modification a été effectuée ou non par un robot, par un utilisateur anonyme, ou qui est marquée Soit, soit, soit
Dernière édition Date ou période de temps de la dernière modification effectuée sur la page, au format YYYYMMDDHHMMSS (mais il est possible de raccourcir le format). "Only pages created during the above time window" vous permet de rechercher first change à la place.
Taille Taille du fichier ou plage de la taille du fichier en octets Vide Permet la sélection d'articles dont les fichiers sont plus lourds qu'une certaine taille limite et/ou moins lourds qu'une autre taille limite.
Liens Nombre ou plage de liens internes dans la page Vide Permet la sélection d'articles ayant beaucoup ou peu de liens
Liens rouges
Catégories les plus pertinentes Fonctionnalité non encore disponible.
Trier Fonctionnalité pas encore disponible qui définirait des critères de tri pour le fichier de sortie.
Liste manuelle Permet de fournir une liste de noms de pages ou d'éléments Wikidata à partir du projet spécifié, si besoin préfixés par leur espace de noms La partie difficile est de spécifier les projets, et les codes corrects sont :
  • Wikipedia anglais : enwiki
  • Wikisource allemand : dewikisource ou dewikisourcewiki
  • Wiktionnaire grec : elwiktionarywiki
  • Wikinews anglais : enwikinews
  • Wikidata : wikidatawiki
Wikidata Prendre Wikidata si possible
Format Format de sortie des résultats de recherche :
HTML : pages web
CSV : fichier à données tabulaires sous forme de valeurs entre quotes séparées par des virgules
TSV : fichier à données tabulaires sous forme de valeurs séparées par des tabulations
WIKI : comme une table Wiki
PHP : comme un fichier PHP
XML : comme un fichier XML
Exécuter Appuyez ici pour exécuter la recherche que vous avez définie.

Savoir comment …

PetScan ID (PSID)

Depuis le 4 avril 2016 chaque requête qui a été exécutée dans PetScan est enregistrée (anonymement) et associée à un unique et stable identifiant numérique appelé "PSID". Vous pouvez l'utiliser pour :

  • exécuter la requête PetScan en mettant le "PSID" en paramètre d'entrée par le biais d'outils supportant cet identifiant (comme WD-FIST) ;
  • remplir dans une "Short URL" : https://petscan.wmflabs.org/?psid=PSID exécutera la requête avec le "PSID" avec tous ces paramètres associés ;
  • développer par programme sur une requête précédente, en remplaçant certains paramètres : https://petscan.wmflabs.org/?format=wiki&psid=PSID va exécuter la même requête que la précédente, mais le format du fichier de sortie sera WIKI (au lieu du HTML qui est par défaut, ou n'importe quel type de fichier choisi à l'origine).

Remarques :

  • Seule la requête sera stockée, les résultats ne le seront pas ;
  • Les longues requêtes (comme celles avec beaucoup d'éléments enregistrés manuellement) ne seront pas stockées. Dans ce cas, il n'y aura pas de "PSID" ;
  • Les résultats avec des cases à cocher vides ont plusieurs correspondances possibles dans l'ensemble Wikidata ;
  • Le lien interwiki petscan: peut être utilisé pour générer des raccourcis pour des requêtes permanentes. Par exemple, [[petscan:PSID]].
  • Les requêtes enregistrées ne sont pas dédupliquées, un nouveau PSID sera généré à chaque fois, à moins qu'un PSID existant soit appelé sans modification.

Créer les éléments Wikidata pour les articles Wikipédia qui n’en ont pas (fonction « créateur »)

  • Configurer une requête qui renvoie une liste des pages Wikipedia (ou une autre liste comme des pages de projet Wikimedia excepté Wikidata), ou coller une liste manuellement dans "Other sources/Manual list"
  • Sous l'onglet "Page properties", le meilleur serait de sélectionner "Redirects=No" Maintenant, cela est fait automatiquement, vous pouvez revenir en arrière si vous voulez vraiment les redirections dans votre liste !
  • Sous l'onglet "Wikidata", sélectionner "Only pages without item" pour l'option "Wikidata" pour avoir les pages sans éléments
  • Exécuter la requête
  • Vos résultats auront des éléments supplémentaires à côté des résultats d'entête (à moins que vous ne soyez pas connecté dans WiDaR, auquel cas vous verrez un lien inapproprié à la place)
  • Toutes les pages pour lesquelles il n'y a pas de correspondance exacte avec le libellé ou les alias sur Wikidata, sont cochées par défaut.
  • Maintenant, vous pouvez cocher/décocher les cases si nécessaire.
  • Vous pouvez ajouter des déclarations par défaut dans les cases de déclaration et elles seront ajoutées pour tous vos nouveaux éléments. Donc si vous voulez seulement créer des éléments pour des personnes, ajoutez P31:Q5. Vous pouvez ainsi ajouter des déclarations multiples de cette façon (une par ligne). Notez que "P/Q" nécessite d'être en majuscule, sinon (par exemple avec "p/q") cela échouera simplement.
  • Vous pouvez ajouter des descriptions par défaut aux nouveaux articles, par exemple Dde:"some description" pour une description en allemand.
  • Cliquer le bouton vert "Start QS". Cela ouvre une nouvelle page.
  • En cliquant sur "Run" vous pouvez exécuter un batch dans votre navigateur, et sur "Run in background" pour l'exécuter en tâche de fond sur un serveur Wikimedia. Voir Help:QuickStatements pour plus d'informations.


Ajouter ou supprimer des déclarations pour les éléments Wikidata

Il est possible d'ajouter ou de supprimer des déclarations pour les éléments Wikidata avec PetScan. Pour cela, il est crucial de choisir "Wikidata" dans "Other sources → Use Wiki". Vous verrez ensuite la boîte de commande à côté du numéro et vous pourrez continuer comme décrit à la section précédente.

Référant

(V2 seulement) si vous ouvrez PetScan à partir d'un autre outil pour permettre à l'utilisateur de créer une requête, vous pouvez passer les paramètres referrer_url et referrer_name (valant par défaut referrer_url). referrer_url doit avoir une chaîne {PSID} qui sera remplacée par le PSID que l'utilisateur voit. Une fois qu'une requête a été exécutée, une case en haut de la page permettra à l'utilisateur de revenir à l'outil d'origine, en utilisant le referrer_url et le PSID modifié.

Exemples

Articles d’un WikiProject

Un requête dans la page de discussion de cette notice : trouvez tous les articles de l'espace principal dans "WikiProject UK geography". En commençant avec un formulaire de soumission PetScan par défaut, ajoutez seulement "WikiProject UK geography" dans le premier espace du formulaire des rangées des catégories, et juste au-dessous, sélectionnez "Use talk pages instead". Voici la reqûete complète.. "Do it!" en bas. Quand cette requête fut exécutée le 16 août 2015, elle a mis 1,5 secondes à s'exécuter, et a donné une liste de 21 408 article. Cette liste apparaît en-dessous du formulaire de soumission (qui reste à l'écran) donc vous devez descendre dans la page pour voir les résultats.

Les contributeurs travaillant sur les articles homonymes cherchent à mobiliser les membres d'une zone de contenu WikiProject, plus particulier pour aider le WikiProject Canada. Un rapport PetScan est effectué pour trouver les articles ayant des liens ambigus qui sont dans le Wikiproject en question. Les critères appliqués :

  1. Les articles ayant des liens ambigus sont dans la catégorie "Category:All articles with links needing disambiguation", donc collez la mention "All articles with links needing disambiguation" dans le champ PetScan Categories.
  2. La profondeur est mise arbitrairement à 9, ce qui signifie que les articles trouvés seront ceux qui sont situés jusqu'à 9 sous-catégories de la catégorie parente "All articles with links needing disambiguation" (la recherche avec cette profondeur n'est pas nécessaire dans ce cas mais ne fait pas de mal.)
  3. Les articles dans WikiProject Canada ont le modèle "Template:WikiProject Canada" sur leur page de discussion, donc collez WikiProject Canada" dans le champ "Has any of these templates" de PetScan. Juste au-dessous, sélectionnez "Use talk pages instead" comme critère.
  4. Seuls les articles réguliers, pas les pages d'homonymie, sont recherchés. Les pages d'homonymie se distinguent par leur modèle "Template:Disambiguation" donc collez "Disambiguation" dans le champ "Has none of these templates" de Petscan, and vérifiez que "Use talk pages instead" n'est pas sélectionné.
  • Ces critères sont mis en place par this PetScan submission form, filled out. Pour proposer cette requête, sélectionnez "Do it!" en bas de la page.
  • Quand cela a été proposé le 16 août 2015, la requête a mis 31 secondes à s'exécuter, et le résultat était une liste de 255 articles. Les résultats montrent Les résultats montrent ci-dessous le formulaire de soumission PetScan, qui reste en place. Vous ne pouvez donc voir aucun changement à l'écran. Vous devez descendre dans la page pour avoir les résultats. Cette requête était exécutée avec le format de sortie par défaut qu'est HTML.
  • Pour obtenir les résultats dans un format WIKI, pour les partager dans une sous-page du projet Wiki, la requête peut être modifiée pour sélectionner le format WIKI. Dans ce cas, les résultats sont dans un tableau et remplacent le formulaire de soumission PetScan sur l'écran.
  • Pour obtenir une liste plus pratique pour les utilisateurs gérant les homonymies, configurer de sorte qu'un processus en plusieurs étapes pourra être suiv dès lors DabSolver s'ouvre sur n'importe quel élément cliqué.

Voici les résultats enregistrés dans un format TSV, importés dans Excel, puis puis une colonne a été composée pour concaténer de simples chaînes de texte avec les résultats. Cette colonne résultante a été par la suite copiée-collée.

Les résultats ont été collés sur la page Wikipedia anglaise w:Wikipedia:Canadian Wikipedians' notice board/ArticlesNeedingDisambiguation2015-08-17 et ont été aussi mis dans une fenêtre de la page discussion at the WikiProject Canada talk page. --Doncram (talk) 19:50, 24 August 2015 (UTC) link adjusted. DexDor (talk) 06:58, 29 March 2016 (UTC)[reply]

Détection des pages ayant une combinaison impropre de « espace de noms » et « catégorie »

PetScan peut être utilisé pour rechercher des pages qui sont dans une catégorie (ou une combinaison de catégories) qui ne sont pas appropriée pour des pages dans un espace de nom donné. Par exemple, les pages d'administration de Wikipédia qui sont dans une catégorie qui devraient seulement contenir des articles encyclopédiques. Ceci peut être corrigé en déplaçant par exemple un article dans le bon espace de nom ou en créant une discussion pour insérer un double point manquant (":") dans le cas où une catégorie est référencée. La première étape de ce processus consiste à identifier (en utilisant PetScan) les catégories à l'origine de la catégorisation incorrecte (par exemple les catégories liées à l'administration Wikipédia qui sont dans les catégories d'articles).

Trouver les contributions non categorisées des photos de Commons dans une langue donnée

(Basé sur Grants:Learning patterns/Treasures or landmines: detecting uncategorized, language-specific uploads in Commons. Voir le motif et l'explication complète sur cette page. Merci à User:Spiritia et aux autres contributeurs pour avoir contribué à ce projet !)

Exécuter un requête en utilisant PetScan avec les réglages suivants :

Language = commons
Project = wikimedia
Depth = 1
Categories = Fichiers non classés
Combination = ☑ Subset
Namespaces = ☑ File
Templates : Has all of these templates = <votre code de langue> 
Format:  ☑ Extended data for files     ☑ File usage data

Le code de la langue anglaise est "en", celle du roumain et "ro". Pour trouver les photos non catégorisées mises en ligne par des utilisateurs dont la langue est le roumain, une version de la requête (avec un fichier HTML comme fichier de sortie et sans autorun) est :

https://petscan.wmflabs.org/?language=commons&project=wikimedia&depth=1&categories=Uncategorized+files&ns%5B6%5D=1&templates_yes=ro&ext_image_data=1&file_usage_data=1

Au 15 mars 2016, après avoir cliqué sur le bouton "run", la requête prend environ 105 secondes pour s'exécuter, et génère 1748 photos non catégorisées.

Notes :

  1. Le champ "Language =" n'est pas utilisé pour sélectionner la langue voulue, le code de la langue désirée est définie dans le champ "Template"
  2. Dans la requête, le code de langue est sensible à la casse. Pour l'exemple précédent, il faut utiliser "ro" et non "RO"
  3. Pour générer les résultats, Format: ☑ Wiki a été choisi, au lieu de la sortie par défaut qu'est HTML.

Maintenant appréciez cet outil. Encore un merci tout particulier à User:Spiritia !

Éléments sans déclaration

L'option "n'a pas de déclaration" peut être utilisée pour rechercher :

Étapes pour importer le modèle, certaines se font avec PetScan.

Obtenir les liens de site pour un projet donné à partir d'une requête SPARQL

  • Indiquez le projet dans l'onglet "Catégories". Par exemple de pour Language et wikipedia dans Project pour utiliser l'édition en langue allemande de Wikipedia.
  • Dans Autres sources, entrez votre requête SPARQL
  • Assurez-vous de sélectionner Des catégories dans les options Utilisez wiki
  • Appuyez sur Do it

Cela pourrait être utile pour obtenir les pages vues d'un ensemble spécifique de pages, basé sur une requête SPARQL. Vous pouvez enregistrer ceci dans une Pagepile (vérifiez l'onglet Output), puis entrez cet identifiant de Pagepile dans analyses Massviews (sélectionnez 'PagePile' dans la liste déroulante Source).

Obtenir une liste d'éléments Wikidata avec les exclusions à partir d'une requête SPARQL

Supposons que vous ayez une liste de personnes avec des identifiants Wikidata (QID) que vous souhaitez leur ajouter une profession (P106) comme 'concepteur de bijoux' (Q2519376), peut-être avec un outil comme QuickStatements. Cependant, vous ne voulez pas ajouter cette occupation à des articles qui ont déjà cette profession. Voici comment faire avec PetScan :

  • Avoir votre liste de QID dans un fichier texte, avec chaque QID sur une nouvelle ligne
  • Dans l'onglet 'Autres sources', collez ce texte dans le champ appelé 'Liste manuelle'
  • Dans le formulaire 'Wiki' entrez la chaîne wikidatawiki
  • Dans le champ SPARQL entrez votre requête SPARQL. Dans cet exemple, cette requête donnera à tous les humains ayant une profession de concepteur de bijoux :
    select ?item where { ?item wdt:P31 wd:Q5; wdt:P106 wd:Q2519376. }
  • Enfin, vous souhaitez faire une exclusion, donc dans le champ 'Combination' ajoutez la chaîne manual NOT sparql pour obtenir tous les QID à partir de la 'liste manuelle', mais sans les éléments de la requête SPARQL.
  • Cliquez sur 'Do it !'

Ajoutez votre exemple ici...

Rapports de bogues, demandes de fonctionnalités, base de code

Voir aussi

Liens externes