PetScan

From Meta, a Wikimedia project coordination wiki
Jump to navigation Jump to search
This page is a translated version of the page PetScan and the translation is 84% complete.
Outdated translations are marked like this.
Coolest Tool Award 2022 logo

PetScan

2022 Coolest Tool
Award Winner

in the category
Reusable

PetScan est un outil de requête puissant. On décrit une requête grâce au formulaire de l’outil. Voir aussi le pourquoi du comment (en anglais).

Introduction

PetScan peut générer des listes de pages Wikipédia (ou des projets liés) ou d'éléments Wikidata qui correspondent à certains critères, telles que toutes les pages dans une catégorie donnée, ou tous les éléments avec une propriété donnée. PetScan peut aussi combiner des listes temporaires (appelées « sources ») de différentes manières, pour en créer une nouvelle. Les sources comprennent :

Pages de Wiki(m|p)édia

Elles sont définies dans les onglets « Categories », « Page properties » et « Templates&links ». Vous pouvez obtenir des pages dans des arbres de catégories, avec des modèles spécifiques ou des liens depuis/vers des pages spécifiques ; limiter vos résultats à des espaces de noms donnés, des modifications par des humains/bots, les créations de pages, les modifications récentes, etc. Ces trois onglets représentent l'ancienne fonctionnalité CatScan2. Le résultat de la requête est conséquemment empaqueté dans la « category source ».

Autres sources

Dans cet onglet, vous pouvez ajouter davantage de sources, telles que des requêtes Wikidata SPARQL (WDQS) ou des listes PagePile. Vous pouvez également définir comment combiner les multiples sources ; par défaut, le sous-ensemble (c'est-à-dire seulement les pages qui sont présentes dans toutes les sources) est renvoyé dans le résultat final. Vous pouvez aussi indiquer vers quel wiki vous voulez que votre liste pointe, par exemple si vous combinez des résultats Wikipédia et Wikidata.

Wikidata

Dans cet onglet, vous pouvez annoter ou filtrer davantage vos résultats, par exemple en ne renvoyant uniquement que les éléments Wikidata qui n'ont pas de déclarations. Utiliser n'importe lequel de ces filtres convertira votre liste vers Wikidata.

Résultat

Ici, vous pouvez indiquer des options pour votre liste, par exemple le format (page Web, wiki, PagePile, etc.). Vous pouvez également filtrer davantage vos résultats, par exemple avec des expressions régulières sur les titres de page/libellés d'élément. Vous pouvez aussi remplacer la liste de résultat avec une liste rangée de sujets manquants (« liens rouges »).

Définir votre requête

Les champs qui peuvent être renseignés dans le formulaire de requête sont les suivants :

Champ Signification Valeur par défaut Note
Langue Sélectionner le code de langue du projet, par exemple « fr » pour le français ou « de » pour l'allemand. Sélectionner « commons » pour Wikimedia Commons "en"
Projet Projet Wikimédia dans lequel rechercher (wikipedia, wiktionary, wikiversity, etc.) "wikipedia"
Profondeur Profondeur des arbres de catégories à laquelle rechercher. 0 signifie de ne pas utiliser les sous-catégories. "0"
Catégories Liste des catégories, une par ligne sans la partie « category: ». vide Ajouter '|' et un nombre réglera la profondeur pour cet arbre de catégorie, écrasant ce qui aura été choisi dans le champ Profondeur
Retirer les catégories Liste de catégories également. Seuls des articles qui ne sont pas dans ces catégories seront présents dans les résultats. Vide
Combinaison Utilisation des options précédentes. Ici une page est considérée comme « catégorisée dans » une catégorie si elle est catégorisée directement dans la catégorie, mais également si elle est catégorisée dans son arbre de sous-catégories :
  • Liste de Catégories : Lister les sous-catégories
  • Intersection : Toutes les pages catégorisées dans tous les arbres de catégories
  • Union : Toutes les pages catégorisées dans au moins un arbre de catégories
  • Différence : Toutes les pages catégorisées dans un seul des arbres de catégories
  • Au moins (N) : Les pages catégorisées dans au moins N arbres de catégories

Les options actuellement disponibles sont « sous-ensemble » (intersection) ou « union » .

sous-ensemble
Espaces de noms Les espaces de noms des pages candidates Articles
Redirections L’une d’elle
Modèles Utilisation des pages qui :
  • Box 1 : contiennent tous les modèles demandés
  • Box 2 : contiennent un des modèles demandés
  • Box 3 : contiennent aucun des modèles demandés

Entrer un modèle par ligne, sans le précéder de la mention "template:". Chaque box peut être définie en sélectionnant "Use talk page instead".

Vide Cette option semble seulement compatible avec les modèles définis dans l'espace de noms "template:". Elle ne peut être utilisée avec des modèles définis dans l'espace de noms "User:". Elle ne peut pas non plus être utilisée dans les espaces de noms "Creator:" ou "Institution:" qui sont utilisés dans Wikimedia Commons.
Lié depuis
Dernière édition Affiche les pages dont la dernière modification a été effectuée ou non par un bot, par un utilisateur anonyme ou signalée Soit, soit, soit
Dernière édition Date ou période de temps de la dernière modification effectuée sur la page, au format YYYYMMDDHHMMSS (mais il est possible de raccourcir le format). "Only pages created during the above time window" vous permet de rechercher 'first change à la place.
Taille Taille du fichier ou plage de la taille du fichier en octets Vide Permet la sélection d'articles dont les fichiers sont plus lourds qu'une certaine taille limite et/ou moins lourds qu'une autre taille limite.
Liens Nombre ou plage de liens internes dans la page Vide Permet la sélection d'articles ayant beaucoup ou peu de liens
Liens rouges
Catégories les plus pertinentes Fonctionnalité pas encore disponible
Trier Fonctionnalité pas encore disponible qui définirait des critères de tri pour le fichier de sortie.
Liste manuelle Permet de fournir une liste de noms de pages ou d'éléments Wikidata à partir du projet spécifié, si besoin préfixés par leurs espaces de noms

La partie difficile est de spécifier les projets, les codes corrects sont :

  • Wikipedia anglais : enwiki
  • Wikisource allemand : dewikisource ou dewikisourcewiki
  • Wikinews anglais : enwikinews
  • Wikidata: wikidatawiki
Wikidata Prendre Wikidata si possible
Format Format de sortie des résultats de recherche :
  • HTML : pages web
  • CSV : fichier à données tabulaires sous forme de valeurs entre quotes séparées par des virgules
  • TSV : fichier à données tabulaires sous forme de valeurs séparées par des tabulations
  • WIKI : comme une page Wiki
  • PHP : comme un fichier PHP
  • XML : comme un fichier XML
Exécuter Appuyez ici pour exécuter la recherche que vous avez définie.

Savoir comment …

PetScan ID (PSID)

Depuis le 4 avril 2016 chaque requête qui a été exécutée dans PetScan est enregistrée (anonymement) et associée à un unique et stable identifiant numérique appelé "PSID". Vous pouvez l'utiliser pour :

  • exécuter la requête PetScan en mettant le "PSID" en paramètre d'entrée par le biais d'outils supportant cet identifiant (comme WD-FIST) ;
  • remplir dans une "Short URL" : https://petscan.wmflabs.org/?psid=PSID exécutera la requête avec le "PSID" avec tous ces paramètres associés ;
  • développer par programme sur une requête précédente, en remplaçant certains paramètres : https://petscan.wmflabs.org/?format=wiki&psid=PSID va exécuter la même requête que la précédente, mais le format du fichier de sortie sera WIKI (au lieu du HTML qui est par défaut, ou n'importe quel type de fichier choisi à l'origine).

Remarques :

  • Seule la requête sera stockée, les résultats ne le seront pas ;
  • Les longues requêtes (comme celles avec beaucoup d'éléments enregistrés manuellement) ne seront pas stockées. Dans ce cas, il n'y aura pas de "PSID" ;
  • Les résultats avec des cases à cocher vides ont plusieurs correspondances possibles dans l'ensemble Wikidata ;
  • Le lien interwiki petscan: peut être utilisé pour générer des raccourcis pour des requêtes permanentes. Par exemple, [[petscan:PSID]].
  • Les requêtes enregistrées ne sont pas dédupliquées, un nouveau PSID sera généré à chaque fois, à moins qu'un PSID existant soit appelé sans modification.

Créer les éléments Wikidata pour des articles Wikipédia qui n’en ont pas (Fonction « créateur »)

  • Configurer une requête qui renvoie une liste des pages Wikipedia (ou une autre liste comme des pages du projet Wikimedia excepté Wikidata), ou colle une liste dans "Other sources/Manual list"
  • Sous l'onglet "Page properties", le meilleur serait de sélectionner "Redirects=No" Maintenant, cela est fait automatiquement, vous pouvez revenir en arrière si vous voulez vraiment des redirections dans votre liste !
  • Sous l'onglet "Wikidata", sélectionner "Only pages without item" pour l'option "Wikidata"
  • Exécuter la requête
  • Vos résultats auront des éléments supplémentaires à côté des résultats d'en-tête (à moins que vous ne vous êtes pas connecté dans WiDaR, auquel cas vous verrez un lien inapproprié à la place)
  • Toutes les pages pour lesquelles il n'y a pas d'appariement exacts dans des labels ou des alias sur Wikidata sont cochés par défaut.
  • Maintenant, vous pouvez coché/décoché les cases si cela est requis.
  • Vous pouvez ajouter des déclarations par défaut dans les cases de déclaration qui seront ajoutées pour tous vos nouveaux éléments.

Dans si vous voulez seulement créer des éléments pour des personnes, ajoutez "P31:Q5". Vous pouvez ajouter des déclarations multiples de cette façon (une par ligne). Notez que "P/Q" nécessite d'être en majuscule. Donc si vous entrez "p/q", cela échouera.

  • Cliquer le bouton vert "Process commands". Des nouveaux éléments seront créés (et les déclarations seront ajoutées) pour toutes les pages sélectionnées.
  • Vous pouvez toujours interrompre le processus via le bouton rouge qui apparaît une fois que le processus ait commencé.
  • Une fois que l'élément ait été créé, et que toutes les déclarations aient été ajoutées, la liste des pages respectives va être totalement effacée de l'interface.
  • Utilisez les entrées restantes pour rechercher et associer manuellement les pages Wikipedia aux éléments Wikidata restants lorsque cela est possible.

Example: Biologists by field of research sur le Wikipedia anglais (la requête va prendre autour de 30 secondes; il se peut qu'on ne voit aucun résultat, cela dépend de la date que quelqu'un a utilisé cet exemple de lien pour créer des éléments).

Add/remove statements for Wikidata items

It is possible to add or remove statements for Wikidata items with PetScan. For this it is crucial that you choose "Wikidata" in "Other sources -> Use Wiki". Then you will see the command box next to the number and can continue as described in the previous section.

Referrer

(V2 only) If you open PetScan from another tool to let the user create a query, you can pass the referrer_url and referrer_name (defaults to referrer_url) parameters. referrer_url should have a {PSID} string which will be replaced with the PSID the user sees. Once a query was run, a box at the top of the page will prompt the user to return to the original tool, using the PSID-modified referrer_url.

Exemples

Articles d’un WikiProject

Un requête dans la page de discussion de cette notice : trouvez tous les articles de l'espace principal dans "WikiProject UK geography". En commençant avec un formulaire de soumission PetScan par défaut, ajoutez seulement "WikiProject UK geography" dans le premier espace du formulaire des rangées des catégories, et juste au-dessous, sélectionnez "Use talk pages instead". Voici la reqûete complète.. "Do it!" en bas. Quand cette requête fut exécutée le 16 août 2015, elle a mis 1,5 secondes à s'exécuter, et a donné une liste de 21 408 article. Cette liste apparaît en-dessous du formulaire de soumission (qui reste à l'écran) donc vous devez descendre dans la page pour voir les résultats.

Dablinks dans un WikiProject

Les contributeurs travaillant sur les articles homonymes cherchent à mobiliser les membres d'une zone de contenu WikiProject, plus particulier pour aider le WikiProject Canada. Un rapport PetScan est effectué pour trouver les articles ayant des liens ambigus qui sont dans le Wikiproject en question. Les critères appliqués :

  1. Les articles ayant des liens ambigus sont dans la catégorie "Category:All articles with links needing disambiguation", donc collez la mention "All articles with links needing disambiguation" dans le champ PetScan Categories.
  2. La profondeur est mise arbitrairement à 9, ce qui signifie que les articles trouvés seront ceux qui sont situés jusqu'à 9 sous-catégories de la catégorie parente "All articles with links needing disambiguation" (la recherche avec cette profondeur n'est pas nécessaire dans ce cas mais ne fait pas de mal.)
  3. Les articles dans WikiProject Canada ont le modèle "Template:WikiProject Canada" sur leur page de discussion, donc collez WikiProject Canada" dans le champ "Has any of these templates" de PetScan. Juste au-dessous, sélectionnez "Use talk pages instead" comme critère.
  4. Seuls les articles réguliers, pas les pages d'homonymie, sont recherchés. Les pages d'homonymie se distinguent par leur modèle "Template:Disambiguation" donc collez "Disambiguation" dans le champ "Has none of these templates" de Petscan, and vérifiez que "Use talk pages instead" n'est pas sélectionné.
  • Ces critères sont mis en place par this PetScan submission form, filled out. Pour proposer cette requête, sélectionnez "Do it!" en bas de la page.
  • Quand cela a été proposé le 16 août 2015, la requête a mis 31 secondes à s'exécuter, et le résultat était une liste de 255 articles. Les résultats montrent Les résultats montrent ci-dessous le formulaire de soumission PetScan, qui reste en place. Vous ne pouvez donc voir aucun changement à l'écran. Vous devez descendre dans la page pour avoir les résultats. Cette requête était exécutée avec le format de sortie par défaut qu'est HTML.
  • Pour obtenir les résultats dans un format WIKI, pour les partager dans une sous-page du projet Wiki, la requête peut être modifiée pour sélectionner le format WIKI. Dans ce cas, les résultats sont dans un tableau et remplacent le formulaire de soumission PetScan sur l'écran.
  • Pour obtenir une liste plus pratique pour les utilisateurs gérant les homonymies, configurer de sorte qu'un processus en plusieurs étapes pourra être suiv dès lors DabSolver s'ouvre sur n'importe quel élément cliqué.

Voici les résultats enregistrés dans un format TSV, importés dans Excel, puis puis une colonne a été composée pour concaténer de simples chaînes de texte avec les résultats. Cette colonne résultante a été par la suite copiée-collée.

Les résultats ont été collés sur la page Wikipedia anglaise w:Wikipedia:Canadian Wikipedians' notice board/ArticlesNeedingDisambiguation2015-08-17 et ont été aussi mis dans une fenêtre de la page discussion at the WikiProject Canada talk page. --Doncram (talk) 19:50, 24 August 2015 (UTC) link adjusted. DexDor (talk) 06:58, 29 March 2016 (UTC)Reply[reply]

Detection de pages avec une combinaison « espace de nom / catégorie » impropre

PetScan peut être utilisé pour rechercher des pages qui sont dans une catégorie (ou une combinaison de catégories) qui ne sont pas appropriée pour des pages dans un espace de nom donné. Par exemple, les pages d'administration de Wikipédia qui sont dans une catégorie qui devraient seulement contenir des articles encyclopédiques. Ceci peut être corrigé en déplaçant par exemple un article dans le bon espace de nom ou en créant une discussion pour insérer un double point manquant (":") dans le cas où une catégorie est référencée. La première étape de ce processus consiste à identifier (en utilisant PetScan) les catégories à l'origine de la catégorisation incorrecte (par exemple les catégories liées à l'administration Wikipédia qui sont dans les catégories d'articles).

Trouver les contributions des photos non categorisées dans Commons dans une langue donnée

(Basé sur Grants:Learning patterns/Treasures or landmines: detecting uncategorized, language-specific uploads in Commons. Voir le motif et l'explication complète sur cette page. Merci à User:Spiritia et aux autres contributeurs pour avoir contribué à ce projet !)

Exécuter un requête en utilisant PetScan avec les réglages suivants :

Language = commons
Project = wikimedia
Depth = 1
Categories = Media needing categories
Combination = ☑ Subset
Namespaces = ☑ File
Templates : Has all of these templates = <your language code> 
Format:  ☑ Extended data for files     ☑ File usage data

Le code de la langue anglaise est "en", celle du roumain et "ro". Pour trouver les photos non catégorisées mises en ligne par des utilisateurs dont la langue est le roumain, une version de la requête (avec un fichier HTML comme fichier de sortie et sans autorun) est :

https://petscan.wmflabs.org/?language=commons&project=wikimedia&depth=1&categories=Media+needing+categories&ns%5B6%5D=1&templates_yes=ro&ext_image_data=1&file_usage_data=1

Au 15 mars 2016, après avoir cliqué sur le bouton "run", la requête prend environ 105 secondes pour s'exécuter, et génère 1748 photos non catégorisées.

Notes :

  1. Le champ "Language =" n'est pas utilisé pour sélectionner la langue voulue, le code de la langue désirée est définie dans le champ "Template"
  2. Dans la requête, le code de langue est sensible à la casse. Pour l'exemple précédent, il faut utiliser "ro" et non "RO"
  3. Pour générer les résultats, Format: ☑ Wiki a été choisi, au lieu de la sortie par défaut qu'est HTML.

Maintenant appréciez cet outil. Encore un merci tout particulier à User:Spiritia !

Éléments sans déclaration

L'option "n'a pas de déclaration" peut être utilisée pour rechercher :

Aide:Importer Modèle:Bio from itwik

Étapes pour importer le modèle, certaines se font avec PetScan.

Get the sitelinks for a certain project from a SPARQL query

  • Indicate the project on the 'Categories' tab. E.g. de for Language and wikipedia in Project to use the German language edition of Wikipedia.
  • In Other sources enter your SPARQL query
  • Make sure to select From categories from the Use wiki options
  • Press Do it

This could be useful to get the pageviews of a specific set of pages, based on a SPARQL query. You can save this to a Pagepile (check the Output tab), then enter that Pagepile ID in Massviews Analysis (select 'Page Pile' from the Source dropdown).

Get a list of Wikidata items with exclusions based on a SPARQL query

Let's say you got a list of people with Wikidata ID's (QIDs) that you want to add an occupation (P106) of 'jewellery designer' (Q2519376) to, maybe with a tool like QuickStatements. However, you don't want to add this occupation to items that already have that occupation. Here's how to do that with PetScan:

  • Have your list of QIDs in a text file, with each QID on a new line
  • In the tab 'Other sources', paste this text into the field called 'Manual list'
  • In the form 'Wiki' enter the string wikidatawiki
  • In the field 'SPARQL' enter your SPARQL query. In this example, this query will give all humans with an occupation of 'jewellery designer':
  • select ?item where { ?item wdt:P31 wd:Q5; wdt:P106 wd:Q2519376. }
  • Finally, you want to make an exclusion, so in the field 'Combination' add the string manual NOT sparql to get all the QIDs from the 'manual list', but without the items from the SPARQL query.
  • Hit 'Do it!'

Ajoutez votre exemple ici ...

Voir également