Jump to content

PetScan

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page PetScan and the translation is 66% complete.
Coolest Tool Award 2022 logo
PetScan

2022 Coolest Tool
Award Winner

in the category
Reusable

PetScan jest potężnym narzędziem do wyszukiwania. Zapytanie tworzy się za pomocą formularza PetScan. Poczytaj również o założeniach stojących za tym narzędziem.

Wprowadzenie

PetScan to narzędzie, które pozwala użytkownikom wyciągnąć dane, generować listy stron Wikipedii (i powiązanych projektów) lub elementów Wikidanych, które odpowiadają pewnym kryteriom, takim jak wszystkie strony w określonej kategorii lub wszystkie elementy z pewną właściwością, wyciągać i analizować dane z projektów Wikimedia. PetScan może również łączyć niektóre listy tymczasowe (zwane tutaj „źródłami”) na różne sposoby, aby stworzyć nową. Do źródeł należą:

Strony z Wiki(m|p)edii

Określane są w zakładkach Kategorie, Właściwości strony i Szablony&linki. Możesz poprosić o strony z jakichś kategorii, z określonymi szablonami albo linkujące do/linkowane z konkretnych stron; ograniczać wyniki do określonych przestrzeni nazw, filtrować po tym, czy edycję wykonał bot czy człowiek, po dacie ostatniej zmiany lub utworzenia strony itd. Te trzy zakładki odpowiadają funkcjom dawnego narzędzia CatScan2. Wyniki z utworzonego przez nie zapytania określamy jako „źródło kategorii”.

Inne źródła

W tej zakładce możesz dodać więcej źródeł, takich jak zapytania SPARQL do Wikidanych (WDQS) albo listy z PagePile. Możesz tu również wybrać, jak ma być łączone wiele źródeł; domyślnie zwracany jest podzbiór (tj. wyłącznie te strony, które znajdują się we wszystkich źródłach naraz). Możesz także wskazać, do której wiki mają linkować wyniki, np. jeśli łączysz wyszukiwanie w Wikipedii i Wikidanych.

Wikidane

W tej zakładce możesz dodawać adnotacje albo jeszcze bardziej przefiltrować wyniki, np. zwracając tylko elementy Wikidanych, które nie mają żadnych deklaracji. Użycie dowolnych filtrów z tej zakładki spowoduje wyświetlenie listy wyników jako linki do Wikidanych.

Wynik

Tutaj możesz wybrać opcje dotyczące listy wyników, np. format (HTML, wiki, PagePile itd.). Możesz również jeszcze dalej zawęzić wyniki, np. używając wyrażeń regularnych do nazwie strony lub etykiecie elementu. Możesz również zdecydować, żeby zamiast listy wyników pokazana została lista brakujących stron („czerwone linki”).

Definiowanie zapytania

W formularzu można ustawić następujące pola:

Pole Znaczenie Domyślnie Uwaga
Język Wybierz język projektu, np. "en" dla angielskiego lub "pl" dla polskiego. Jeśli chcesz przeszukać Wikimedia Commons, wybierz "commons". "en"
Projekt Projekt Wikimedia, który chcesz przeszukiwać (wikipedia, wiktionary, wikiversity itd.) "wikipedia" NOTE: If you choose "Commons", be sure to go to the "Page properties" tab and check the "File" namespace to get useful results.
Głębokość Głębokość przeszukiwanego drzewa kategorii. 0 oznacza, że podkategorie nie będą uwzględniane. "0"
Kategorie Lista kategorii, po jednej na wiersz, bez frazy "Kategoria:". Puste Dopisanie na końcu linii '|' oraz liczby ustawi głębokość przeszukiwanego drzewa dla tej kategorii, nadpisując ustawienie podane w polu "Głębokość". Podając kategorię możesz zawęzić wyniki wyszukiwania i skupić się na stronach, które pasują do określonego tematu.
Wykluczone kategorie Lista kategorii jak wyżej. Zwrócone zostaną tylko artykuły, których nie ma w tych kategoriach. Puste
Kombinacja Jak użyć powyższych kategorii:
  • Lista kategorii: wyświetla podkategorie
  • Podzbiór: Strony, które są we wszystkich kategoriach
  • Suma: Strony, które są przynajmniej w jednej kategorii
  • Różnica: Strony, które są tylko w jednej kategorii
  • Przynajmniej (N): Strony, które są przynajmniej w N kategoriach

W tej chwili dostępne opcje to "Podzbiór" i "Suma".

"podzbiór"
Przestrzenie nazw W jakich przestrzeniach nazw szukać potencjalnych wyników Artykuły
Przekierowania Bez znaczenia
Szablony Pokaż tylko strony, które:
  • pole 1: zawierają wszystkie wymienione szablony
  • pole 2: zawierają dowolny z wymienionych szablonów
  • pole 3: nie zawierają żadnego z wymienionych szablonów

Wstaw jeden szablon w każdym wierszu, bez prefiksu "Szablon:". Przy każdym polu możesz też wybrać sprawdzanie stron dyskusji.

Puste This option seems only compatible with templates defined in "template:" namespace. It cannot be used with templates defined in "User:" namespace. It cannot be used in the "Creator:" or "Institution:" namespaces that are used at Wikimedia Commons
Linkujące:
Ostatnia edycja Wyświetla strony, na których ostatnia edycja (nie) została wykonana przez bota, przez użytkownika anonimowego albo (nie) jest oznaczona jako przejrzana. Bez znaczenia, Bez znaczenia, Bez znaczenia
Ostatnia edycja Data lub okres ostatniej zmiany w formacie YYYYMMDDHHMMSS (dozwolona jest krótsza postać daty) "Tylko strony stworzone w poniższym przedziale czasowym" pozwala na szukanie zamiast tego daty pierwszej edycji
Rozmiar Rozmiar lub zakres rozmiarów pliku w bajtach Puste Umożliwia wybranie artykułów większych niż pierwsza wskazana wielkość i/lub mniejszych niż druga
Linki Liczba lub zakres liczby linków wewnętrznych na stronie Puste Pozwala na wybranie stron z małą lub dużą liczbą linków
Czerwone linki
Top categories Funkcja, która nie jest jeszcze dostępna.
Sortuj Niedostępna jeszcze funkcja, która ustawiałaby kryteria sortowania wyników.
Ręczna lista Pozwala na podanie listy stron z określonego projektu (z prefiksami przestrzeni nazw) lub elementów Wikidanych Trudną częścią jest tu wskazanie projektów. Poprawne kody to:
  • angielska Wikipedia: enwiki
  • niemieckie Wikiźródła: dewikisource albo dewikisourcewiki
  • grecki Wikisłownik: elwiktionarywiki
  • angielskie Wikinews: enwikinews
  • Wikidane: wikidatawiki
  • Commons: commonswiki
Wikidane Get Wikidata, if available.
Format Output format of the search results:
HTML: webpages
CSV: values in quotation marks, separated by commas
TSV: Tab Separated Values
WIKI: as Wikitable
PHP: as a PHP file
XML: as an XML file
Szukaj! Kliknij tu aby uruchomić sformułowane przez ciebie zapytanie.

Know-how

PetScan ID (PSID)

Od 04.04.2016 każde zapytanie uruchamiane poprzez PetScan jest zapisywane (anonimowo!) i zostaje mu przypisany unikalny, stabilny, numeryczny identyfikator nazywany PSID. Można go użyć aby:

  • uruchomić to zapytanie jako wsad w narzędziach, które to obsługują (jak np. WD-FIST)
  • stworzyć krótki URL: https://petscan.wmcloud.org/?psid=PSID uruchamia zapytanie o identyfikatorze PSID ze wszystkimi jego ustawieniami
  • programistycznie rozszerzyć poprzednie zapytanie "nadpisując" jego parametry: https://petscan.wmcloud.org/?format=wiki&psid=PSID uruchomi takie samo zapytanie, ale wyniki zostaną sformatowane jako lista wiki (zamiast domyślnego HTML czy dowolnego innego formatu, jaki został pierwotnie wybrany).

Uwagi:

  • Zapisywane jest tylko samo zapytanie, a nie jego wyniki!
  • Duże zapytanie (z wieloma ręcznymi ustawieniami) nie zostanie zapisane. W takiej sytuacji nie pojawi się PSID.
  • Wyniki, przy których jest pusty checkbox, mają możliwe dopasowania w ramach zbioru Wikidanych.
  • Można używać linku interwiki petscan:, aby wyświetlić link do zapytania, np. [[petscan:PSID]]
  • Rejestrowane zapytania nie są sprawdzane pod kątem unikalności. Czyli za każdym razem generuje się nowy PSID, chyba że wywołano zapytanie z istniejącym PSID bez jego modyfikacji.

Tworzenie elementów Wikidanych dla artykułów z Wikipedii, które nie mają jeszcze WD (funkcja tworzenia)

  • Przygotuj zapytanie, które zwraca listę stron z Wikipedii (albo innego projektu, poza Wikidanymi) lubwklej listę w "Inne źródła/Ręczna lista".
  • W zakładce "Właściwości strony" należy wybrać "Przekierowanie=Bez nich" Teraz jest to już robione automatycznie, ale możesz zmienić tę opcję z powrotem, o ile naprawdę chcesz mieć na swojej liście przekierowania!
  • W zakładce "Wikidane" zaznacz opcję "Tylko strony bez przypisanych elementów".
  • Uruchom zapytanie.
  • Na liście wyników obok nagłówka "Wyniki" pojawią się dodatkowe elementy (chyba że nie jesteś zalogowany/zalogowana w WiDaR, w którym to wypadku zamiast nich zobaczysz odpowiednie link).
  • Domyślnie wybrane będą wszystkie strony, dla których nie ma w Wikidanych dokładnego dopasowania do żadnej etykiety, w dowolnym języku.
  • Możesz ręcznie zaznaczać i odznaczać okienka, wedle potrzeby.
  • Do okienka z listą komend możesz wstawić listę domyślnych komend, które zostaną dodane do wszystkich nowotworzonych elementów. Czyli jeśli tworzysz elementy dla ludzi, wstaw P31:Q5. Możesz dodawać większą liczbę deklaracji (po jednej na wiersz). Zwróć uwagę na użycie wielkich liter w P/Q - jeśli wstawisz małe, to operacja się nie uda i nie będzie o tym powiadomienia.
  • Możesz ustawić domyślne opisy do nowotworzonych elementów, np. Dde:"some description" dla opisu w języku niemieckim.
  • Kliknij w zielony przycisk "Uruchom QS". Otworzy to nową stronę.
  • Możesz kliknąć "Uruchom", aby rozpocząć przetwarzanie listy ze swojej przeglądarki albo "Uruchom w tle", co spowoduje uruchomienie zadania z serwera Wikimedia. Więcej informacji znajdziesz w Help:QuickStatements.

Dodawanie/usuwanie deklaracji z elementów Wikidanych

Możliwe jest dodawanie lub usuwanie deklaracji z elementów Wikidanych przy użyciu PetScan. Aby to zrobić, kluczowe jest, żeby w zakładce "Inne źródła" pod "Użyj wiki" zaznaczyć "Wikidane". Obok liczby wyników pojawi się wówczas okno do wprowadzania deklaracji, przy którym postępuj zgodnie z instrukcjami z poprzedniej sekcji.

Referrer

(V2 only) If you open PetScan from another tool to let the user create a query, you can pass the referrer_url and referrer_name (defaults to referrer_url) parameters. referrer_url should have a {PSID} string which will be replaced with the PSID the user sees. Once a query was run, a box at the top of the page will prompt the user to return to the original tool, using the PSID-modified referrer_url.

Przykłady

Artykuły w Wikiprojekcie

Z prośby zamieszczonej na stronie dyskusji niniejszej instrukcji: znaleźć wszystkie artykuły z przestrzeni głównej w ramach projektu "WikiProject UK geography". Wystarczy w pustym formularzu PetScan w zakładce "Szablony i linki", w wierszu "Szablony" wstawić "WikiProject UK geography" w pierwszym okienku oraz bezpośrednio pod nim zaznaczyć "Zastąp stronami dyskusji". 'Tutaj jest już wypełniony formularz. Kliknij "Szukaj!" na dole strony. Zapytanie to 16 sierpnia 2015 uruchamiało się przez 1,5 s i dawało wynik 21&bnsp;408 stron. Lista pojawia się POD formularzem (który zostaje na ekranie), więc żeby ją zobaczyć, musisz przewinąć stronę.

Editors working on disambiguation seek to enlist members of a content area WikiProject, specifically WikiProject Canada, to help. A PetScan report is designed to find all articles having ambiguous links that are within the given WikiProject. Criteria applied:

  1. Articles having ambiguous links are within "Category:All articles with links needing disambiguation", so paste "All articles with links needing disambiguation" into the PetScan Categories field.
  2. Depth is set arbitrarily to 9, meaning that articles as far as 9 subcategories down from the "needing disambiguation" parent category will be found. (Searching to that depth is not necessary in this case but doesn't hurt.)
  3. Articles within WikiProject Canada have "Template:WikiProject Canada" on their talk pages, so paste "WikiProject Canada" into PetScan's "Has any of these templates" field, and just below select "Use talk pages instead" as a qualifier.
  4. Only regular articles, not disambiguation pages, are wanted, and disambiguation pages are distinguished by having template:disambiguation, so paste "Disambiguation" into PetScan's "Has none of these templates" field, and make sure "Use talk pages instead" is not selected.
  • These criteria are implemented by this PetScan submission form, filled out. To submit the query, select "Do it!" at the bottom.
  • When submitted on 16 August 2015, the query took 31 seconds to run, and results were a list of 255 articles. The results show BELOW the PetScan submission form, which remains in place, so you may see no change on your screen. You have to know to scroll down to find the results! That request was run with default Output format "HTML".
  • To obtain the results in a Wikitable, in order to share them at a subpage of the WikiProject, the request could be revised to select Format "WIKI". This time the results, in wikitable markup, replace the PetScan submission form on your screen.
  • To make a more useful list for disambiguators, set up so that DabSolver will open up on any item clicked, a several step process can be followed. Here the results were saved to Tab-Separated format instead, then brought into Excel, then a column was composed which concatenated simple text strings with the results, then that resulting column was copy-pasted. The results were pasted over to the English language Wikipedia page w:Wikipedia:Canadian Wikipedians' notice board/ArticlesNeedingDisambiguation2015-08-17 and were posted also within a scrolling window in discussion at the WikiProject Canada talk page. --Doncram (talk) 19:50, 24 August 2015 (UTC) link adjusted. DexDor (talk) 06:58, 29 March 2016 (UTC)

Detecting pages that have an anomalous combination of namespace and category/ies

PetScan can be used to find pages that are in a category (or combination of categories) that is not appropriate for pages in a particular namespace - e.g. Wikipedia administration pages that are in a category that should only contain encyclopedic articles. This can then be fixed (e.g. by moving an article to the correct namespace or by editing a discussion to insert a missing ":" where a category is being referred to). The first step in this process is to identify (using PetScan) categories that cause incorrect categorization (e.g. Wikipedia administration categories that are in article categories).

Find uncategorized photo contributions in Commons in a given language

(Based on Grants:Learning patterns/Treasures or landmines: detecting uncategorized, language-specific uploads in Commons. See the motivation and full explanation there! Thank you to wikimedia user User:Spiritia and other contributors/commenters there for contributing this! )

Run a query using PetScan with the following settings:

Language = commons
Project = wikimedia
Depth = 1
Categories = Uncategorized files
Combination = ☑ Subset
Namespaces = ☑ File
Templates : Has all of these templates = <your language code> 
Format: ☑ Extended data for files ☑ File usage data

The English language code is "en"; the Romanian language code is "ro". To find uncategorized photos uploaded by users using Romanian language, a version of the query (with html output, and without autorun) is:

https://petscan.wmcloud.org/?language=commons&project=wikimedia&depth=1&categories=Uncategorized+files&ns%5B6%5D=1&templates_yes=ro&ext_image_data=1&file_usage_data=1

As of 15 March 2016, after hitting "run" the query requires about 105 seconds to finish, and yields 1748 uncategorized photos.

Notes:

  1. The "Language =" field is not used to select the desired language; the desired language code is set in the "Template" field instead.
  2. The language code is case-sensitive in the query! So for example use "ro" not "RO".
  3. To generate the results there, Format: ☑ Wiki was chosen, instead of the default output of Html.

Enjoy! Thanks again to User:Spiritia especially!

Items with no statements

The option "Has no statements" can be used to find:

Steps to import the template, some with PetScan.

  • Indicate the project on the 'Categories' tab. E.g. de for Language and wikipedia in Project to use the German language edition of Wikipedia.
  • In Other sources enter your SPARQL query
  • Make sure to select From categories from the Use wiki options
  • Press Do it

This could be useful to get the pageviews of a specific set of pages, based on a SPARQL query. You can save this to a Pagepile (check the Output tab), then enter that Pagepile ID in Massviews Analysis (select 'Page Pile' from the Source dropdown).

Get a list of Wikidata items with exclusions based on a SPARQL query

Let's say you got a list of people with Wikidata ID's (QIDs) that you want to add an occupation (P106) of 'jewellery designer' (Q2519376) to, maybe with a tool like QuickStatements. However, you don't want to add this occupation to items that already have that occupation. Here's how to do that with PetScan:

  • Have your list of QIDs in a text file, with each QID on a new line
  • In the tab 'Other sources', paste this text into the field called 'Manual list'
  • In the form 'Wiki' enter the string wikidatawiki
  • In the field 'SPARQL' enter your SPARQL query. In this example, this query will give all humans with an occupation of 'jewellery designer':
  • select ?item where { ?item wdt:P31 wd:Q5; wdt:P106 wd:Q2519376. }
  • Finally, you want to make an exclusion, so in the field 'Combination' add the string manual NOT sparql to get all the QIDs from the 'manual list', but without the items from the SPARQL query.
  • Hit 'Do it!'

Add your example here...

Bug reports, feature requests, code base

Zobacz też