PetScan

From Meta, a Wikimedia project coordination wiki
Jump to navigation Jump to search
This page is a translated version of the page PetScan and the translation is 71% complete.

Other languages:
Deutsch • ‎English • ‎dansk • ‎español • ‎français • ‎italiano • ‎polski • ‎suomi • ‎čeština • ‎русский • ‎українська • ‎العربية • ‎مصرى • ‎中文 • ‎日本語

PetScanのマニュアル

Now with examples! Now with information presented in a table!

PetScanは強力な検索ツールです。

はじめに

PetScanはWikipedia (および関連プロジェクト) やWikidataの項目を対象に一覧を作成できます。例えば、PetScanの「カテゴリ」 (最左のタブ) を使って特定カテゴリに属する全てのページを一覧化したり、「ページ情報」 (左から2番目のタブ) で名前空間、サイズ、最終編集日などの条件を指定するとページの一覧化ができます。また、カテゴリやページ情報を指定して暫定的に作成した一覧同士を組み合わせるなどして、新たに高度な検索を行うには「その他のソース」 (左から4番目のタブ) を使います。使用できるソースは以下の通りです。

ウィキペディアやウィキメディアの項目

「カテゴリ」「ページ情報」「テンプレートとリンク」のいずれかのタブを使います。特定のカテゴリとその下位カテゴリに属するページや、特定のテンプレートを使用しているページ、特定ページのリンク元・リンク先を抽出できます。さらに検索結果を特定の名前空間に限定したり、編集内容がBotなのか人なのかを指定したり、最終編集日で絞り込むこともできます。これら3つのタブを使った検索結果にはPetScan ID (PSID) が自動で採番されて保存され、同じPSIDを指定すれば結果を再利用・再閲覧できます。

その他のソース

「その他のソース」タブでは、ウィキデータSPARQL(WDQS)クエリやPagePileリストなど、いくつかのソースを追加することができます。どのようにソースを統合するかの指定もできます。デフォルトでは、サブセット(全てのソースに出現する項目だけ)を最終的な結果に含めます。

ウィキデータ

「ウィキデータ」(左から5番目のタブ) を使うと、たとえば概要説明が空欄になっているウィキデータ項目だけを検索して一覧表示することができます。またPetScan上で特定条件に一致したウィキデータの項目にラベルを加筆すれば、その加筆結果がウィキデータに反映されます。

出力

「出力」 (最右のタブ) では、一覧検索結果を出力するファイル形式 (HTML、Wiki記法、PagePileなど) を指定することもできます。また、正規表現を使ってWikipediaのページ名やWikidataのラベル名を絞り込み検索するなど、高度な検索条件も使用できます。さらに未執筆 (赤リンク) の項目を検索結果に表示するかも指定できます。

条件の指定

指定可能な条件は以下のとおり。

条件 意味 既定値 注記
言語 プロジェクトの言語コードを選んでください。例えば、日本語は「ja」、英語は「en」、ドイツ語は「de」です。ウィキメディア・コモンズは「コモンズ」を選んでください。 "en"
プロジェクト 検索するウィキメディアプロジェクト(ウィキペディア、ウィクショナリーなど) "wikipedia"
深さ 検索するカテゴリーツリーの深さ。0にするとサブカテゴリを検索しない。 "0"
カテゴリ カテゴリのリスト。冒頭の「Category:」は除いてカテゴリそのもののみ書く。1行1カテゴリを記述し、複数カテゴリを組み合わせて検索する際には改行する。 カテゴリ名の後ろに'|'と数字を書くことで、複数カテゴリを組み合わせて検索する際、カテゴリごとにどこまで下位カテゴリを含める個別指定できる。「深さ」の欄で全体指定した数値よりも、カテゴリ名の後ろで個別指定した深さが優先して結果反映される。
除外カテゴリ 上記と同様のカテゴリのリスト。指定されたカテゴリに含まれる項目は除外される。
組み合わせ How above categories should be used:
*Category list: Lists subcategories
*Subset: All pages that are in all category trees
*Union: All pages that are at least in one category tree
*Difference: All pages in only one of the category trees
*At least (N): All pages that are in at least N category trees

Options available currently are "subset" or "union".

"subset"
名前空間 検索対象の名前空間 記事
リダイレクト いずれか
テンプレート * 次のテンプレートをすべて含む (AND検索)
  • 次のテンプレートのいずれかを含む (OR検索)
  • 次のテンプレートを含まない (NOT検索)

の入力ボックスを使用。記入は1行あたり1テンプレート名のみとし、冒頭の「Template:」は記入を省略する。各入力ボックスの下には「代わりにトーク(ノート)ページを使用」のチェックボックスが配置されている。

「Template:」の名前空間上にあるテンプレートのみが検索対象となる。「利用者:」の名前空間上や、コモンズでは「Creator:」または「Institution:」の名前空間上でもテンプレートは存在するが、これらは検索対象外となる。
リンク元:
最終編集 最終編集者がBotかどうか、IPによる匿名編集か、またフラグ付きかを指定できる。 いずれか、いずれか、いずれか
最終編集日 YYYYMMDDHHMMSS形式 (短縮表記可) で最終編集日時を指定。 新規作成ページを抽出する際に「上記の期間に作成されたページのみ表示」のチェックボックスをONにできる。
サイズ ファイルサイズ (範囲指定可、単位はバイト)。 特定サイズ以上または以下で絞り込み検索できる。
リンク 特定ページに含まれる内部リンク数を指定。 特定リンク数以上または以下で絞り込み検索できる。
赤リンク
トップカテゴリ 現時点で未実装の機能。
ソート 現時点で未実装の機能。検索結果出力時に並べる順番を指定。
Manual list Allows providing a list of (namespace prefixed) page names or wikidata items from specified project The tricky part is specifying projects the correct codes are:
  • English Wikipedia : enwiki
  • German Wikisource: dewikisource or dewikisourcewiki
  • English Wikinews: enwikinews
  • Wikidata: wikidatawiki
ウィキデータ 一致するウィキデータ項目を抽出。
ファイル形式 検索結果の出力ファイル形式はHTML (ウェブページ)、CSV (コンマ区切り)、TSV (タブ区切り)、WIKI (ウィキテーブル)、PHP、XMLのいずれかを選択可能。
実行 指定した条件で検索を実施するボタン。

留意事項

PetScan ID (PSID)

検索を行うたびに、自動的に (かつ匿名で!) 検索結果にIDが採番されます (2016年4月4日リリース機能)。このPSIDを使うとできることは以下の通りです。

  • PSIDを用いて、WD-FISTのような別ツールにPetScanの検索結果を流用できます。
  • "短縮URL": https://petscan.wmflabs.org/?psid=PSIDの引数として使用されます。
  • 過去の検索結果を使って、オプション指定を追加するなどカスタマイズ再検索ができます。たとえばhttps://petscan.wmflabs.org/?format=wiki&psid=PSIDとすれば、検索結果は過去と同じですが、出力形式をデフォルト設定のHTMLからウィキテーブル形式に変更できます。

注意事項:

  • PSIDが保存するのは検索条件であり、検索結果ではありません (つまり過去の検索実施以降に新規ページが作成されれば、再度PSIDを使って同じ検索を行っても自動で新規ページが検索結果に含まれます)。
  • 対象ページが多岐にわたるなど検索条件のサイズが大きい場合はPSIDが自動作成されず、画面上にも表示されません。
  • Results with an empty checkbox have possible matches within the Wikidata set.
  • ショートカットを作成する際に、接頭辞にpetscan:を付けて内部リンクを貼ることができます (例: [[petscan:PSID]])。

Create Wikidata items for Wikipedia articles that don't have one yet (Creator functionality)

  • Set up a query that returns a list of Wikipedia (or other, non-Wikidata project) pages, or paste a list into "Other sources/Manual list"
  • Under the "Page properties" tab, you should select "Redirects=No" This is done automatically now; you can change it back if you really want redirects in your list!
  • Under the "Wikidata" tab, select "Only pages without item" for the "Wikidata" option
  • Run query
  • Your results will have additional elements next to the "results" header (unless you are not logged into WiDaR, in which case you will see an appropriate link instead)
  • All pages for which there is no exact match in any label or alias on Wikidata are checked by default.
  • You can check/uncheck boxes manually now, if required.
  • You can add default statements into the statements box, which will be added to all your new items. So, if you only create items for people, add "P31:Q5". You can add multiple statements this way (one per line). Do note that the case of P/Q needs to be in upper case — otherwise it will fail quietly.
  • Click the green "Process commands" button. New items will be created (and statements added) for all checked pages.
  • You can always abort the process via the red button (appears once the process has started).
  • Once an item has been created, and all statements have been added, the respective page row will be removed completely from the interface.
  • Use the remaining entries to manually search and match the Wikipedia pages to existing Wikidata items, where possible.

Example: Biologists by field of research on English Wikipedia (query will take ~30 seconds; might not show any results, depending on how recently someone used this example link to create items)

Articles in a WikiProject

A request on the Talk page of this Manual: Find all mainspace articles within "WikiProject UK geography". Starting with a default PetScan submission form, just add "WikiProject UK geography" to the first box of the Categories row, and, just below, select "Use talk pages instead". Here is the query filled out. Hit "Do it!" at bottom. When run on 16 August 2015, the query required 1.5 seconds to run, and yielded a list of 21,408 articles. The list appears BELOW the submission form (which remains on your screen), so you have to scroll down to see the results.

Dablinks within a WikiProject

Editors working on disambiguation seek to enlist members of a content area WikiProject, specifically WikiProject Canada, to help. A PetScan report is designed to find all articles having ambiguous links that are within the given WikiProject. Criteria applied:

  1. Articles having ambiguous links are within "Category:All articles with links needing disambiguation", so paste "All articles with links needing disambiguation" into the PetScan Categories field.
  2. Depth is set arbitrarily to 9, meaning that articles as far as 9 subcategories down from the "needing disambiguation" parent category will be found. (Searching to that depth is not necessary in this case but doesn't hurt.)
  3. Articles within WikiProject Canada have "Template:WikiProject Canada" on their talk pages, so paste "WikiProject Canada" into PetScan's "Has any of these templates" field, and just below select "Use talk pages instead" as a qualifier.
  4. Only regular articles, not disambiguation pages, are wanted, and disambiguation pages are distinguished by having template:disambiguation, so paste "Disambiguation" into PetScan's "Has none of these templates" field, and make sure "Use talk pages instead" is not selected.
  • These criteria are implemented by this PetScan submission form, filled out. To submit the query, select "Do it!" at the bottom.
  • When submitted on 16 August 2015, the query took 31 seconds to run, and results were a list of 255 articles. The results show BELOW the PetScan submission form, which remains in place, so you may see no change on your screen. You have to know to scroll down to find the results! That request was run with default Output format "HTML".
  • To obtain the results in a Wikitable, in order to share them at a subpage of the WikiProject, the request could be revised to select Format "WIKI". This time the results, in wikitable markup, replace the PetScan submission form on your screen.
  • To make a more useful list for disambiguators, set up so that DabSolver will open up on any item clicked, a several step process can be followed. Here the results were saved to Tab-Separated format instead, then brought into Excel, then a column was composed which concatenated simple text strings with the results, then that resulting column was copy-pasted. The results were pasted over to the English language Wikipedia page w:Wikipedia:Canadian Wikipedians' notice board/ArticlesNeedingDisambiguation2015-08-17 and were posted also within a scrolling window in discussion at the WikiProject Canada talk page. --Doncram (talk) 19:50, 24 August 2015 (UTC) link adjusted. DexDor (talk) 06:58, 29 March 2016 (UTC)

Detecting pages that have an anomalous combination of namespace and category/ies

PetScan can be used to find pages that are in a category (or combination of categories) that is not appropriate for pages in a particular namespace - e.g. Wikipedia administration pages that are in a category that should only contain encyclopedic articles. This can then be fixed (e.g. by moving an article to the correct namespace or by editing a discussion to insert a missing ":" where a category is being referred to). The first step in this process is to identify (using PetScan) categories that cause incorrect categorization (e.g. Wikipedia administration categories that are in article categories).

DexDor (English Wikipedia[1])

Find uncategorized photo contributions in Commons in a given language

(Based on Grants:Learning patterns/Treasures or landmines: detecting uncategorized, language-specific uploads in Commons. See the motivation and full explanation there! Thank you to wikimedia user User:Spiritia and other contributors/commenters there for contributing this! )

Run a query using PetScan with the following settings:

Language = commons
Project = wikimedia
Depth = 1
Categories = Media needing categories
Combination = ☑ Subset
Namespaces = ☑ File
Templates : Has all of these templates = <your language code> 
Format:  ☑ Extended data for files     ☑ File usage data

The English language code is "en"; the Romanian language code is "ro". To find uncategorized photos uploaded by users using Romanian language, a version of the query (with html output, and without autorun) is:

https://petscan.wmflabs.org/?language=commons&project=wikimedia&depth=1&categories=Media+needing+categories&ns%5B6%5D=1&templates_yes=ro&ext_image_data=1&file_usage_data=1

As of 15 March 2016, after hitting "run" the query requires about 105 seconds to finish, and yields 1748 uncategorized photos.

Notes:

  1. The "Language =" field is not used to select the desired language; the desired language code is set in the "Template" field instead.
  2. The language code is case-sensitive in the query! So for example use "ro" not "RO".
  3. To generate the results there, Format: ☑ Wiki was chosen, instead of the default output of Html.

Enjoy! Thanks again to User:Spiritia especially!

Items with no statements

The option "Has no statements" can be used to find:

d:Help:Import Template:Bio from itwiki

Steps to import the template, some with PetScan.

Add your example here...

See also