PetScan

From Meta, a Wikimedia project coordination wiki
Jump to navigation Jump to search
This page is a translated version of the page PetScan and the translation is 88% complete.

Other languages:
Bahasa Indonesia • ‎Deutsch • ‎English • ‎dansk • ‎español • ‎français • ‎italiano • ‎polski • ‎suomi • ‎čeština • ‎русский • ‎українська • ‎العربية • ‎مصرى • ‎中文 • ‎日本語

PetScanのマニュアル

サンプルを導入しました!情報は表に整理してあります!

PetScanは強力な検索ツールです。クエリはPetScanの提出用フォーム上に記入します。合わせてこのツールの背景にある根拠を確認してください。

はじめに

PetScanはWikipedia (および関連プロジェクト) やWikidataの項目を対象に一覧を作成できます。例えば、PetScanの「カテゴリ」 (最左のタブ) を使って特定カテゴリに属する全てのページを一覧化したり、「ページ情報」 (左から2番目のタブ) で名前空間、サイズ、最終編集日などの条件を指定するとページの一覧化ができます。また、カテゴリやページ情報を指定して暫定的に作成した一覧同士を組み合わせるなどして、新たに高度な検索を行うには「その他のソース」 (左から4番目のタブ) を使います。使用できるソースは以下の通りです。

ウィキペディアやウィキメディアの項目

「カテゴリ」「ページ情報」「テンプレートとリンク」のいずれかのタブを使います。特定のカテゴリとその下位カテゴリに属するページや、特定のテンプレートを使用しているページ、特定ページのリンク元・リンク先を抽出できます。さらに検索結果を特定の名前空間に限定したり、編集内容がBotなのか人なのかを指定したり、最終編集日で絞り込むこともできます。これら3つのタブを使った検索結果にはPetScan ID (PSID) が自動で採番されて保存され、同じPSIDを指定すれば結果を再利用・再閲覧できます。

その他のソース

「その他のソース」タブでは、ウィキデータSPARQL(WDQS)クエリやPagePileリストなど、いくつかのソースを追加することができます。どのようにソースを統合するかの指定もできます。デフォルトでは、サブセット(全てのソースに出現する項目だけ)を最終的な結果に含めます。

ウィキデータ

「ウィキデータ」(左から5番目のタブ) を使うと、たとえば概要説明が空欄になっているウィキデータ項目だけを検索して一覧表示することができます。またPetScan上で特定条件に一致したウィキデータの項目にラベルを加筆すれば、その加筆結果がウィキデータに反映されます。

出力

「出力」 (最右のタブ) では、一覧検索結果を出力するファイル形式 (HTML、Wiki記法、PagePileなど) を指定することもできます。また、正規表現を使ってWikipediaのページ名やWikidataのラベル名を絞り込み検索するなど、高度な検索条件も使用できます。さらに未執筆 (赤リンク) の項目を検索結果に表示するかも指定できます。

条件の指定

指定可能な条件は以下のとおり。

条件欄 意味 既定値 注記
言語
Language
プロジェクトの言語コードを選んでください。例えば、日本語は「ja」、英語は「en」、ドイツ語は「de」です。ウィキメディア・コモンズは「コモンズ」を選んでください。 "en"
プロジェクト
Project
検索するウィキメディアプロジェクト(ウィキペディア、ウィクショナリーなど) "wikipedia"
カテゴリ深度
Depth
検索するカテゴリーツリーの深さ。0にするとサブカテゴリを検索しない。 "0"
カテゴリ
Categories
カテゴリのリスト。冒頭の「Category:」は除いてカテゴリそのもののみ書く。1行1カテゴリを記述し、複数カテゴリを組み合わせて検索する際には改行する。 カテゴリ名に続けて'|'(パイプ文字)と数字を書くと、複数カテゴリを組み合わせて検索する際、カテゴリ単位でどの深度まで下位カテゴリを含めるか、個別に指定できる。この方法で指定した深度は、「カテゴリ深度」欄で全体指定した数値よりも優先して反映される。
除外カテゴリ
Negative Categories
上記と同様のカテゴリのリスト。指定されたカテゴリに含まれる項目は除外される。
組み合わせ
Combination
上記のカテゴリの使い方:
*カテゴリのリスト: 下位カテゴリをまとめる
*Subset: 全カテゴリツリーに属するページすべてが対象
*Union: 最低1件のカテゴリに属するページすべてが対象
*Difference: 単一のカテゴリツリーにのみ属するページすべてが対象
*最低 (N) 件: 最低 N 件以上のカテゴリツリーに属するページすべてが対象

現状で利用できるオプションは "subset" と "union"。

"subset"
名前空間
Namespaces
検索対象の名前空間
The namespaces to use as potential pages
記事
Articles
リダイレクト
Redirects
いずれか
テンプレート ページの絞り込みは3個のチェックボックスから選択。
  • 最初のボックス:次のテンプレートをすべて含む (AND検索 contain all of the given templates)
  • 2番目のボックス:次のテンプレートのいずれかを含む (OR検索 contain one of the given templates)
  • 3番目のボックス:次のテンプレートを含まない (NOT検索 contain none of the given templates)

記入は1行あたりテンプレート名1件とし、冒頭の文字列「Template:」は省略。各ボックスの下には付帯条件としてチェックボックス「代わりにトーク(ノート)ページを使用」Use talk page instead が配置されている。

「Template:」のテンプレート名前空間上にあるテンプレートのみが検索対象となる。「User:」の利用者名前空間上は対象外。ウィキメディアコモンズでは「Creator:」または「Institution:」の名前空間上にテンプレートが存在するが、これらは対象外
リンク元:
最終編集者
Last edit
最終編集者を指定できる。Botか、IPによる匿名編集か、またフラグ付きか。 いずれか、いずれか、いずれか
最終編集日
Last change
YYYYMMDDHHMMSS形式 (短縮表記可) で最終編集日時を指定。 新規作成ページfirst change を抽出するには Only pages created during the above time window「上記の期間に作成されたページのみ表示」のチェックボックスをON
サイズ
Size
ファイルサイズ (範囲指定可、単位はバイト)。 特定サイズ以上または以下で絞り込み検索できる。
リンク 特定ページに含まれる内部リンク数を指定。 特定リンク数以上または以下で絞り込み検索できる。
赤リンク
トップカテゴリ 現時点で未実装の機能。
ソート 現時点で未実装の機能。検索結果出力時に並べる順番を指定。
手動のリスト 特定のプロジェクトから (接頭辞に名前空間名を使用して) ページの題名もしくはウィキデータのアイテム名をリストにまとめる プロジェクトを特定する部分が要注意で、コードを次の要領で正確に指定する:
  • ウィキペディアの英語版 : enwiki
  • ウィキソースのドイツ語版: dewikisource または dewikisourcewiki
  • ウィキニュースの英語版: enwikinews
  • ウィキデータ: wikidatawiki
ウィキデータ 一致するウィキデータ項目を抽出。
ファイル形式 検索結果の出力ファイル形式はHTML (ウェブページ)、CSV (コンマ区切り)、TSV (タブ区切り)、WIKI (ウィキテーブル)、PHP、XMLのいずれかを選択可能。
実行 指定した条件で検索を実施するボタン。

留意事項

PetScan ID (PSID)

検索を行うたびに、自動的に (かつ匿名で!) 検索結果にIDが採番されます (2016年4月4日リリース機能)。このPSIDを使うとできることは以下の通りです。

  • PSIDを用いて、WD-FISTのような別ツールにPetScanの検索結果を流用できます。
  • "短縮URL": https://petscan.wmflabs.org/?psid=PSIDの引数として使用されます。
  • 過去の検索結果を使って、オプション指定を追加するなどカスタマイズ再検索ができます。たとえばhttps://petscan.wmflabs.org/?format=wiki&psid=PSIDとすれば、検索結果は過去と同じですが、出力形式をデフォルト設定のHTMLからウィキテーブル形式に変更できます。

注意事項:

  • PSIDが保存するのは検索条件であり、検索結果ではありません (つまり過去の検索実施以降に新規ページが作成されれば、再度PSIDを使って同じ検索を行っても自動で新規ページが検索結果に含まれます)。
  • 対象ページが多岐にわたるなど検索条件のサイズが大きい場合はPSIDが自動作成されず、画面上にも表示されません。
  • チェックボックスが空 (白色) のまま検索した結果にも、ウィキデータになら該当データが存在する可能性があります。
  • ショートカットを作成する際に、接頭辞にpetscan:を付けて内部リンクを貼ることができます (例: [[petscan:PSID]])。

ウィキペディアの記事がウィキデータに未登録の場合に項目を作成する手順 (Creator 機能)

  • Set up a query that returns a list of Wikipedia (or other, non-Wikidata project) pages, or paste a list into "Other sources/Manual list"
  • Under the "Page properties" tab, you should select "Redirects=No" This is done automatically now; you can change it back if you really want redirects in your list!
  • Under the "Wikidata" tab, select "Only pages without item" for the "Wikidata" option
  • Run query
  • Your results will have additional elements next to the "results" header (unless you are not logged into WiDaR, in which case you will see an appropriate link instead)
  • All pages for which there is no exact match in any label or alias on Wikidata are checked by default.
  • You can check/uncheck boxes manually now, if required.
  • You can add default statements into the statements box, which will be added to all your new items. So, if you only create items for people, add "P31:Q5". You can add multiple statements this way (one per line). Do note that the case of P/Q needs to be in upper case — otherwise it will fail quietly.
  • Click the green "Process commands" button. New items will be created (and statements added) for all checked pages.
  • You can always abort the process via the red button (appears once the process has started).
  • Once an item has been created, and all statements have been added, the respective page row will be removed completely from the interface.
  • Use the remaining entries to manually search and match the Wikipedia pages to existing Wikidata items, where possible.

Example: Biologists by field of research on English Wikipedia (query will take ~30 seconds; might not show any results, depending on how recently someone used this example link to create items)

ウィキデータの項目で文の追加と除去の手順

ウィキデータ項目の文 (statement) の追加と除去はPetScanで実行できます。まず初めに「その他のソース -> Wikiを利用」で必ず「Wikidata」を指定してください。すると画面が遷移して項目番号の横にコマンドボックスが表示され、それを使うと上記の説明の作業を開始します。

リファラ

(V2 限定) 他のツール上で利用者がPetScanのクエリを作成するには、リファラとしてパラメータのreferrer_urlreferrer_nameを通します (規定ではreferrer_url。) referrer_urlには必ず{PSID}文字列を当て、利用者にはPSIDとして見せます。クエリ実行後、利用者のページ上部にメッセージボックスを開き、referrer_url (変形させたPSID) リンク経由で元のツールへ戻るように指示します。

特定のウィキプロジェクトの記事

A request on the Talk page of this Manual: Find all mainspace articles within "WikiProject UK geography". Starting with a default PetScan submission form, just add "WikiProject UK geography" to the first box of the Categories row, and, just below, select "Use talk pages instead". Here is the query filled out. Hit "Do it!" at bottom. When run on 16 August 2015, the query required 1.5 seconds to run, and yielded a list of 21,408 articles. The list appears BELOW the submission form (which remains on your screen), so you have to scroll down to see the results.

ウィキプロジェクト内の曖昧さ回避

曖昧さ回避に取り組む編集者には、地域版のウィキプロジェクトの参加者をリスト化して支援を働きかけようとする事例が見られ、例えばウィキプロジェクト・カナダでは顕著です。PetScanのレポート機能を利用し、指定したウィキプロジェクト内から曖昧さ回避リンクを貼った記事をすべて検出できます。この場合の条件は以下の通りです。

  1. 曖昧さ回避リンクのあるページは「Category:All articles with links needing disambiguation」に集計されるので、PetScanのカテゴリ欄には「All articles with links needing disambiguation」をコピペ。
  2. 規定の「カテゴリ深度」(Depth) は 9 であり、検索対象は上位の「曖昧さ回避が必要」 (needing disambiguation) から9段階深い下位カテゴリまで含まれる (この事例でそこまで深い必要はないものの無害。)
  3. ウィキプロジェクト・カナダの事例では記事のトークページに「Template:WikiProject Canada」を貼る決まりなので、PetScanではOR検索「次のテンプレートのいずれかを含む」欄の指定は「WikiProject Canada」を記入後、すぐ下の限定条件で「利用者トークページに限定」(Use talk pages instead) を指定。
  4. ここで検出対象を正規のページに限定し、曖昧さ回避ページを除外する指定が必要で、「テンプレート:曖昧さ回避」を貼ったページが不要だから、PetScanの「以下のいずれのテンプレートも含まない」欄に「曖昧さ回避」を指定。ただし、前の事例と異なり限定条件「Use talk pages instead」は不要なのでチェックマークを外す。
  • これらの条件はこちらのPetScanクエリ要求フォームの各欄を埋めて取得します。ページ最下部の「Do it!」ボタンでクエリを実行。
  • 2015年8月25日時点のクエリ実行結果には (訳注:カナダ現地時間?)、処理時間は31秒、検出結果は記事255件でした。標準の出力形式を「HTML」に指定した場合、結果表示は PetScanクエリ要求フォームの〈下〉であり、画面を見た感じではクエリが終わったようには見えません。スクロールして画面の下部を表示させないと、クエリ結果が表示されないのです!
  • 抽出結果をウィキ表形式で取り出すとウィキプロジェクトの下位ページで共有できることから、クエリ要求を改訂して「書式」(Format) 欄に選択肢「WIKI」を設ける方法があります。そうすると結果はウィキ表のマークアップを使い、画面上のPetScanクエリ要求フォームを置換します。
  • 曖昧さ回避の作業者の利便性を考慮したリスト抽出を設定するには、特定の項目をクリックするとDabSolverが作動するようにした方が良いので、以下のような段階処理を検討してください。検出結果の書式を複数タブ形式に変えて保存後、Exce上に取り込んで加工。カラム単位に検出結果を単文でまとめ書きし、それぞれコピペして使用。その転写先は英語版ウィキペディア内の告知ページ (2015年8月17日) で、別途、スクロール式の窓を使うdiscussion at the WikiProject Canada talk page (ウィキプロジェクト・カナダのトークページの協議) にも掲出しました。 --Doncram (talk) 19:50, 24 August 2015 (UTC) link adjusted. DexDor (talk) 06:58, 29 March 2016 (UTC)

Detecting pages that have an anomalous combination of namespace and category/ies

PetScan can be used to find pages that are in a category (or combination of categories) that is not appropriate for pages in a particular namespace - e.g. Wikipedia administration pages that are in a category that should only contain encyclopedic articles. This can then be fixed (e.g. by moving an article to the correct namespace or by editing a discussion to insert a missing ":" where a category is being referred to). The first step in this process is to identify (using PetScan) categories that cause incorrect categorization (e.g. Wikipedia administration categories that are in article categories).

Find uncategorized photo contributions in Commons in a given language

(Based on Grants:Learning patterns/Treasures or landmines: detecting uncategorized, language-specific uploads in Commons. See the motivation and full explanation there! Thank you to wikimedia user User:Spiritia and other contributors/commenters there for contributing this! )

Run a query using PetScan with the following settings:

Language = commons
Project = wikimedia
Depth = 1
Categories = Media needing categories
Combination = ☑ Subset
Namespaces = ☑ File
Templates : Has all of these templates = <your language code> 
Format:  ☑ Extended data for files     ☑ File usage data

言語コードは英語「en」、ルーマニア語「ro」です。ルーマニア語話者がアップロードしてカテゴリ未定の画像を検出するクエリの一例は次のとおりです(出力形式はHTML、自動処理autorunは無効) 。

クエリ文のサンプル

「run」実行ボタンを押したところ、2016年3月15日付のクエリ処理時間はおよそ105秒、カテゴリ未指定の画像 1748 点を抽出しました

Notes:

  1. The "Language =" field is not used to select the desired language; the desired language code is set in the "Template" field instead.
  2. The language code is case-sensitive in the query! So for example use "ro" not "RO".
  3. To generate the results there, Format: ☑ Wiki was chosen, instead of the default output of Html.

Enjoy! Thanks again to User:Spiritia especially!

Items with no statements

The option "Has no statements" can be used to find:

イタリア語版WPからTemplate:Bio をインポートする方法

PetScanを利用してテンプレートをインポートする手順。

Get the sitelinks for a certain project from a SPARQL query

  • Indicate the project on the 'Categories' tab. E.g. de for Language and wikipedia in Project to use the German language edition of Wikipedia.
  • In Other sources enter your SPARQL query
  • Make sure to select From categories from the Use wiki options
  • Press Do it

This could be useful to get the pageviews of a certain set of pages, based on a SPARQL query. You can save this to a Pagepile (check the Output tab), then enter that Pagepile ID in Massviews Analysis (select 'Page Pile' from the Source dropdown).


サンプルをここに追加...

関連項目