PetScan

From Meta, a Wikimedia project coordination wiki
Jump to navigation Jump to search
This page is a translated version of the page PetScan and the translation is 100% complete.

Other languages:
Bahasa Indonesia • ‎Deutsch • ‎English • ‎dansk • ‎español • ‎français • ‎italiano • ‎polski • ‎suomi • ‎čeština • ‎русский • ‎українська • ‎العربية • ‎مصرى • ‎中文 • ‎日本語

PetScanのマニュアル

サンプルを導入しました!情報は表に整理してあります!

PetScanは強力な検索ツールです。クエリはPetScanの提出用フォーム上に記入します。合わせてこのツールの背景にある根拠を確認してください。

はじめに

PetScanはWikipedia (および関連プロジェクト) やWikidataの項目を対象に一覧を作成できます。例えば、PetScanの「カテゴリ」 (最左のタブ) を使って特定カテゴリに属する全てのページを一覧化したり、「ページ情報」 (左から2番目のタブ) で名前空間、サイズ、最終編集日などの条件を指定するとページの一覧化ができます。また、カテゴリやページ情報を指定して暫定的に作成した一覧同士を組み合わせるなどして、新たに高度な検索を行うには「その他のソース」 (左から4番目のタブ) を使います。使用できるソースは以下の通りです。

ウィキペディアやウィキメディアの項目

「カテゴリ」「ページ情報」「テンプレートとリンク」のいずれかのタブを使います。特定のカテゴリとその下位カテゴリに属するページや、特定のテンプレートを使用しているページ、特定ページのリンク元・リンク先を抽出できます。さらに検索結果を特定の名前空間に限定したり、編集内容がBotなのか人なのかを指定したり、最終編集日で絞り込むこともできます。これら3つのタブを使った検索結果にはPetScan ID (PSID) が自動で採番されて保存され、同じPSIDを指定すれば結果を再利用・再閲覧できます。

その他のソース

「その他のソース」タブでは、ウィキデータSPARQL(WDQS)クエリやPagePileリストなど、いくつかのソースを追加することができます。どのようにソースを統合するかの指定もできます。デフォルトでは、サブセット(全てのソースに出現する項目だけ)を最終的な結果に含めます。

ウィキデータ

「ウィキデータ」(左から5番目のタブ) を使うと、たとえば概要説明が空欄になっているウィキデータ項目だけを検索して一覧表示することができます。またPetScan上で特定条件に一致したウィキデータの項目にラベルを加筆すれば、その加筆結果がウィキデータに反映されます。

出力

「出力」 (最右のタブ) では、一覧検索結果を出力するファイル形式 (HTML、Wiki記法、PagePileなど) を指定することもできます。また、正規表現を使ってWikipediaのページ名やWikidataのラベル名を絞り込み検索するなど、高度な検索条件も使用できます。さらに未執筆 (赤リンク) の項目を検索結果に表示するかも指定できます。

条件の指定

指定可能な条件は以下のとおり。

条件欄 意味 既定値 注記
言語
Language
プロジェクトの言語コードを選んでください。例えば、日本語は「ja」、英語は「en」、ドイツ語は「de」です。ウィキメディア・コモンズは「コモンズ」を選んでください。 "en"
プロジェクト
Project
検索するウィキメディアプロジェクト(ウィキペディア、ウィクショナリーなど) "wikipedia"
カテゴリ深度
Depth
検索するカテゴリーツリーの深さ。0にするとサブカテゴリを検索しない。 "0"
カテゴリ
Categories
カテゴリのリスト。冒頭の「Category:」は除いてカテゴリそのもののみ書く。1行1カテゴリを記述し、複数カテゴリを組み合わせて検索する際には改行する。 カテゴリ名に続けて'|'(パイプ文字)と数字を書くと、複数カテゴリを組み合わせて検索する際、カテゴリ単位でどの深度まで下位カテゴリを含めるか、個別に指定できる。この方法で指定した深度は、「カテゴリ深度」欄で全体指定した数値よりも優先して反映される。
除外カテゴリ
Negative Categories
上記と同様のカテゴリのリスト。指定されたカテゴリに含まれる項目は除外される。
組み合わせ
Combination
上記のカテゴリの使い方:
*カテゴリのリスト: 下位カテゴリをまとめる
*Subset: 全カテゴリツリーに属するページすべてが対象
*Union: 最低1件のカテゴリに属するページすべてが対象
*Difference: 単一のカテゴリツリーにのみ属するページすべてが対象
*最低 (N) 件: 最低 N 件以上のカテゴリツリーに属するページすべてが対象

現状で利用できるオプションは "subset" と "union"。

"subset"
名前空間
Namespaces
検索対象の名前空間 記事
Articles
リダイレクト
Redirects
いずれか
テンプレート
Templates
ページの絞り込みは3個のチェックボックスから選択。
  • 最初のボックス:次のテンプレートをすべて含む (AND検索 contain all of the given templates)
  • 2番目のボックス:次のテンプレートのいずれかを含む (OR検索 contain one of the given templates)
  • 3番目のボックス:次のテンプレートを含まない (NOT検索 contain none of the given templates)

記入はテンプレート名の冒頭の文字列「Template:」は省略。1行に記入するテンプレート名は1件だけで、改行してから次を記入。各ボックスの下には付帯条件としてチェックボックス「代わりにトーク(ノート)ページを使用」Use talk page instead を置いてある。

「Template:」のテンプレート名前空間上にあるテンプレートのみが検索対象となる。「User:」の利用者名前空間上は対象外。ウィキメディアコモンズでは「Creator:」または「Institution:」の名前空間上にテンプレートが存在するが、これらは対象外
リンク元:
Linked from:
最終編集者
Last edit
最終編集者を指定できる。Botか、IPによる匿名編集か、またフラグ付きか。 いずれか、いずれか、いずれか
最終編集日
Last change
最終編集日時は年月日時分秒の順に、数字のみYYYYMMDDHHMMSS形式 (短縮表記可) で指定。 新規作成ページfirst change を抽出するには Only pages created during the above time window「上記の期間に作成されたページのみ表示」のチェックボックスをON
サイズ
Size
ファイルサイズ (範囲指定可、単位はバイト)。 特定サイズ以上または以下で絞り込み検索できる。
リンク
Links
特定ページに含まれる内部リンク数を指定。 特定リンク数以上または以下で絞り込み検索できる。
赤リンク
Redlinks
トップカテゴリ
Top categories
未実装。
ソート
Sort
未実装 (検索結果出力時に並べる順番を指定)
手動のリスト
Manual list
特定のプロジェクトから (接頭辞に名前空間名を使用して) ページの題名もしくはウィキデータのアイテム名をリストにまとめる プロジェクトを特定する部分が要注意で、コードを次の要領で正確に指定する:
  • ウィキペディアの英語版 : enwiki
  • ウィキソースのドイツ語版: dewikisource または dewikisourcewiki
  • ウィキニュースの英語版: enwikinews
  • ウィキデータ: wikidatawiki
ウィキデータ
Wikidata
一致するウィキデータ項目を抽出。
ファイル形式
Format
検索結果の出力ファイル形式はHTML (ウェブページ)、CSV (コンマ区切り)、TSV (タブ区切り)、WIKI (ウィキテーブル)、PHP、XMLのいずれかを選択可能。
実行
Do it!
指定した条件で検索を実施するボタン。

留意事項

PetScan ID (PSID)

検索を行うたびに、自動的に (かつ匿名で!) 検索結果にIDが採番されます (2016年4月4日リリース機能)。このPSIDを使うとできることは以下の通りです。

  • PSIDを用いて、WD-FISTのような別ツールにPetScanの検索結果を流用できます。
  • "短縮URL": https://petscan.wmflabs.org/?psid=PSIDの引数として使用されます。
  • 過去の検索結果を使って、オプション指定を追加するなどカスタマイズ再検索ができます。たとえばhttps://petscan.wmflabs.org/?format=wiki&psid=PSIDとすれば、検索結果は過去と同じですが、出力形式をデフォルト設定のHTMLからウィキテーブル形式に変更できます。

注意事項:

  • PSIDが保存するのは検索条件であり、検索結果ではありません (つまり過去の検索実施以降に新規ページが作成されれば、再度PSIDを使って同じ検索を行っても自動で新規ページが検索結果に含まれます)。
  • 対象ページが多岐にわたるなど検索条件のサイズが大きい場合はPSIDが自動作成されず、画面上にも表示されません。
  • チェックボックスが空 (白色) のまま検索した結果にも、ウィキデータになら該当データが存在する可能性があります。
  • ショートカットを作成する際に、接頭辞にpetscan:を付けて内部リンクを貼ることができます (例: [[petscan:PSID]])。

ウィキペディアの記事がウィキデータに未登録の場合に項目を作成する手順 (Creator 機能)

  • クエリを作成し、ウィキペディア (もしくはウィキデータ非対応プロジェクト) からページを抽出するか、「その他のソース/手動リスト」Other sources/Manual list欄にリストをコピペ。
  • 「ページプロパティ」Page properties欄では「Redirects=No」を選択 この処理は自動化されたので不要。もし、どうしてもリダイレクトページを検出結果に加えたい場合は、「Redirects=No」を選択。
  • 「ウィキデータ」Wikidata タブに移り、オプションは「項目のないページに限定」Only pages without itemを選択。
  • クエリを実行
  • 提出したリクエストの「結果」resultsヘッダの横には、ほかの要素も表示される (もしWiDaRにログインしていると該当するリンクを表示。)
  • ウィキデータ上に、完全一致するラベルや別名の項目がない場合、自動でチェックが付く。
  • この段階で、必要に応じてチェックボックスにマークを付けるか付けないか操作できる。
  • 「文」statements欄にオプションで条件を入力可能。すると、その後の新規項目すべてに既定でそれらを記入。たとえば人物項目のみ作成する場合、条件は「P31:Q5」と入力し、この書き方 (1行に1件、改行区切り) で複数の条件を指定できる。注意点としてPとQは必ず大文字表記にしないと正しく処理せず、エラーメッセージも表示されない。
  • 緑色の「コマンド処理」Process commandsボタンを押す。チェックしたすべてのページに対して、新規項目作成 (と文の追加) が完了する。
  • 処理途中で赤色野母端を押すと中止できる (ボタンは処理開始後に表示される。)
  • 新規項目が1件作成され文の記入が終わると、当該のページ列はインターフェイスから完全に除去される。
  • 残りのエントリはウィキデータ項目の検索とウィキペディアのページとの照合を手動で実行する。英語版ウィキペディアのサンプル: 分野別の生物学者 (クエリ処理時間は30秒以内の見込みだが、このリンクサンプルをしばらく誰も利用していない場合は検出結果が表示されない可能性がある。)

ウィキデータの項目で文の追加と除去の手順

ウィキデータ項目の文 (statement) の追加と除去はPetScanで実行できます。まず初めに「その他のソース -> Wikiを利用」で必ず「Wikidata」を指定してください。すると画面が遷移して項目番号の横にコマンドボックスが表示され、それを使うと上記の説明の作業を開始します。

リファラ

(V2 限定) 他のツール上で利用者がPetScanのクエリを作成するには、リファラとしてパラメータのreferrer_urlreferrer_nameを通します (規定ではreferrer_url。) referrer_urlには必ず{PSID}文字列を当て、利用者にはPSIDとして見せます。クエリ実行後、利用者のページ上部にメッセージボックスを開き、referrer_url (変形させたPSID) リンク経由で元のツールへ戻るように指示します。

特定のウィキプロジェクトの記事

このマニュアルのトークページに、リクエストがありました。メイン名前空間で「イギリスの地理プロジェクト」WikiProject UK geographyに該当するすべての記事を求めるとします。PetScanの既定の提出用フォームを使い、「カテゴリ」Categories列の1件目に「WikiProject UK geography」と入力。その下の選択肢から「トークページを使用」を選びます。 クエリの記入例はこちら ページ下部の「実行」Do it!ボタンを押します。2015年8月16日時点のクエリ処理時間は1.5秒、検出結果は2万1,408記事でした。ただし結果の表示領域がクエリの提出フォームよりになり (画面上に表示されるものの)、スクロールしないと閲覧できませんでした。

ウィキプロジェクト内の曖昧さ回避

曖昧さ回避に取り組む編集者には、地域版のウィキプロジェクトの参加者をリスト化して支援を働きかけようとする事例が見られ、例えばウィキプロジェクト・カナダでは顕著です。PetScanのレポート機能を利用し、指定したウィキプロジェクト内から曖昧さ回避リンクを貼った記事をすべて検出できます。この場合の条件は以下の通りです。

  1. 曖昧さ回避リンクのあるページは「Category:All articles with links needing disambiguation」に集計されるので、PetScanのカテゴリ欄には「All articles with links needing disambiguation」をコピペ。
  2. 規定の「カテゴリ深度」(Depth) は 9 であり、検索対象は上位の「曖昧さ回避が必要」 (needing disambiguation) から9段階深い下位カテゴリまで含まれる (この事例でそこまで深い必要はないものの無害。)
  3. ウィキプロジェクト・カナダの事例では記事のトークページに「Template:WikiProject Canada」を貼る決まりなので、PetScanではOR検索「次のテンプレートのいずれかを含む」欄の指定は「WikiProject Canada」を記入後、すぐ下の限定条件で「利用者トークページに限定」(Use talk pages instead) を指定。
  4. ここで検出対象を正規のページに限定し、曖昧さ回避ページを除外する指定が必要で、「テンプレート:曖昧さ回避」を貼ったページが不要だから、PetScanの「以下のいずれのテンプレートも含まない」欄に「曖昧さ回避」を指定。ただし、前の事例と異なり限定条件「Use talk pages instead」は不要なのでチェックマークを外す。
  • これらの条件はこちらのPetScanクエリ要求フォームの各欄を埋めて取得します。ページ最下部の「Do it!」ボタンでクエリを実行。
  • 2015年8月25日時点のクエリ実行結果には (訳注:カナダ現地時間?)、処理時間は31秒、検出結果は記事255件でした。標準の出力形式を「HTML」に指定した場合、結果表示は PetScanクエリ要求フォームの〈下〉であり、画面を見た感じではクエリが終わったようには見えません。スクロールして画面の下部を表示させないと、クエリ結果が表示されないのです!
  • 抽出結果をウィキ表形式で取り出すとウィキプロジェクトの下位ページで共有できることから、クエリ要求を改訂して「書式」(Format) 欄に選択肢「WIKI」を設ける方法があります。そうすると結果はウィキ表のマークアップを使い、画面上のPetScanクエリ要求フォームを置換します。
  • 曖昧さ回避の作業者の利便性を考慮したリスト抽出を設定するには、特定の項目をクリックするとDabSolverが作動するようにした方が良いので、以下のような段階処理を検討してください。検出結果の書式を複数タブ形式に変えて保存後、Exce上に取り込んで加工。カラム単位に検出結果を単文でまとめ書きし、それぞれコピペして使用。その転写先は英語版ウィキペディア内の告知ページ (2015年8月17日) で、また別途、スクロール式の窓を使うdiscussion at the WikiProject Canada talk page (ウィキプロジェクト・カナダのトークページの協議) にも掲出しました。 --Doncram (talk) 19:50, 24 August 2015 (UTC) link adjusted. DexDor (talk) 06:58, 29 March 2016 (UTC)

名前空間名とカテゴリの組み合わせが異常なページの野検出

PetScanを利用し、特定の名前空間にあるページで特定 (もしくは複数) のカテゴリがふさわしくないページ群を検出できます - たとえばウィキペディアの管理系のページで百科事典項目用のカテゴリが付いたものを抽出。その後、修正 (正しい名前空間への改名/移動もしくはトークページの協議を修正してカテゴリ名に言及した箇所に脱落した半角コロン「:」を記入するなど)。このプロセスではまず最初に、まちがった分類に誘導する (たとえばウィキペディア管理系なのに記事名前空間カテゴリに置かれた) カテゴリの特定 (PetScanでクエリ実行) をします。

言語指定によりコモンズの写真からカテゴリ未指定を探す

(サンプルとして参照した助成金ページは、コモンズで言語指定はしてあるがカテゴリ未指定のアップロードの検出 Grants:Learning patterns/Treasures or landmines: detecting uncategorized, language-specific uploads in Commons を扱っており、リンク先でその背景の考え方と詳しい説明をご参照ください。User:Spiritiaさんほか、ウィキメディアの利用者など、投稿者・コメント寄稿者の皆さん、ありがとうございます。)

以下の設定でPetScan クエリを実行します。

Language = commons
Project = wikimedia
Depth = 1
Categories = Media needing categories (カテゴリ未指定のファイル)
Combination = ☑ Subset
Namespaces = ☑ File
Templates : Has all of these templates = <your language code> (指定のテンプレートすべて)
Format:  ☑ Extended data for files (ファイルの拡張データ)    ☑ File usage data (ファイル使用状況)

言語コードは英語「en」、ルーマニア語「ro」です。ルーマニア語話者がアップロードしてカテゴリ未定の画像を検出するクエリの一例は次のとおりです(出力形式はHTML、自動処理autorunは無効) 。

クエリ文のサンプル

「run」実行ボタンを押したところ、2016年3月15日付のクエリ処理時間はおよそ105秒、カテゴリ未指定の画像 1748 点を抽出しました

注記:

  1. 言語指定をする場合は、「Language =」欄ではなく、テンプレート「Template」欄に言語コードを記入します。
  2. クエリでは言語コードに大文字が使えません。例えばルーマニア語なら「ro」が正しく「RO」は間違いです。
  3. 言語指定の場合、検索結果の出力書式「Format:」欄では、既定のHtmlではなく、Wikiに☑マークを付けたかどうか確認します。

準備完了です! 改めてUser:Spiritiaさんに感謝!

文が未指定の項目

オプションの使い方では文が未設定「Has no statementsを指定すると次の検出ができます。

  • ウィキペディアの特定のカテゴリにあり文が未設定 (サンプル: 英語版ウィキペディアのカテゴリでアメリカ地理のスタブen:Category:United States geography stubs の場合)
  • 特定の言語版ウィキペディアにある、文が未設定の項目のすべて
(サンプル: "sowiki" の場合)

イタリア語版WPからTemplate:Bio をインポートする方法

PetScanを利用してテンプレートをインポートする手順。

SPARQL クエリを利用して特定のプロジェクト関連のサイトリンクを抽出

  • 「Categories」タブで対象のプロジェクトを指定。例えばドイツ語版ウィキペディアはLanguage欄はdeProject欄はwikipediaと記入。
  • その他のソースOther sources欄に使いたいSPARQLクエリを記入
  • 使用するウィキ指定のUse wiki欄では、必ずカテゴリFrom categoriesオプションを選択。
  • 実行するには Do itを押す。

この機能の便利さは、SPARQLクエリで特定のページ群を抽出し、ページビューを表示できる点です。また結果は ページパイルPagepileに保存できること (出力先タブ Outputから表示)、付番されたページパイルIDを〔まとめビュー解析〕Massviews Analysisにかけられることです (ソースSource欄のドロップダウンからページパイル「Page Pile」を選択。)


サンプルをここに追加...

関連項目