Jump to content

PetScan

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page PetScan and the translation is 97% complete.
Coolest Tool Award 2022 logo
PetScan

2022 Coolest Tool
Award Winner

in the category
Reusable

PetScan — мощный инструмент для создания запросов. Запрос создаётся путём заполнения формы в PetScan. Также ознакомьтесь с обоснованием использования этого инструмента.

Введение

PetScan — инструмент, который позволяет пользователям извлекать данные, создавать списки страниц Википедии (и связанных с ними проектов) или элементов Викиданных, которые соответствуют определенным критериям, таким как все страницы в определенной категории или все элементы с определенным свойством, извлекать и анализировать данные из проектов Викимедиа. PetScan также может различными способами объединять некоторые временные списки (здесь называемые «источниками»), чтобы создать новый. Источники включают:

Страницы из Википедии или иных сайтов Викимедиа

Они определены на вкладках «Категории», «Свойства страницы» и «Шаблоны и ссылки». Вы можете запрашивать страницы в деревьях категорий, с определенными шаблонами или ссылками с / на определенные страницы; ограничьте результаты определёнными пространствами имен, изменениями, внесёнными ботами / людьми, недавними изменениями / созданием страниц и т. д. Эти три вкладки представляют собой прежнюю функциональность CatScan2. Результат их запроса впоследствии сохраняется как «источник категории» (category source).

Другие источники

На этой вкладке вы можете добавить дополнительные источники, такие как запросы Wikidata SPARQL (WDQS) или списки PagePile. Вы также можете определить, как объединить несколько источников; по умолчанию в конечном результате возвращается подмножество (то есть только страницы, которые встречаются во всех источниках). Вы также можете указать, на какую вики вы хотите, чтобы ваш список указывал, например если вы объедините результаты Википедии и Викиданных.

Викиданные

На этой вкладке вы можете аннотировать или «фильтровать» свои результаты, например, возвращать только те элементы Викиданных, которые не имеют утверждений. Использование любого из этих фильтров преобразует ваш список в Викиданные.

Вывод

Здесь вы можете указать параметры для своего списка, например формат (веб-страница, вики, PagePile и т. д.). Вы также можете дополнительно отфильтровать результаты, например с регулярными выражениями в заголовках страниц / метках элементов. Вы также можете заменить список результатов ранжированным списком пропущенных тем («красные ссылки»).

Определение Вашего запроса

В форме запроса можно указать следующие поля:

Поле Означает По умолчанию Примечание
Язык Выберите код языка проекта, например, «en» для английского или «de» для немецкого. Выберите «commons» для Викисклада "en"
Проект Проект Wikimedia, в котором осуществляется поиск (wikipedia, wiktionary, wikiversity и др.) "wikipedia" NOTE: If you choose "Commons," be sure to go to the "Page properties" tab and check the "File" namespace to get useful results.
Глубина Глубина дерева категорий, на которую осуществляется поиск. «0» означает, что поиск в подкатегориях не осуществляется. "0"
Категории Список категорий по одной на строку, без префикса «Категория:». Пусто Добавление '|' и числа установит глубину для этого дерева категорий, заменив то, что было выбрано в поле «Глубина».
Исключаемые категории Список категорий, как указано выше. Принимаются только статьи, не попавшие в эти категории. Пусто
Сочетания Как должны использоваться вышеуказанные категории:
  • Список категорий: Перечислите подкатегории
  • Пересечение: Все страницы во всех деревьях категорий
  • Объединение: Все страницы, которые входят хотя бы в одно дерево категорий
  • Разница: все страницы только в одном дереве категорий
  • Не менее (N): все страницы, входящие как минимум в N деревьев категорий.

В настоящее время доступны варианты «подмножество» или «объединение».

«подмножество»
Пространства имён Пространства имен для использования в качестве потенциальных страниц Статьи
Перенаправления Не имеет значения
Шаблоны Использовать только страницы, в которых
  • Поле 1: содержит все указанные шаблоны
  • Поле 2: содержит один из указанных шаблонов
  • Поле 3: не содержит ни одного из указанных шаблонов

Вводите по одному шаблону в каждой строке без префикса «шаблон:». Каждое поле можно квалифицировать, выбрав «Использовать вместо этого страницу обсуждения».

Пусто Эта опция совместима только с шаблонами, определенными в пространстве имен «template:». Её нельзя использовать с шаблонами, определенными в пространстве имен «User:». Её нельзя использовать в пространствах имён «Creator:» или «Institution:», которые используются в Викискладе.
Ссылки с:
Последняя правка Показать страницы, последнее изменение которых было или не было сделано ботом, анонимным пользователем или помечено Либо, либо, либо
Последнее изменение Дата или период времени последнего изменения на странице в формате ГГГГММДДЧЧММСС (допускается короче) «Только страницы, созданные в указанное выше временное окно» позволяет вам вместо этого искать первое изменение
Размер Размер файла или диапазон размеров в байтах Пусто Позволяет выбирать статьи, файлы которых больше одной отсечки и / или меньше другой отсечки
Ссылки Количество или диапазон внутренних ссылок на странице Пусто Позволяет выбирать статьи с большим или меньшим количеством ссылок
Красные ссылки
Топ категорий Функция, которая пока недоступна.
Сортировка Feature which is not yet available, which would set sorting criteria for output.
Ручной список Позволяет предоставить список (с префиксом пространства имен) имен страниц или элементов Викиданных из указанного проекта Сложность заключается в том, чтобы указать для проектов правильные коды:
  • Английская Википедия: enwiki
  • Немецкий Wikisource: dewikisource или dewikisourcewiki
  • Греческий Викисловарь: elwiktionarywiki
  • Английские Викиновости: enwikinews
  • Викиданные: wikidatawiki
Викиданные Получить викиданные, если они доступны
Формат Формат вывода результатов поиска:
HTML: веб-страницы
CSV: значения в кавычках, разделенных запятыми
TSV: Значения, разделенные табуляцией
WIKI: как Wikitable
PHP: как файл PHP
XML: как файл XML
Сделай это! Нажмите эту кнопку, чтобы выполнить созданный Вами запрос.

Ноу-хау

PetScan ID (PSID)

Начиная с 2016-04-04, каждый запрос, выполняемый в PetScan, записывается (анонимно!) и присваивается уникальный, стабильный числовой идентификатор под названием PSID. Вы можете использовать PSID для

  • выполнения этого запроса PetScan в качестве входных данных в инструментах, поддерживающих PSID (таких как WD-FIST)
  • введите «короткий URL»: https://petscan.wmflabs.org/?psid=PSID запустит запрос с PSID со всеми его настройками
  • расширьте программно предыдущий запрос, «перезаписав» параметры: https://petscan.wmflabs.org/?format=wiki&psid=PSID выполнит тот же запрос, что и раньше, но форматом вывода будет wiki (вместо HTML по умолчанию или того, что было выбрано изначально).

Примечания:

  • Будет сохранен только запрос, а не его результаты!
  • Большие запросы (например, с большим количеством элементов, выполняемых вручную) сохраняться не будут. В этом случае PSID отображаться не будет.
  • Результаты с пустым флажком имеют возможные совпадения в наборе Викиданных.
  • интервики-ссылку petscan: можно использовать для создания ярлыков для постоянных запросов, например, [[petscan:PSID]]
  • записанные запросы не дедуплицируются, поэтому каждый раз будет генерироваться новый PSID, если только существующий PSID не вызывается без изменений.

Создать элементы Викиданных для статей в Википедии, не имеющих оного (Функционал создателя)

  • Настройте запрос, который возвращает список страниц Википедии (или другого проекта, не связанного с Викиданными), или вставьте список в «Другие источники/список вручную».
  • На вкладке «Свойства страницы» вы должны выбрать «Перенаправления = Нет» Теперь это делается автоматически; вы можете изменить его обратно, если вы действительно хотите, чтобы перенаправления были в вашем списке!
  • На вкладке «Викиданные» выберите «Только страницы без элемента» для параметра «Викиданные»
  • Выполнить запрос
  • Ваши результаты будут содержать дополнительные элементы рядом с заголовком «результаты» (если только вы не вошли в систему WiDaR, в этом случае вместо этого вы увидите соответствующую ссылку)
  • По умолчанию проверяются все страницы, для которых нет точного соответствия ни в одном ярлыке или псевдониме в Викиданных.
  • Теперь вы можете установить / снять флажки вручную, если требуется.
  • Вы можете добавить инструкции по умолчанию в поле «Инструкции», которые будут добавлены ко всем вашим новым элементам. Итак, если вы создаете товары только для людей, добавьте P31:Q5. Таким образом, вы можете добавить несколько инструкций (по одной на строку). Обратите внимание, что регистр P /Q должен быть в верхнем регистре — в противном случае он тихо выйдет из строя.
  • К новым элементам можно добавлять описания по умолчанию, например, Dde:"some description" для описание на немецком языке.
  • Нажмите зелёную кнопку «Запустить QS». Это откроет новую страницу.
  • Вы можете нажать «Выполнить», чтобы запустить пакет в вашем браузере, или «Запустить в фоновом режиме», чтобы запустить их с сервера Викимедиа. Смотрите Справка: Краткие сведения для получения дополнительной информации.


Добавлять/удалять утверждения для элементов Викиданных

С помощью Пэт-сканирования можно добавлять или удалять инструкции для элементов Викиданных. Для этого крайне важно, чтобы Вы выбрали «Викиданные» в разделе «Другие источники -> Использовать Вики». Затем Вы увидите командное поле рядом с номером и сможете продолжить, как описано в предыдущем разделе.

Ссылающаяся страница

(Только версия 2) Если Вы открываете PetScan из другого инструмента, чтобы позволить участнику создать запрос, Вы можете передать параметры referrer_url и referrer_name (по умолчанию используется referrer_url). referrer_url должен содержать строку {PSID}, которая будет заменена на PSID, который видит участник. Как только запрос был запущен, в поле вверху страницы пользователю будет предложено вернуться к исходному инструменту, используя измененный PSID referrer_url.

Примеры

Статьи в ВикиПроекте

Запрос на странице обсуждения этого Руководства: Найдите все статьи mainspace в разделе «WikiProject UK geography». Начиная с формы отправки PetScan по умолчанию, просто добавьте «WikiProject UK geography» в первое поле строки шаблонов и чуть ниже выберите «Вместо этого использовать страницы обсуждения». — вот заполненный запрос. Нажмите «Сделай это!» внизу. При запуске 16 августа 2015 года выполнение запроса заняло 1.5 секунды и выдало список из 21 408 статей. Список отображается ПОД формой отправки (которая остается на вашем экране), поэтому Вам нужно прокрутить вниз, чтобы увидеть результаты.

Редакторы, работающие над устранением неоднозначности, стремятся привлечь к помощи участников ВикиПроекта в области контента, в частности канадского ВикиПроекта. Отчет о ПЭТ-сканировании предназначен для поиска всех статей с неоднозначными ссылками, которые находятся в рамках данного ВикиПроекта. Применяемые критерии:

  1. Статьи, содержащие неоднозначные ссылки, находятся в «Category:All articles with links needing disambiguation», поэтому вставьте «All articles with links needing disambiguation» в поле категории PetScan.
  2. Глубина устанавливается произвольно равной 9, что означает, что будут найдены статьи на 9 подкатегорий ниже родительской категории «нуждающиеся в устранении неоднозначности». (Поиск на такую глубину в данном случае необязателен, но не повредит.)
  3. Статьи в ВикиПроекте Канада имеют «Шаблон: ВикиПроект Канада» на своих страницах обсуждения, поэтому вставьте «ВикиПроект Канада» в поле PetScan «Имеет любой из этих шаблонов» и чуть ниже выберите «Использовать страницы обсуждения вместо» в качестве уточняющего параметра.
  4. Требуются только обычные статьи, а не страницы устранения неоднозначности, а страницы устранения неоднозначности отличаются наличием шаблона: устранение неоднозначности, поэтому вставьте «Устранение неоднозначности» в поле PetScan «Не имеет ни одного из этих шаблонов» и убедитесь, что не выбрано «Использовать страницы обсуждения вместо».
  • Эти критерии реализуются с помощью заполненной формы для отправки ПЭТ-сканирования. Чтобы отправить запрос, выберите «Сделать это!» внизу.
  • При отправке 16 августа 2015 года выполнение запроса заняло 31 секунду, а результатом стал список из 255 статей. Результаты отображаются под формой отправки результатов ПЭТ-сканирования, которая остается в силе, поэтому Вы можете не увидеть изменений на своем экране. Вы должны знать, чтобы прокрутить страницу вниз, чтобы найти результаты! Этот запрос был выполнен с выходным форматом по умолчанию «HTML».
  • Чтобы получить результаты в Викитеке и поделиться ими на подстранице ВикиПроекта, запрос можно изменить, выбрав формат «WIKI». На этот раз результаты в Викитекстируемой разметке заменяют форму отправки ПЭТ-сканирования на вашем экране.
  • Чтобы сделать список более полезным для устранения неоднозначности, настройте его так, чтобы Dab Solver открывался при нажатии на любой элемент, можно выполнить процесс в несколько этапов. Здесь вместо этого результаты были сохранены в формате, разделенном табуляцией, затем перенесены в Excel, затем был составлен столбец, который объединял простые текстовые строки с результатами, затем этот результирующий столбец был скопирован и вставлен. Результаты были перенесены на страницу Википедии на английском языке w:Wikipedia:Canadian Wikipedians' notice board/ArticlesNeedingDisambiguation2015-08-17 и также были опубликованы в окне прокрутки в обсуждение на странице обсуждения ВикиПроект Канада. --Doncram Doncram (talk) 19:50, 24 августа 2015 (UTC) ссылка исправлена. DexDor (talk) 06:58, 29 марта 2016 (UTC)

Обнаружение страниц с аномальным сочетанием пространства имен и категорий

PetScan можно использовать для поиска страниц, относящихся к категории (или комбинации категорий), которая не подходит для страниц в определенном пространстве имен - например, страницы администрации Википедии, относящиеся к категории, которая должна содержать только энциклопедические статьи. Затем это можно исправить (например, переместив статью в правильное пространство имен или отредактировав обсуждение, чтобы вставить пропущенное ":" там, где идет ссылка на категорию). Первым шагом в этом процессе является определение (с помощью ПЭТ-сканирования) категорий, которые вызывают неправильную категоризацию (например Категории администрирования Википедии, которые находятся в категориях статей).

Найдите фотографии без рубрики на Викискладе на заданном языке

(Основано на Grants:Learning patterns/Treasures or landmines: detecting uncategorized, language-specific uploads in Commons. Смотрите мотивацию и полное объяснение здесь! Спасибо участнику Викимедиа User:Spiritia и другим участникам/комментаторам за то, что внесли свой вклад в это!)

Запустите запрос с помощью Пэт-сканирования со следующими настройками:

Language = commons
Project = wikimedia
Depth = 1
Categories = Некатегорированные файлы
Combination = ☑ Subset
Namespaces = ☑ File
Templates : Has all of these templates = <Ваш языковой код> 
Format:  ☑ Extended data for files     ☑ File usage data

Код английского языка — «en»; код румынского языка — «ro». Чтобы найти фотографии без рубрики, загруженные пользователями, использующими румынский язык, используется версия запроса (с выводом html и без автозапуска):

https://petscan.wmflabs.org/?language=commons&project=wikimedia&depth=1&categories=Uncategorized+files&ns%5B6%5D=1&templates_yes=ro&ext_image_data=1&file_usage_data=1

По состоянию на 15 марта 2016 года после нажатия кнопки «выполнить» для завершения запроса требуется около 105 секунд, и в результате получается 1748 фотографий без рубрики.

Примечания:

  1. Поле «Язык =» не используется для выбора желаемого языка; вместо этого в поле «Шаблон» задается код желаемого языка.
  2. Код языка в запросе чувствителен к регистру! Так, например, используйте «ro», а не «RO».
  3. Для генерации результатов там был выбран формат: ☑ Wiki вместо вывода Html по умолчанию.

Наслаждайтесь! Ещё раз особенное спасибо User:Spiritia!

Элементы без утверждений

Параметр «Не содержит утверждений» может быть использован для поиска:

Шаги по импорту шаблона, некоторые с домашними животными могут.

Получите дополнительные ссылки для определенного проекта из запроса SPARQL

  • Укажите проект на вкладке 'Категории'. Например, de для Языка и википедия в Проекте, чтобы использовать немецкоязычную версию Википедии.
  • В поле Другие источники введите ваш запрос SPARQL
  • Обязательно выберите Из категорий в параметрах Использовать вики
  • Нажмите Сделать это

Это может быть полезно для получения просмотров определенного набора страниц на основе запроса SPARQL. Вы можете сохранить это в папке [Страница стоимостью https://tools.wmflabs.org/pagepile/] (проверьте вкладку Вывод), затем введите идентификатор этой страницы в Анализ массовых просмотров (выберите 'Стопка страниц' из выпадающего списка Источник).

Получите список элементов Викиданных с исключениями на основе запроса SPARQL

Допустим, у Вас есть список людей с идентификаторами Викиданных (QIDs), к которым Вы хотите добавить профессию (P106) 'дизайнер ювелирных изделий' (Q2519376), возможно, с помощью такого инструмента, как QuickStatements за. Однако Вы не хотите добавлять это занятие к элементам, которые уже имеют это занятие. Вот как это можно сделать с домашними животными:

  • Сохраните свой список детей в текстовом файле, указав каждого ребенка в новой строке
  • На вкладке 'Другие источники' вставьте этот текст в поле под названием 'Список вручную'
  • В форме 'Wiki' введите строку wikidatawiki
  • В поле 'SPARQL' введите ваш SPARQL-запрос. В этом примере этот запрос выдаст всех людей с профессией 'дизайнер ювелирных изделий':
    select ?item where { ?item wdt:P31 wd:Q5; wdt:P106 wd:Q2519376. }
  • Наконец, Вы хотите сделать исключение, поэтому в поле 'Комбинация' добавьте строку manual NOT sparql, чтобы получить все QID из 'списка вручную', но без элементов из запроса SPARQL.
  • Нажми 'Сделать это!'

Добавьте свой пример сюда...

Отчёты об ошибках, запросы функций, кодовая база

См. также