InternetArchiveBot

From Meta, a Wikimedia project coordination wiki
Jump to navigation Jump to search
This page is a translated version of the page InternetArchiveBot and the translation is 52% complete.
Other languages:
Deutsch • ‎English • ‎Esperanto • ‎dansk • ‎español • ‎français • ‎galego • ‎italiano • ‎magyar • ‎polski • ‎português • ‎português do Brasil • ‎shqip • ‎suomi • ‎русский • ‎اردو • ‎العربية • ‎مصرى • ‎हिन्दी • ‎বাংলা • ‎ไทย • ‎中文 • ‎日本語 • ‎한국어
Coolest Tool Award 2019 square logo.svg
InternetArchiveBot
2019 Coolest Tool Award Winner
in the category
Impact

Çfarë është InternetArchiveBot (IABot)

InternetArchiveBot is a powerful PHP, framework independent, OAuth bot designed primarily for use for WMF Wikis, per the request of the global communities, by Cyberpower678. It is a global bot that uses wiki-specific functions in an abstract class to run on different wikis with different rules. For maximum flexibility, it features on and off site configuration values that can be altered to suit the operator, and/or the wiki community. Its function is to address many aspects of linkrot. For large sites, it can be set to multi-thread with a specified number of workers to get the job done faster. Each worker analyzes its own page, and reports back to the master with the statistics afterwards.

Çfarë bën?

IA Bot ka një shumëllojshmëri funksionesh që mund të bëjë kur analizon një faqe. Meqenëse qëllimi është luftimi i fenomenit të prishjes së lidhjeve në mënyrë sa efektshme, IA Bot analizon lidhjet në mënyra të ndryshme si, për shembull:

  1. Looking for URLs on the page rather than the DB. This allows the bot to grab how the url is being used, such as detecting if it's used in a cite template, a reference, or if it's a bare link. This allows the bot to intelligently handle sources formatted in various ways, almost like a human.
  2. Checking the archives if a link already exists, and if it doesn't request archiving into the Wayback Machine.
  3. Looking into the archives at the Wayback Machine to fetch a working copy of the page for a link that is dead, or using archives already being used for a URL on Wikipedia.
  4. Checking if untagged dead links are dead or not. This has a false positive rate of 0.1%.
  5. Automatically resolving templates that resolve as URLs in citation templates and working from there. The same also applies for templates as access dates.
  6. Saving all that information to a DB, which allows for the use of interfaces that can make use of this information, and allows the bot to learn, and improve its services.
  7. Convert existing archive URLs to their long form if enabled.
  8. Fix improper usages of archive templates, or mis-formatted URLs.

Si punon?

IABot's functions are in several different classes, based on the functions they do. Communication-related functions and wiki configuration values, are stored in the API class. DB related functions in the DB class, miscellaneous core functions in a static Core class, dead link checking functions in a CheckIfDead class, thread engine in Thread class, and the global and wiki-specific parsing functions in an abstract Parser class. While all but the last functions can run uniformly on all wikis, the Parser class requires a class extension due to its abstract nature. The class extensions contain the functions that allow the bot to operate properly on a given wiki, with its given rules. When the bot starts up, it will attempt to load the proper extension of the Parser class and initialize that as its parsing class.

Përshtatja

Pas daljes së versionit 2.0, faqet përshtatëse brenda projekteve wiki për IA Bot nuk përdoren më. Roboti tashmë përshtatet me Ndërfaqen Kontrolluese të IA Bot. Të gjitha fjalët kyçe botërore mund të përdoren ende.

If you are running InternetArchiveBot yourself, you can configure it via the on wiki config page and by creating a new deadlink.config.local.inc.php file in the same directory. If someone else is running InternetArchiveBot and you just need to configure it for a particular wiki, you can set up a subpage of the bot's userpage called "Dead-links.js" and configure it there. For example, User:InternetArchiveBot/Dead-links.js. The configuration values are explained below:

  • link_scan – Përcakton çfarë të skanohet kur analizohet një faqe.
  1. Vendosni vlerën 0 për të skanuar çdo lidhje të jashtme te artikulli.
  2. Vendosni vlerën 1 për të skanuar vetëm adresat që janë brenda etiketave të referimeve.
  • page_scan – Përcakton cilat faqe do të skanohen.
  1. Vendosni vlerën 0 për të skanuar të gjithë artikujt që ekzistojnë.
  2. Vendosni vlerën 1 për të skanuar vetëm faqe të cilat kanë etiketat e lidhjeve të vdekura.
  • dead_only – Përcakton cilat adresa mund të prekë dhe/ose ndryshojë roboti.
  1. Vendosni vlerën 0 për të lejuar ndryshimin e të gjitha adresave të mundshme.
  2. Vendosni vlerën 1 për të lejuar ndryshimin e vetëm atyre adresave që janë etiketuara si të vdekura.
  3. Vendosni vlerën 2 për të lejuar ndryshimin e të gjitha adresave të etiketuara si të vdekura dhe të atyre që janë të vdekura por nuk janë etiketuar ende si të tilla.
  • tag_override – I thotë robotit të mos e besojë gjykimin e tij në lidhje me adresat. Për shembull, një përdorues njerëzor etiketon një adresë si të vdekur edhe pse roboti vendos se ajo në fakt është e gjallë.
  1. Vendosja e vlerës 1 do t'i thotë robotit ta respektojë atë etiketë duke mos e besuar gjykimin e tij.
  2. Vendosja e vlerës 0 do t'i thotë robotit të mos e respektojë etiketën e të vazhdojë me gjykimin e tij.
  • archive_by_accessdate – I thotë robotit të vendosë versione të arkivuara të adresës sa më afër datës në të cilën është përdorur në artikull.
  1. Vendosja e vlerës 1 do t'i thotë robotit të gjejë versionin më të afërt me datën e vendosjes së adresës në artikull.
  2. Vendosja e vlerës 0 do t'i thotë robotit thjesht të gjejë versionin më të ri të arkivuar që punon.
Përjashtim nga kjo përzgjedhje janë versionet e arkivuara të adresave të nxjerra prej skanimit të drejtpërdrejtë të tyre që ruhen tashmë në bazën e të dhënave.
  • touch_archive – Përcakton nëse robotit i lejohet ose jo të prekë një adresë që tashmë është shoqëruar me një version të sajin të arkivuar.
  1. Vendosja e vlerës 1 e lejon robotin ta prekë një adresë të tillë.
  2. Vendosja e vlerës 0 e ndalon robotin ta prekë një adresë të tillë.
Gjithsesi, nëse vihen re arkiva të pavlefshme ose zbulohen probleme me formatimin e adresave të arkivuara, roboti do ta injorojë vlerën e zgjedhur dhe do t'i prekë ato adresa për t'i rregulluar.
  • notify_on_talk – Përcakton nëse roboti do të lërë një mesazh te faqja e diskutimeve në lidhje me ndryshimet që bëri te artikulli përkatës. Nëse mesazhi po lihet pasi është redaktuar artikulli, do të lihet vetëm nëse janë shtuar versione të reja të arkivuara për adresat ose janë ndryshuar ato ekzistuese. Nëse mesazhi po lihet pa e redaktuar artikullin, do të lihet vetëm nëse një adresë gjendet të jetë e vdekur ose nëse gjenden versione të arkivuara për ndonjë nga adresat.
  1. Vendosja e vlerës 1 aktivizon lënien e mesazheve.
  2. Vendosja e vlerës 0 e çaktivizon lënien e mesazheve.
  • notify_error_on_talk – Përcakton nëse roboti do të lërë mesazhe për burimet problematike në lidhje me arkivimin në faqet e diskutimeve përkatëse.
  1. Vendosja e vlerës 1 e aktivizon lënien e mesazheve të tilla.
  • talk_message_header – Përcakton titullin e mesazhit në faqet e diskutimeve kur është vendosur vlera 1 te notify_on_talk.
  • Shiko nënndarjen #Fjalët magjike botërore për fjalët magjike që mund të përdorësh.
  • talk_message – Përcakton përmbajtjen e mesazhit në faqet e diskutimeve kur është vendosur vlera 1 te notify_on_talk.
  • Shiko nënndarjen #Fjalët magjike botërore për fjalët magjike që mund të përdorësh.
  • talk_message_header_talk_only – Përcakton titullin e mesazhit në faqet e diskutimeve kur roboti nuk e redakton artikullin përkatës.
  • Shiko nënndarjen #Fjalët magjike botërore për fjalët magjike që mund të përdorësh.
  • talk_message_talk_only – Përcakton përmbajtjen e mesazhit në faqet e diskutimeve kur roboti nuk e redakton artikullin përkatës.
  • Shiko nënndarjen #Fjalët magjike botërore për fjalët magjike që mund të përdorësh.
  • talk_error_message_header – Përcakton titullin e mesazhit në lidhje me gabimet në faqet e diskutimeve kur është vendosur vlera 1 te notify_on_talk.
  • talk_error_message – Përcakton përmbajtjen e mesazhit në faqet e diskutimeve kur është vendosur vlera 1 te notify_error_on_talk.
Mund të punojë me fjalët magjike të mëposhtme:
  1. {problematiclinks} – Nxjerr një listë me gabimet që u hasën gjatë procesit të arkivimit.
  • deadlink_tags – Etiketat (stampat) e lidhjeve të vdekura që duhen kërkuar. Ridrejtimet ndiqen në mënyrë automatike kështu që nuk ka nevojë të vendosen. Stampa duhet vendosur siç do të vendosej në një artikull, pa parametra.
  • citation_tags – Etiketat (stampat) e citimeve të cilat mbështetin përdorimin e adresave të internetit që duhen kërkuar. Ridrejtimet ndiqen në mënyrë automatike kështu që nuk ka nevojë të vendosen. Stampa duhet vendosur siç do të vendosej në një artikull, pa parametra.
  • archive#_tags – A collection of general archive tags to seek out, that supports the archiving services IABot uses. Automatically resolves the redirects, so redirects are not required. Format the template as you would on an article, without parameters. The "#" is a number. Multiple categories can be implemented to handle different unique archiving templates. This is dependent on how the bot is designed to handle these on a given wiki and is wiki specific.
  • talk_only_tags – A collection of IABot tags to seek out, that signal the bot to only leave a talk page message. These tags overrides the active configuration.
  • no_talk_tags – A collection of IABot tags to seek out, that signal the bot to not leave a talk page message. These tags overrides the active configuration.
  • ignore_tags – A collection of bot specific tags to seek out. These tags instruct the bot to ignore the source the tag is attached to. Automatically resolves the redirects, so redirects are not required. Format the template as you would on an article, without parameters.
  • verify_dead – Activate the dead link checker algorithm. The bot will check all untagged and not yet flagged as dead URLs and act on that information. Set to 1 to enable. Set to 0 to disable.
  • archive_alive – Submit live URLs not yet in the Wayback Machine for archiving into the Wayback Machine. Set to 1 to enable. Requires permission from the developers of the Wayback Machine.
  • notify_on_talk_only – Disable editing of the main article and leave a message on the talk page only. This overrides notify_on_talk. Set to 1 to enable.
  • convert_archives – This option instructs the bot to convert all recognized archives to HTTPS when possible, and forces the long-form snapshot URLs, when possible, to include a decodable timestamp and original URL.
  • convert_to_cites – This option instructs the bot to convert plain links inside references with no title to citation templates. Set to 0 to disable.
  • mladdarchive – Part of the {modifiedlinks} magic word, this is used to describe the addition of an archive to a URL.
    Supports the following magic words:
    1. {link}: The original URL.
    2. {newarchive}: The new archive of the original URL.
  • mlmodifyarchive – Part of the {modifiedlinks} magic word, this is used to describe the modification of an archive URL for the original URL.
    Supports the following magic words:
    1. {link}: The original URL.
    2. {oldarchive}: The old archive of the original URL.
    3. {newarchive}: The new archive of the original URL.
  • mlfix – Part of the {modifiedlinks} magic word, this is used to describe the formatting changes and/or corrections made to a URL.
    Supports the following magic words:
    1. {link}: The original URL.
  • mltagged – Part of the {modifiedlinks} magic word, this is used to describe that the original URL has been tagged as dead.
    Supports the following magic words:
    1. {link}: The original URL.
  • mltagremoved – Part of the {modifiedlinks} magic word, this is used to describe that the original URL has been untagged as dead.
    Supports the following magic words:
    1. {link}: The original URL.
  • mldefault – Part of the {modifiedlinks} magic word, this is used as the default text in the event of an internal error when generating the {modifiedlinks} magic word.
    Supports the following magic words:
    1. {link}: The original URL.
  • mladdarchivetalkonly – Part of the {modifiedlinks} magic word, this is used to describe the recommended addition of an archive to a URL. This is used when the main article hasn't been edited.
    Supports the following magic words:
    1. {link}: The original URL.
    2. {newarchive}: The new archive of the original URL.
  • mltaggedtalkonly – Part of the {modifiedlinks} magic word, this is used to describe that the original URL has been found to be dead and should be tagged. This is used when the main article hasn't been edited.
    Supports the following magic words:
    1. {link}: The original URL.
  • mltagremovedtalkonly – Part of the {modifiedlinks} magic word, this is used to describe that the original URL has been tagged as dead, but found to be alive and recommends the removal of the tag. This is used when the main article hasn't been edited.
    Supports the following magic words:
    1. {link}: The original URL.
  • plerror – Part of the {problematiclinks} magic word, this is used to describe the problem the Wayback machine encountered during archiving.
    Supports the following magic words:
    1. {problem}: The problem URL.
    2. {error}: The error that was encountered for the URL during the archiving process.
  • maineditsummary – This sets the edit summary the bot will use when editing the main article.
    See the #Magic Word Globals subsection for usable magic words. (Items 11, 12, and 13 are not supported)
  • errortalkeditsummary – This sets the edit summary the bot will use when posting the error message on the article's talk page.
  • talkeditsummary = This sets the edit summary the bot will use when posting the analysis information on the article's talk page.
    See the #Magic Word Globals subsection for usable magic words.

Fjalët magjike botërore

These magic words are available when mentioned in the respective configuration options above.

  1. {namespacepage}: The page name of the main article that was analyzed.
  2. {linksmodified}: The number of links that were either tagged or rescued on the main article.
  3. {linksrescued}: The number of links that were rescued on the main article.
  4. {linksnotrescued}: The number of links that were unable to be rescued on the main article.
  5. {linkstagged}: The number of links that were tagged dead on the main article.
  6. {linksarchived}: The number of links that were archived into the Wayback Machine on the main article.
  7. {linksanalayzed}: The number of links that were overall analyzed on the main article.
  8. {pageid}: The page ID of the main article that was analyzed.
  9. {title}: The URL encoded variant of the name of the main article that was analyzed.
  10. {logstatus}: Returns "fixed" when the bot is set to edit the main article. Returns "posted" when the bot is set to only leave a message on the talk page.
  11. {revid}: The revision ID of the edit to the main article. Empty if there is no edit to the main article.
  12. {diff}: The URL of the revision comparison page of the edit to main article. Empty if there is no edit to the main article.
  13. {modifedlinks}: A bullet generated list of actions performed/to be performed on the main article using the custom defined text in the other variables.

Kodi i InternetArchive Bot

Kodi aktual për InternetArchive Bot mund të gjendet te https://github.com/Internetarchive/internetarchivebot.

Synimet

Faza e parë (e përfunduar) – Procesimi i sa më shumë faqeve në kategorinë e artikujve me lidhje të jashtme të vdekura në Wikipedia-n anglisht nga InternetArchive Bot dhe zëvëndësimi i sa më shumë lidhjeve të jashtme të vdekura me lidhje të arkivuara nga "Wayback Machine".

Faza e dytë (e përfunduar) – Procesimi i të gjitha faqeve në Wikipedia-n anglisht për gjetjen e lidhjeve të vdekura të pashënjuara dhe zëvëndësimin e tyre me lidhjet e arkivuara.

Faza e tretë (në vazhdim e sipër) – Aktivizimi i IA Bot në projekte të tjera wiki përtej Wikipedia-s anglisht (me pëlqimet e komuniteteve përkatëse).

Kontrollimi

Shumë aspekte të IA Bot mund të kontrollohen te https://iabot.toolforge.org/, duke përfshirë këtu raportimin e rezultateve pozitive false për lidhjet e vdekura apo aktivizimin e robotit për rregullimin e një faqeje të vetme.