InternetArchiveBot

From Meta, a Wikimedia project coordination wiki
Jump to navigation Jump to search
This page is a translated version of the page InternetArchiveBot and the translation is 98% complete.

Other languages:
Deutsch • ‎English • ‎dansk • ‎español • ‎français • ‎galego • ‎italiano • ‎polski • ‎português • ‎português do Brasil • ‎suomi • ‎русский • ‎اردو • ‎العربية • ‎مصرى • ‎हिन्दी • ‎ไทย • ‎中文 • ‎日本語 • ‎한국어

Que é InternetArchiveBot (IABot)

InternetArchiveBot é un potente bot en PHP, independente do contorno e que utiliza OAuth e está deseñado principalmente para usalo nas wikis de WMF, a petición das comunidades globais, por Cyberpower678. É un bot global que usa funcións específicas das wikis dunha clase abstracta para executarse en diferentes wikis con diferentes regras. Para unha flexibilidade máxima, ofrece valores de configuración en liña e fóra de liña que poden ser modificados para axeitarse ó operador, e/ou a comunidade wiki. A súa función é tratar diferentes aspectos de ligazóns externas rotas. Para os sitios grandes, pode configurarse para usar multifíos cun número específico de traballos para poder facer o traballo máis rapidamente. Cada traballo analiza a súa propia páxina, e informa ó proceso principal coas estatísticas asociadas.

Que fai?

IABot ten un suite de funcións pode facer cando analiza unha páxina. Xa que a finalidade é para dirixir a ligazón podrece tan completamente tan posíbel, analiza ligazóns en moitos xeitos por,

  1. Buscando URLs na páxina máis que a DB. Isto deixa o bot para agarrar como o url está sendo utilizado, como detectar se é utilizado nun citado #modelo, unha referencia, ou se é unha sinxela ligazón. Isto deixa o bot a fontes intelixentes de mango formatted en varios xeitos, case como un humano.
  2. Comprobando os arquivos se unha ligazón xa existe, e se non pide arquivamento ao Wayback Máquina.
  3. Ollando aos arquivos no Wayback Máquina para ir buscar unha copia laboráble da páxina para unha ligazón que está morta, ou utilizando arquivos xa sendo utilizado para un URL en Wikipedia.
  4. Comprobando se untagged as ligazóns mortas están mortas ou non. Isto ten un índice de falsos positivos de 0,1%.
  5. Automaticamente resolvendo #modelo que resolven tan URLs en citation #modelo e traballando desde alí. O mesmo tamén solicita #modelo como datas de acceso.
  6. Salvando toda aquela información a un DB, o cal deixa para o uso de interfaces que poden facer uso desta información, e deixa o bot para aprender, e mellorar os seus servizos.
  7. Converte URL de arquivo existentes á súa forma longa se habilitou.
  8. Arranxa usos impropios de #modelo de arquivo, ou mis-formatted URLs.

Como traballa

IABot as funcións foron colocadas en varias clases diferentes, baseado no que fas as funcións. Comunicación funcións relacionadas, así como en wiki valores de configuración que son almacenados na clase de API. DB funcións relacionadas na clase de DB, funcións de núcleo heteroxéneo nun static clase de Núcleo, a ligazón morta que comproba funcións nun CheckIfDead clase, motor de fío en clase de Fío, e o global e wiki-específico parsing funcións nun abstracto Parser clase. Mentres todos máis as últimas funcións poden correr uniformemente en tódolos wikis, o Parser a clase require unha extensión de clase debido á súa natureza abstracta. As extensións de clase conteñen as funcións que deixan o bot a correctamente manexar nun dado wiki, coas súas regras dadas. Cando o bot inicios arriba, o bot tentará automaticamente cargar a extensión adecuada do Parser clase e initialize que cando o seu parsing clase.

Wikis actuais apoiadas

IABot Pode actualmente correr nas seguintes wikis:

  1. Alemannisch Wikipedia
  2. Bavarian Wikipedia
  3. Central Kurdish Wikipedia
  4. German Wikipedia
  5. English Wikipedia
  6. Spanish Wikipedia
  7. French Wikipedia
  8. Italian Wikipedia
  9. Japanese Wikipedia
  10. Dutch Wikipedia
  11. Norwegian Wikipedia
  12. Russian Wikipedia
  13. Wikispecies
  14. Swedish Wikipedia
  15. Chinese Wikipedia

Configuración

Se estás correndo InternetArchiveBot, podes configuralo vía o wiki config páxina e por crear un novo deadlink.config.Local.inc.php Ficheiro no mesmo directorio. Se alguén máis está correndo InternetArchiveBot e só necesitas configuralo para un particular wiki, podes montar un subpage do bot userpage chamou "Dead-links.js" E configuralo alí. Por exemplo, Usuario:InternetArchiveBot/Morto-ligazóns.js. Os valores de configuración son explicados abaixo:

  • Escáner_de ligazón – Determina que para escanear para cando é analizanda unha páxina. Posto a 0 para manexar cada URL externo no artigo. Posto a 1 a URL de escáner únicos que é dentro de referencia tags.
  • Escáner_de páxina – Determina que páxinas para escanear cando fai o percorrido. Posto a 0 para escanear todo do espazo principal. Posto a 1 a escáner único para páxinas que teñen ligazóns mortas tags.
  • Morto_único – Determina que URLs pode tocar e/ou modificar. Posto a 0 a todo o bot modifica todas as ligazóns. Posto a 1 só deixa o bot para modificar URLs tagged como mortos. Posto a 2 deixa o bot para modificar todo URLs tagged como morto e e todo URL mortos que non é tagged.
  • tag_override – Di o bot a override o seu xuízo propio con respecto a URLs. Se un humano tags nun URL aparece como morto cando o bot o determina vivo, pondo isto a 1 deixará o tag a override ao xuiízo do bot. Posto a 0 para imposibilitar.
  • Arquivo_por_accessdate – Pondo isto a 1 instruirá ao bot para proporcionar arquivo snapshots tan cerca do URLs dato de acceso orixinal como sexa posible. Pondo isto a 0 terá o bot sinxelamente que atopar o arquivo laborable máis novo. As excepcións a isto son o arquivo snapshots xa atopado e almacenado no DB para URL xa escaneado.
  • Arquivo_de tacto – Este poñente determina se ou non o bot é deixado para tocar un URL que xa ten un arquivo snapshot asociou con el. Poñendo isto a 1 habilita esta característica. Pondo isto a 0 imposibilita esta característica. No acontecemento dos arquivos nulos que son presente ou detectable mis-formatting de URL de arquivos, o bot ignorará este axuste e tocará aquel URL respectivos.
  • Notificar_en_charla – Este axuste instrúe o bot para deixar unha mensaxe do que múdou feito a unha páxina na súa páxina de charla respectiva. Cando editando a páxina principal, a mensaxe de páxina da charla é só deixado cando os arquivos novos son engadidos a URLs ou os arquivos existentes son mudados. Cando só deixando unha mensaxe de páxina da charla sen editar a páxina principal, a mensaxe fica se un URL é detectado para estar morto, ou arquivo snapshots foi atopado para o URL dados. Poñendo isto a 1 habilita esta característica. Poñendo isto a 0 imposibilítao .
  • Notificar_erro_en_charla – Este instrúe ao bot para deixar mensaxes sobre fontes problemáticas non sendo arquivado en páxinas de charla respectiva. Poñendo a 1 habilita esta característica.
  • Cabezada_de mensaxe_da charla – Pon no cabeceiro de sección da mensaxe da páxina da charla que deixa detrás, cando notificar_en_charla é posto a 1.
    Ver o #Magic Word Globals subseccion para usar palabras chave.
  • Mensaxe_de charla – O corpo principal da mensaxe de páxina da charla a deixou cando notificar_en_charla é posto a 1.
    Ver o #Magic Word Globals subsection para uso de palabras máxicas.
  • Charla_de cabezada_de mensaxe_de charla_só – Pon a cabezada de sección da mensaxe de páxina da charla deixa detrás de cando o bot non edita o artigo principal.
    Ver o #Magic Word Globals subseccián para usar palabras máxicas.
  • Charla_de mensaxe_da charla_só – O corpo principal da mensaxe de páxina da charla é deixada cando o bot non edita o artigo principal.
    Ver #Magic Word Globals subsección para usar palabras chave.
  • Cabezada_de mensaxe_de erro_de charla – Pon a cabezada de sección da mensaxe de erro de páxina da charla deixou detrás, cando notificar_erro_en_charla é posto a 1.
  • Mensaxe_de erro_da charla – O corpo principal da mensaxe de erro de páxina de charla deixou cando notificar_erro_en_charla está posto a 1.
    Apoios as palabras chave seguintes:
    1. {problematiclinks}: Unha lista xerada de erros foi atopada durante o proceso de arquivamento.
  • deadlink_tags – Unha colección de ligazón mortas tags para ir na procura deles. Automáticamente resolve e redirixe, así que o redirixe non é requirido. Formatea o #modelo canda ti encima dun artigo, sen parámetros.
  • citation_tags – Unha colección de citation tags para ir na procura de, aquel URL de apoios. Automáticamente resolve e redirixe, así que o redirixe non é requirido. Formato do #modelo cando ti encima dun artigo, sen parámetros.
  • Arquivo#_tags – Unha colección de etiquetas de arquivo xerais para buscar, que admite os servizos de arquivo dos usos da IAB. Automáticamente resolve as redireccións, cando redireccións non son requeridas. O formato dos modelos coma poidera ser un artículo, sen parámetros. O "#" é un número. Múltiples categorías son implementadas ao manexar diferentes arquivos únicos dos modelos. Esto depende do como o bot estea deseñado e manexe eses no wiki ou o wiki específico.
  • A charla_única_tags – Unha colección de IABot tags para ir na procura deles, que sinaliza o bot a só deixar unha mensaxe de páxina de conversa. Este tags overrides da configuración estea activa.
  • Ningunha_charla_tags – Unha colección de IABot tags para ir na procura de, que sinaliza o bot a non deixar unha mensaxe de páxina da charla. Estas etiquetas anulan a configuración activa.
  • Ignorar_tags – Unha colección de etiquetas bot específico para ir na procura delas. Estas etiquetas indican que o bot ignore a fonte á que está asociada a etiqueta. Resolve automaticamente as redireccións, polo que non se requiren redireccións. Formatear o modelo como faría nun artigo sen parámetros.
  • Verificar_morto – Activate a ligazón morta comprobando o algoritmo. O bot verificará todos os URLs non marcados e aínda non marcados como actos sobre esa información. Establece a 1 para habilitar. Establecer a 0 para desactivar.
  • O arquivo_vivo – Envía URLs en directo aínda non na máquina Wayback para arquivar a máquina Wayback. Establece a 1 para habilitar. Require o permiso dos desenvolvedores da máquina Wayback.
  • 'notify_on_talk_only – Deshabilita a edición do artigo principal e deixa só unha mensaxe na páxina de conversa. Isto anula a 'notify_on_talk' . Establece a 1 para habilitar.
  • convert_archives – Esta opción indica ao bot que converte todos os arquivos recoñecidos a HTTPS cando sexa posible, e obriga as URLs instantáneas de forma longa, cando sexa posible, a incluír unha marca de tempo decodificable e URL orixinal.
  • Converter_a_cita – Esta opción instrúe o bot para converter ligazóns sinxelas dentro de referencias sen título a moedelo citación. Posto a 0 para imposibilitar.
  • Sonladdarchive' – Parte do {modifiedlinks} palabra chave, isto está acostumado a describir a adición dun arquivo a un URL.
    Apoios as palabras chave seguintes:
    1. {Ligazón}: O URL orixinal.
    2. {newarchive}: O arquivo novo do URL orixinal.
  • mlmodifyarchive – Parte do {modifiedlinks} palabra chave, isto está acostumado a describir a modificación dun URL de arquivo para o URL orixinal.
    Apoios as palabras chave seguintes:
    1. {link}: O URL orixinal.
    2. {oldarchive}: O arquivo vello do URL orixinal.
    3. {newarchive}: O arquivo novo do URL orixinal.
  • Sonlfix' – Parte do {modifiedlinks} palabra chave, isto está acostumado a describir o formateo dos cambios e/ou as correccións que fixeron a un URL.
    Apoios as palabras máxicas seguintes:
    1. {link}: O URL orixinal.
  • mltagged – Parte do {modifiedlinks} palabra chave, isto está acostumado a describir que o URL orixinal foi etiquetado como morto.
    Apoios as palabras chave seguintes:
    1. {link}: O URL orixinal.
  • Sonltagremoved' – Parte do {modifiedlinks} palabra chave, isto está acostumado a describe que o URL orixinal foi des etiquetado coma morto.
    Apoios as palabras chave seguintes:
    1. {link}: O URL orixinal.
  • mldefault – Parte do {modifiedlinks} palabra chave, isto é utilizado como texto por defecto no acontecemento dun erro interno cando xerando o {modifiedlinks} palabra chave.
    Apoios as palabras chave seguintes:
    1. {link}: O URL orixinal.
  • mladdarchivetalkonly – Parte do {modifiedlinks} palabra chave, isto está acostumado a describir a adición recomendada dun arquivo a un URL. Isto é utilizado cando o artigo principal non foi editado.
    Apoios as palabras chave seguintes:
    1. {link}: O URL orixinal.
    2. {newarchive}: O arquivo novo do URL orixinal.
  • mltaggedtalkonly – Parte do {modifiedlinks} palabra chave, isto está acostumado a describer que o URL orixinal foi atopado para ser morto e tería que ser etiquetado. Isto é utilizado cando o artigo principal non foi editado.
    Apoios as palabras chave seguintes:
    1. {link}: O URL orixinal.
  • mltagremovedtalkonly – Parte do {modifiedlinks} palabra chave, isto está acostumado a describer que o URL orixinal foi etiquetado como morto, mais atopado para ser vivo e recomenda o traslado do etiquetado. Isto é utilizado cando o artigo principal non foi editado.
    Apoios as palabras chave seguintes:
    1. {link}: O URL orixinal.
  • plerror – Parte do {problematiclinks} palabra chave, isto está acostumado a describir o problema o Wayback a máquina atopada durante o arquivamento.
    Apoios as palabras chave seguintes:
    1. {problem}: O URL do problema.
    2. {error}: O erro que foi atopado para o URL durante o proceso de arquivamento.
  • maineditsummary – Estes conxuntos a editar o resumo o bot utilizará cando sexa editando o artigo principal.
    Ver a #Magic Word Globals subsección para uso das palabras chave. (Elementos 11, 12, e 13 non é apoiado)
  • errortalkeditsummary – Estes conxuntos ao editar o resumo o bot utilizará cando sexa anunciando a mensaxe de erro na páxina de conversa do artigo.
  • talkeditsummary = Estes conxuntos ao editar o resumo o bot utilizará cando anuncia a información de análise na páxina de diálogo do artigo.
    Ver o #Magic Word Globals subsección para uso de palabras chave.

Palabras máxicas Globais

Estas palabras chave están dispoñíbeis cando é mencionado nas opcións de configuración respectivas encima.

  1. {namespacepage}: O nome de páxina do artigo principal que foi analizado.
  2. {linksmodified}: O número de ligazóns que eran ningún etiquetado ou rescatado no artigo principal.
  3. {linksrescued}: O número de ligazóns que foron rescatadas no artigo principal.
  4. {linksnotrescued}: O número de ligazóns que eran incapaz de ser rescatado no artigo principal.
  5. {linkstagged}: O número de ligazóns que eran etiquetados mortos no artigo principal.
  6. {linksarchived}: O número de ligazóns que eran archivados ao Wayback Máquina no artigo principal.
  7. {linksanalayzed}: O número de ligazóns que eran en xeral analizado no artigo principal.
  8. {pageid}: O carné de identidade de páxina do artigo principal que foi analizado.
  9. {título}: O URL codificado variante do nome do artigo principal que foi analizado.
  10. {logstatus}: Os regresos "arranxados" cando o bot é posto para editar o artigo principal. Os regresos "anunciados" cando o bot é posto a só deixar unha mensaxe na páxina de conversa.
  11. {revid}: O carné de identidade de revisión do editar ao artigo principal. Baleiro se hai ningún editar ao artigo principal.
  12. {diff}: O URL da páxina de comparación da revisión do editar a artigo principal. Baleiro se hai ningún editar ao artigo principal.
  13. {modifedlinks}: Unha viñeta xerada da lista de accións realizadas/a realizar no artigo principal usando o texto definido personalizado nas outras variables

Código fonte

O código de fonte actual pode consultarse en https://github.com/cyberpower678/Cyberbot_II/tree/master/IABot.

Folla de ruta

Fase 1 (completa) – Ha InternetArchiveBot procesa tódalas páxinas en Wikipedia inglesa aquilo #ser en Categoría: Artigos con ligazóns externas mortas e substituír moitas ligazóns mortas como sexa posible con ligazóns de arquivo desde o Wayback Máquina.

Fase 2 (completa) – Ten InternetArchiveBot que procesar tódalas páxinas en Wikipedia inglesa para atopar ligazóns mortas sen etiquetar e substituilas con ligazóns de arquivo.

Fase 3 (en progreso) – Desprega InternetArchiveBot noutros wikis ademais da Wikipedia inglesa (con consentimento da comunidade.)

Administración

Moitos aspectos do InternetArchiveBot poden ser xestionados en https://tools.wmflabs.org/iabot/, incluíndo reportes falsos positivos por ligazóns mortas e dirixindo ao bot para arranxar unha soa páxina.