Template:Model card ORES article topic/cs

From Meta, a Wikimedia project coordination wiki
Model card
This page is an on-wiki machine learning model card.
A diagram of a neural network
A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interfaceOres homepage
CodeORES Github, ORES training data, a ORES model binaries
Uses PIINo
In production?Yes
Which projects?{{{language}}} {{{project}}}
Tento model používá text článku k předpovědi pravděpodobnosti, že článek patří k souboru témat.


Motivace[edit]

Jak můžeme předvídat, v jakém obecném tématu je článek? Odpověď na tuto otázku je užitečná pro různé analýzy dynamiky Wikipedie. Je však obtížné ručně shrnout velmi různorodý řád článků Wikipedie do soudržných, konzistentních témat.

Tento model, který je součástí souboru modelů ORES, analyzuje článek, aby předpověděl jeho pravděpodobnost, že patří k souboru témat. Podobné modely (i když nemusí být nutně s stejnou úrovní výkonnosti nebo témata, jsou nasazeny v asi tucet dalších projektů.

Tento model může být užitečný pro analýzu dynamiky Wikipedie na vysoké úrovni (prehled stránek, kvalita článků, trendy editování) a filtrování článků.

Uživatelé a použití[edit]

Use this model for
  • vysoké úrovně analýzy dynamiky Wikipedie, jako je vizualizace stránek, kvalita článků nebo trendy editování - např. Jak se dynamika vizualizací stránek liší mezi kategoriemi fyziky a biologie?
  • filtrování na příslušné články - např. filtrování článků pouze na ty, které se týkají kategorie hudby.
Don't use this model for
  • konečně stanoví, na jaký témat se článek týká
  • automatické úpravy článků nebo témat bez toho, aby byl člověk v kruhu
Current uses

Tento model je součástí ORES a je obecně přístupný prostřednictvím API. Používá se pro vysokou úroveň analýzy Wikipedie, výzkum platformy a další úkoly na wiki.

Example API call:
{{{model_input}}}

Etické úvahy, upozornění a doporučení[edit]

  • Tento model byl vyškozen na základě dat, které jsou nyní staré několik let (od poloviny roku 2020).

Tento model používá Word2vec jako výcvikovou funkci. Word2vec, stejně jako jiné přírodní jazykové začleňování, kóduje jazykové předsudky základních datových souborů - v rámci pohlaví, rasy, etnické příslušnosti, náboženství atd. Vzhledem k tomu, že Wikipedie zná předsudkové aspekty ve svém textu, může tento model kódovat a někdy reprodukovat tyto předsudkosti.

  • Tento model má velmi variabilní výkonnost v různých tématách - pro pochopení výkonnosti mezi tématy se obraťte na níže uvedené testové statistiky.

Model[edit]

Výkon[edit]

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

Provádění[edit]

Model architecture
{{{model_architecture}}}
Output schema
{{{model_output_schema}}}
Example input and output
Input:
{{{model_input}}}

Output:

{{{model_output}}}

Údaje[edit]

Data pipeline
Údaje k výcviku byly získány z souboru ID revize. Poté byly různé části informací o revizi vyčerpány pomocí automatizovaných procesů a revize byla vkládána do word2vec, aby byl do něj vložen článek.
Training data
Údaje o výcviku byly během výcviku automaticky a náhodně odděleny od testových údajů pomocí drafttopic git repository (který vycvičuje modely jak o návrhu, tak o článku).
Test data
Testová data byla automaticky a náhodně oddělena od dat vlaků pomocí drafttopic git repository (který vycvičuje modely jak z návrhu, tak z článku).

Licence[edit]

Citát[edit]

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_topic,
  title={ {{{language}}} {{{project}}} article topic model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_topic/cs }
}