Template:Model card ORES article topic/hu
| Model card | |
|---|---|
| This page is an on-wiki machine learning model card. | |
A model card is a document about a machine learning model that seeks to answer basic questions about the model. | |
| Model Information Hub | |
| Model creator(s) | Aaron Halfaker (User:EpochFail) and Amir Sarabadani |
| Model owner(s) | WMF Machine Learning Team (ml@wikimediafoundation.org) |
| Model interface | Ores homepage |
| Code | ORES Github, ORES training data és ORES model binaries |
| Uses PII | No |
| In production? | Yes |
| Which projects? | {{{language}}} {{{project}}} |
| Ez a modell a cikk szövegét használja a cikk egy sor témához való valószínûségének előrejelzéséhez . | |
Motiváció
[edit]Hogyan tudjuk megjósolni, hogy melyik általános témában van egy cikk? A kérdésre való válasz hasznos a Wikipédia dinamikájának különböző elemzéseihez. Azonban nehéz a Wikipédia cikkek nagyon különböző sorát koherens, következetes témákba csoportosítani kézzel.
Ez a modell, amely az ORES modellcsomag része, elemzi egy cikket, hogy megjósolja a témák egy csoportjához való tartozásának valószínűségét. Hasonló modelleket (még nem feltétlenül ugyanazzal a teljesítményszintgel vagy témákkal, de több tucat más projektben is alkalmaznak.
Ez a modell hasznos lehet a Wikipédia dinamikai magas szintű elemzéseihez (oldaltérnézés, cikkminőség, szerkesztési trendek) és a cikkek szűrésehez.
Használók és felhasználások
[edit]- a Wikipédia dinamika magas szintű elemzése, mint például a oldalnézet, a cikk minőség, vagy a szerkesztési trendek - pl. Hogyan különböznek a oldalnézetek dinamika a fizika és a biológia kategóriák között?
- a releváns cikkekre való szűrés - pl. a zene kategóriába tartozó cikkekre való csak szűrő cikkek.
- véglegesen megállapítja, hogy a cikk milyen témára vonatkozik
- a cikkek vagy témák automatikus szerkesztése emberi beépítés nélkül
Ez a modell az ORES része, és általában API-n keresztül elérhető. A Wikipédia, a platform kutatása és más wiki-felügyelő feladatok magas szintű elemzéséhez használják.
Example API call:{{{model_input}}}
Étikai megfontolások, figyelmeztetések és ajánlások
[edit]- Ez a modell több évre (2020 közepétől) idősebb adatokon alapul.
- Ez a modell a Word2vec-t használja oktatási funkcióként. A Word2vec, mint más természetes nyelvbehelyezések, kódolja az alapvetõ adatkészletek nyelvi előítéleteit - a nem, faji, etnikai, vallási stb.
- Ez a modell nagyon változó teljesítményű különböző témák között - lásd a következő vizsgálati statisztikákat, hogy megértsük a témák közötti teljesítményét.
Módellátás
[edit]A teljesítmény
[edit]Test data confusion matrix: {{{confusion_matrix}}}
Test data sample rates: {{{sample_rates}}}
Test data performance: {{{performance}}}
A végrehajtás
[edit]{{{model_architecture}}}
{{{model_output_schema}}}
{{{model_input}}}
Output:
{{{model_output}}}
Adatok
[edit]A képzéshez szükséges adatokat egy sor felülvizsgálati azonosítótól szerezték. A felülvizsgálatról különböző információkat automatizált folyamatok segítségével kivettek, és a felülvizsgálati szöveget a word2vec-be adták, hogy egy cikk beilleszkedjen. Végül a címkéket a cikkhez kapcsolódó középső szintű WikiProject kategóriákból származtatják.
A képzési adatokat automatikusan és véletlenszerűen különítették a tesztadatoktól a képzés során a drafttopic git repository (amely mind a tervezet témáját, mind az cikk témáját képező modelleket képezi).
A tesztadatok automatikusan és véletlenszerűen elválasztották a vonatadatoktól a drafttopic git repository (amely mind a projekttémát, mind az cikktémát képezi).
A jogosítványok
[edit]- Code: MIT license
- Model: MIT license
Címelt
[edit]Cite this model card as:
@misc{
Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_topic,
title={ {{{language}}} {{{project}}} article topic model card },
author={ Triedman, Harold and Bazira, Kevin },
year={ 2023 },
url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_topic/hu }
}