Template:Model card ORES article topic/hy
| Model card | |
|---|---|
| This page is an on-wiki machine learning model card. | |
A model card is a document about a machine learning model that seeks to answer basic questions about the model. | |
| Model Information Hub | |
| Model creator(s) | Aaron Halfaker (User:EpochFail) and Amir Sarabadani |
| Model owner(s) | WMF Machine Learning Team (ml@wikimediafoundation.org) |
| Model interface | Ores homepage |
| Code | ORES Github, ORES training data, and ORES model binaries |
| Uses PII | No |
| In production? | Yes |
| Which projects? | {{{language}}} {{{project}}} |
| Այս մոդելը օգտագործում է հոդվածի տեքստը կանխատեսելու համար հավանականությունը, որ հոդվածը պատկանում է մի շարք թեմաների | |
Մոտիվացիան
[edit]Ինչպե՞ս կարող ենք կանխատեսել, թե ինչ ընդհանուր թեման է հոդվածը: Այս հարցի պատասխանը օգտակար է Վիքիպեդիայի դինամիկայի տարբեր վերլուծությունների համար: Այնուամենայնիվ, դժվար է ձեռքով խումբավորել Վիքիբեդիայի շատ բազմազան հոդվածներ համահունչ, համահունչ թեմաների մեջ:
Այս մոդելը, որը հանդիսանում է ORES մոդելների հավաքածուի մաս, վերլուծում է հոդվածը, որպեսզի կանխատեսի դրա ենթադրությունը, որ այն պատկանում է մի շարք թեմաների: Նման մոդելներ (չնայած պարտադիր չէ, որ ունեն նույն կատարողական մակարդակ կամ թեմաներ, տեղադրվում են մոտ մեկ տասնյակ այլ նախագծերում:
Այս մոդելը կարող է օգտակար լինել Վիքիպեդիայի դինամիկայի բարձր մակարդակի վերլուծությունների համար (երբացանկային դիտումներ, հոդվածների որակ, խմբագրման միտումներ) եւ հոդվածների ֆիլտրման համար:
Օգտագործողներ եւ օգտագործումներ
[edit]- Վիքիպեդիայի դինամիկայի բարձր մակարդակի վերլուծություններ, ինչպիսիք են էջի տեսանկյունը, հոդվածի որակը կամ խմբագրման միտումները. օրինակ. Ինչպե՞ս տարբերվում են էջի դիտման դինամիկան ֆիզիկայի եւ կենսաբանության կատեգորիաների միջեւ:
- ֆիլտրում համապատասխան հոդվածների վրա. օրինակ, ֆիլտրում միայն երաժշտության կատեգորիայի հոդվածները:
- վերջնականապես հաստատելով, թե ինչ թեման է վերաբերում հոդվածը
- հոդվածների կամ թեմաների ավտոմատ խմբագրումը առանց մարդու տեղակայման
Այս մոդելը ORES-ի մասն է եւ ընդհանուր առմամբ հասանելի է API-ի միջոցով: Այն օգտագործվում է Վիքիպեդիայի բարձր մակարդակի վերլուծության, պլատֆորմային հետազոտությունների եւ այլ վիքի-ի վրա կատարվող գործերի համար:
Example API call:{{{model_input}}}
Էթիկական դիտարկումներ, նախազգուշացումներ եւ առաջարկություններ
[edit]- Այս մոդելը պատրաստվել է մի քանի տարվա տվյալների վրա (մինչեւ 2020 թվականի կեսերը): Հիմնական տվյալների տատանումը կարող է խեղաթյուրել մոդելի արդյունքները:
- Այս մոդելը օգտագործում է Word2vec որպես ուսուցման հատկություն: Word2vec- ը, ինչպես այլ բնական լեզուներ, կոդավորում է ենթակա տվյալների հավաքածուների լեզվական կողմնակալությունները ՝ ըստ սեռի, ռասիայի, էթնիկության, կրոնի եւ այլն: Քանի որ Վիքիպեդիան իր տեքստում գիտի կողմնակալություններ, այս մոդելը կարող է կոդավորել եւ երբեմն վերարտադրել այդ կողմնակալությունը:
- Այս մոդելը տարբեր թեմաների միջեւ շատ փոփոխական է կատարում. Ստորեւ բերված փորձարկման վիճակագրությունը կարող եք դիտել թեմաների միջանցի կատարման մասին:
Մոդել
[edit]Պահանջվող կատարումը
[edit]Test data confusion matrix: {{{confusion_matrix}}}
Test data sample rates: {{{sample_rates}}}
Test data performance: {{{performance}}}
Գործարկում
[edit]{{{model_architecture}}}
{{{model_output_schema}}}
{{{model_input}}}
Output:
{{{model_output}}}
Տվյալներ
[edit]Դասընթացների համար նախատեսված տվյալները վերցվել են վերանայման ID-ների մի շարքից: Այնուհետեւ ավտոմատացված գործընթացների միջոցով վերանայության վերաբերյալ տարբեր տեղեկություններ են հանվել, եւ վերանայումը պարունակում է word2vec ՝ հոդվածի ներկրում ստանալու համար: Վերջապես, տեքստները բխում են միջին մակարդակի WikiProject կատեգորիաներից, որոնց հետ հոդվածը կապված է:
Մշակման տվյալները ինքնաբերաբար եւ պատահականորեն բաժանվում էին փորձարկման տվյալներից ուսուցման ընթացքում' օգտագործելով drafttopic git repository (որը մշակում է թե՛ նախագծային թե՛ հոդվածային մոդելներ):
Թեստային տվյալները ավտոմատորեն եւ պատահականորեն բաժանվում են գնացքի տվյալներից ՝ օգտագործելով drafttopic git պահեստ (որը մարզում է թե՛ նախագիծային թե՛ հոդվածային մոդելներ): Մոդելը այնուհետեւ կանխատեսում է այդ տվյալները, որը համեմատվում է հիմնական հողի ճշմարտության հետ կատարողականի վիճակագրության հաշվարկի համար:
Անվճարներ
[edit]- Code: MIT license
- Model: MIT license
Նշում
[edit]Cite this model card as:
@misc{
Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_topic,
title={ {{{language}}} {{{project}}} article topic model card },
author={ Triedman, Harold and Bazira, Kevin },
year={ 2023 },
url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_topic/hy }
}