Research:Revision scoring as a service/Word lists/min

From Meta, a Wikimedia project coordination wiki


ISO code Language Generated list Badwords Informal words Stopwords Dictionary Stemmer Contact person Wiki labels Interface Forms Campaign Needs
min Minangkabau (Wikipedia) 250 - - - - - See: Word lists requested no no no -
Generated list [1]

Words in the generated list commonly appear in reverted revisions but not in others. This list is generated using a TF-IDF approach.

  1. abdar
  2. abupat
  3. acaro
  4. aced
  5. acedo
  6. acmaeops
  7. adaik
  8. adalah
  9. ado
  10. adolah
  11. adromerid
  12. agamkab
  13. agne
  14. agno
  15. agnu
  16. agnus
  17. ahlijsanda
  18. ahun
  19. aihdaeq
  20. ain
  21. ajadian
  22. ajo
  23. ajuk
  24. akan
  25. akedonietis
  26. akedoniyal
  27. akila
  28. alahiaran
  29. alaman
  30. alasdair
  31. alastar
  32. alecsander
  33. aleixandre
  34. alejandro
  35. alejandru
  36. aleksandar
  37. aleksandr
  38. aleksandras
  39. aleksandri
  40. aleksandro
  41. aleksandros
  42. aleksandrs
  43. aleksandur
  44. aleksanteri
  45. alender
  46. alessandro
  47. alessandru
  48. alexandr
  49. alexandre
  50. alexandro
  51. alexandros
  52. alexandrosz
  53. alexandru
  54. allidium
  55. almanak
  56. alxandre
  57. amatian
  58. andia
  59. anduang
  60. animali
  61. anju
  62. anjuang
  63. anjung
  64. ano
  65. antari
  66. antaro
  67. antogan
  68. anu
  69. aperda
  70. apulauan
  71. apuloan
  72. araik
  73. arangdon
  74. arat
  75. arazo
  76. ardano
  77. are
  78. ari
  79. aritania
  80. ashuhuri
  81. asional
  82. aso
  83. atatan
  84. atau
  85. ategori
  86. ategory
  87. ational
  88. atu
  89. autan
  90. ayo
  91. bal
  92. category
  93. cel
  94. cia
  95. cija
  96. com
  97. commons
  98. dan
  99. dari
  100. dati
  101. dek
  102. den
  103. dengan
  104. deratsioon
  105. desa
  106. difus
  107. egency
  108. eilanden
  109. elik
  110. eliki
  111. eme
  112. emospongia
  113. endidikan
  114. engalihan
  115. eografi
  116. epulauan
  117. erkas
  118. eur
  119. ezin
  120. futbalov
  121. futbollistike
  122. futbolo
  123. gads
  124. geografis
  125. gregoryen
  126. hari
  127. html
  128. http
  129. https
  130. idysis
  131. ielais
  132. ies
  133. igo
  134. ihat
  135. ijarah
  136. ikli
  137. ile
  138. inang
  139. intau
  140. isandro
  141. isandru
  142. issander
  143. issandru
  144. itubanda
  145. jiwa
  146. jpg
  147. jumalah
  148. jumlah
  149. kabupaten
  150. kaki
  151. kecamatan
  152. kelurahan
  153. kir
  154. konfeder
  155. konfederacija
  156. kota
  157. lkarne
  158. ltur
  159. lua
  160. luar
  161. luas
  162. maked
  163. malabihi
  164. maropoan
  165. marupoan
  166. marupokan
  167. melebihi
  168. menjadi
  169. moi
  170. mwa
  171. nagara
  172. nagari
  173. nama
  174. nan
  175. ndr
  176. negara
  177. nggirih
  178. nthophagus
  179. okoh
  180. old
  181. onf
  182. onfeder
  183. onfedera
  184. onfederaci
  185. onfederasyonu
  186. onfederata
  187. onfederazzjoni
  188. oohr
  189. org
  190. orifer
  191. ota
  192. otbal
  193. oto
  194. pada
  195. pado
  196. pallidus
  197. pamarentah
  198. pemimpin
  199. penduduk
  200. perbandaran
  201. perempuan
  202. provinsi
  203. pula
  204. rammoptera
  205. ranala
  206. randa
  207. ranni
  208. rasmi
  209. ration
  210. ref
  211. region
  212. resmi
  213. right
  214. roete
  215. rote
  216. rutte
  217. sabagai
  218. sabuah
  219. sgender
  220. skender
  221. ski
  222. stub
  223. tahun
  224. tal
  225. tara
  226. tbol
  227. terkenal
  228. thumb
  229. tore
  230. uberitida
  231. ubu
  232. uguak
  233. uis
  234. ujukan
  235. ulon
  236. ulqarnay
  237. umpuak
  238. urang
  239. usun
  240. utbol
  241. utbola
  242. utebol
  243. uur
  244. uuri
  245. vets
  246. web
  247. www
  248. yah
  249. yang
Generated common words

Common words appear on all revisions reverted or otherwise. In the English language this would include words like 'the' or 'is' which are meaningless on their own. This list is generated using a TF-IDF approach.

  1. abupaten
  2. accessdate
  3. ada
  4. adalah
  5. adang
  6. administratif
  7. ado
  8. adolah
  9. aftar
  10. agara
  11. agari
  12. age
  13. ahasa
  14. ahaso
  15. ahun
  16. ain
  17. ajadian
  18. akan
  19. alah
  20. alahiaran
  21. alam
  22. alatan
  23. ali
  24. all
  25. almanak
  26. alt
  27. aman
  28. amatian
  29. ampek
  30. ancangan
  31. and
  32. antaro
  33. apulauan
  34. arat
  35. archive
  36. area
  37. ari
  38. asa
  39. asional
  40. aso
  41. atau
  42. ategori
  43. ategory
  44. ateh
  45. ational
  46. aun
  47. autan
  48. authority
  49. aya
  50. babarapo
  51. bagian
  52. bahasa
  53. bahaso
  54. banyak
  55. baru
  56. baso
  57. biaso
  58. bio
  59. birth
  60. body
  61. bumi
  62. capacity
  63. caption
  64. category
  65. center
  66. chairman
  67. cite
  68. clubname
  69. code
  70. com
  71. dalam
  72. dan
  73. dapek
  74. dari
  75. date
  76. dek
  77. dengan
  78. density
  79. disabuik
  80. ditamui
  81. dunia
  82. eferensi
  83. elahiran
  84. elatan
  85. ematian
  86. endidikan
  87. eografi
  88. epak
  89. eptember
  90. eristiwa
  91. erkas
  92. established
  93. first
  94. flag
  95. flagicon
  96. football
  97. footnotes
  98. for
  99. founded
  100. fullname
  101. gadang
  102. gads
  103. gregoryen
  104. ground
  105. html
  106. http
  107. ibliografi
  108. iko
  109. ile
  110. image
  111. imur
  112. inang
  113. inangkabau
  114. indak
  115. index
  116. indo
  117. info
  118. ini
  119. inyo
  120. itu
  121. itus
  122. jiwa
  123. jpg
  124. jumalah
  125. jumlah
  126. juo
  127. kabupaten
  128. kapalo
  129. kecamatan
  130. kelurahan
  131. kini
  132. kota
  133. koto
  134. lah
  135. lai
  136. lain
  137. lang
  138. last
  139. leader
  140. league
  141. left
  142. leftarm
  143. lua
  144. luar
  145. luas
  146. malabihi
  147. manager
  148. manjadi
  149. map
  150. marupoan
  151. marupokan
  152. melebihi
  153. nagara
  154. nagari
  155. nama
  156. name
  157. namo
  158. nan
  159. native
  160. nbsp
  161. ndonesia
  162. negara
  163. news
  164. nfobox
  165. nggirih
  166. nggris
  167. nickname
  168. niversity
  169. nyo
  170. official
  171. offset
  172. okoh
  173. old
  174. oleh
  175. oohr
  176. opember
  177. org
  178. ota
  179. oto
  180. ovember
  181. pada
  182. pado
  183. page
  184. pattern
  185. pdf
  186. pemimpin
  187. penduduk
  188. perbandaran
  189. perempuan
  190. php
  191. png
  192. population
  193. porifera
  194. position
  195. provinsi
  196. publisher
  197. pulo
  198. ranala
  199. rang
  200. rasmi
  201. ref
  202. reflist
  203. residen
  204. resmi
  205. right
  206. rightarm
  207. sabagai
  208. sabuah
  209. salah
  210. sampai
  211. sarato
  212. satu
  213. season
  214. sebagai
  215. shorts
  216. slam
  217. small
  218. socks
  219. status
  220. stub
  221. suku
  222. surang
  223. svg
  224. tahun
  225. tamasuak
  226. tapi
  227. tara
  228. taro
  229. tasabuik
  230. taun
  231. the
  232. thumb
  233. title
  234. type
  235. ujuakan
  236. ujukan
  237. uku
  238. umum
  239. untuak
  240. untuk
  241. urang
  242. url
  243. utc
  244. web
  245. website
  246. width
  247. work
  248. www
  249. yaitu
  250. yang
  251. year

Bad words

Bad words are words unwelcome on any page. This would include curse words, spam and other content that would be reverted regardless of where it is inserted.

Needs bad words... Use |list-badwords=

Informal words

Informal words are words unwelcome on article namespace but would be acceptable on talk pages. This would include words such as 'hello' or 'hahaha' which would be fine in discussions but not in articles.

Needs informal words... Use |list-informal=