Research:Revision scoring as a service/Word lists/id

From Meta, a Wikimedia project coordination wiki
Jump to navigation Jump to search


ISO code Language Generated list Badwords Informal words Stopwords Dictionary Stemmer Contact person Wiki labels Interface Forms Campaign Needs
id Bahasa Indonesia (Wikipedia) 250 70 - 355 custom stop words enchant.Dict - See: Word lists requested no no no informal words, stemmer
Generated list [1]

Words in the generated list commonly appear in reverted revisions but not in others. This list is generated using a TF-IDF approach.

  1. abduct
  2. abducted
  3. abnd
  4. aboput
  5. addleshaw
  6. addleshawgoddard
  7. alacrastore
  8. aound
  9. aqaeida
  10. arats
  11. ascott
  12. ashwood
  13. asseys
  14. bastards
  15. behaving
  16. beneficiaries
  17. beneficiary
  18. bersiarannya
  19. bgelieve
  20. bishopsgarth
  21. blackmail
  22. bleached
  23. cannaria
  24. cannary
  25. cartel
  26. cashflow
  27. chairamn
  28. chalong
  29. chiswick
  30. chocs
  31. civilised
  32. cloned
  33. coley
  34. committing
  35. consukltants
  36. coporate
  37. corrupted
  38. corrupting
  39. counterfeits
  40. dealers
  41. decit
  42. defamatory
  43. defraud
  44. defrauded
  45. dennmark
  46. destabalise
  47. deveoping
  48. diformat
  49. dipenyanyikan
  50. diperusahaan
  51. diselama
  52. dishonest
  53. dishonesty
  54. ditayangan
  55. diturunan
  56. diumat
  57. diupacara
  58. doimg
  59. earlied
  60. easyspace
  61. eaves
  62. emails
  63. emminence
  64. emporer
  65. erradicate
  66. escoduro
  67. escouturo
  68. evacuating
  69. everyuthing
  70. falsified
  71. ferdenzies
  72. financiers
  73. fogh
  74. forged
  75. frauds
  76. fraudsters
  77. fredrike
  78. fruadster
  79. gaitoh
  80. gased
  81. gauguin
  82. gedungan
  83. geftapo
  84. genreal
  85. geoffery
  86. gestapo
  87. gogh
  88. hahahahaha
  89. heathside
  90. hennessy
  91. heroin
  92. hofl
  93. holbock
  94. honchos
  95. horesell
  96. horucell
  97. hounslow
  98. husseins
  99. icann
  100. idthieves
  101. ikkicit
  102. illicit
  103. infoartis
  104. inheritances
  105. inhumane
  106. inkerman
  107. islaamic
  108. jcode
  109. jcoke
  110. jellinek
  111. jellygamat
  112. jeous
  113. jezuis
  114. kavling
  115. keprestasi
  116. kiled
  117. klisura
  118. kontol
  119. kreung
  120. kurtagic
  121. lamndering
  122. lanzerote
  123. laundering
  124. likes
  125. lockerbie
  126. loked
  127. loot
  128. looted
  129. lvmh
  130. maderia
  131. malhoney
  132. managemnt
  133. mareva
  134. meglomaniacs
  135. melalukan
  136. memebers
  137. memek
  138. menacesters
  139. menacsters
  140. mercinairy
  141. mercinary
  142. mervyn
  143. meryakan
  144. milochivich
  145. molosovich
  146. momnopoly
  147. mranmacaka
  148. munch
  149. murdered
  150. murdering
  151. mycrosoft
  152. nayional
  153. nesbitt
  154. netnapa
  155. ngentot
  156. ofking
  157. oif
  158. orgin
  159. orginating
  160. overdosed
  161. overdoses
  162. pacifc
  163. paedophile
  164. paedophiles
  165. panadta
  166. pattaya
  167. pattayadailynews
  168. paymasters
  169. penanugerahan
  170. pendeen
  171. pirated
  172. pleas
  173. poresident
  174. portugeuse
  175. probabl
  176. proceeds
  177. prosecurion
  178. prostituton
  179. prtending
  180. purchaser
  181. purport
  182. pyments
  183. qaieda
  184. rasmussen
  185. regards
  186. rellied
  187. retagline
  188. reyniel
  189. riotors
  190. riyhad
  191. robbed
  192. sabotaged
  193. sanook
  194. satanic
  195. satanists
  196. sathorn
  197. scamplans
  198. scienlogists
  199. scripys
  200. semil
  201. shinawatra
  202. shinawatrafrom
  203. sijamhodzic
  204. solicitors
  205. sophonpanich
  206. southall
  207. spanniards
  208. stealing
  209. steinway
  210. stockholding
  211. stojnic
  212. stole
  213. storecontent
  214. straws
  215. strieby
  216. subbagian
  217. suiisse
  218. sukhano
  219. sulphate
  220. superpowers
  221. sylvesta
  222. taenjamras
  223. taiwanalledging
  224. tawaian
  225. tennerife
  226. terrorise
  227. terrorised
  228. terrorising
  229. terrorists
  230. thaicia
  231. thailaland
  232. thanon
  233. thefts
  234. timeshare
  235. totally
  236. trespassing
  237. tricked
  238. tzcesar
  239. umairicains
  240. ummm
  241. unethical
  242. unexectantly
  243. usig
  244. viction
  245. washers
  246. webboard
  247. weybridge
  248. woking
  249. wynns
  250. yjr
Generated common words

Common words appear on all revisions reverted or otherwise. In the English language this would include words like 'the' or 'is' which are meaningless on their own. This list is generated using a TF-IDF approach.

  1. accessdate
  2. ada
  3. adalah
  4. age
  5. air
  6. akan
  7. akhir
  8. akhirnya
  9. alih
  10. amerika
  11. anak
  12. and
  13. antara
  14. april
  15. area
  16. at
  17. atas
  18. atau
  19. awal
  20. bagi
  21. bagian
  22. bahasa
  23. bahwa
  24. baik
  25. banyak
  26. barat
  27. baru
  28. bawah
  29. beberapa
  30. berada
  31. berasal
  32. berbagai
  33. berkas
  34. bernama
  35. bersama
  36. besar
  37. birth
  38. bisa
  39. bulan
  40. by
  41. caption
  42. center
  43. cite
  44. class
  45. com
  46. daerah
  47. daftar
  48. dalam
  49. dan
  50. dapat
  51. dari
  52. date
  53. defaultsort
  54. dengan
  55. desember
  56. di
  57. dia
  58. digunakan
  59. dikenal
  60. disebut
  61. dua
  62. dunia
  63. end
  64. file
  65. first
  66. for
  67. hal
  68. hanya
  69. hari
  70. harus
  71. hasil
  72. hidup
  73. hingga
  74. htm
  75. html
  76. http
  77. ii
  78. image
  79. in
  80. index
  81. indonesia
  82. infobox
  83. inggris
  84. ini
  85. itu
  86. jakarta
  87. januari
  88. jpg
  89. juga
  90. juli
  91. jumlah
  92. juni
  93. kali
  94. karena
  95. kategori
  96. ke
  97. kecil
  98. kedua
  99. kembali
  100. kemudian
  101. kepada
  102. kepala
  103. ketika
  104. kode
  105. kota
  106. lagi
  107. lahirmati
  108. lain
  109. lainnya
  110. lebih
  111. left
  112. lihat
  113. link
  114. luar
  115. maka
  116. maret
  117. masa
  118. masih
  119. masyarakat
  120. mei
  121. melakukan
  122. melalui
  123. membuat
  124. memiliki
  125. mempunyai
  126. menggunakan
  127. menjadi
  128. menurut
  129. mereka
  130. merupakan
  131. mulai
  132. nama
  133. name
  134. namun
  135. nasional
  136. negara
  137. news
  138. november
  139. of
  140. oktober
  141. old
  142. oleh
  143. on
  144. orang
  145. org
  146. pada
  147. paling
  148. para
  149. pernah
  150. pertama
  151. php
  152. png
  153. pos
  154. pranala
  155. publisher
  156. pula
  157. px
  158. rapikan
  159. ref
  160. referensi
  161. reflist
  162. resmi
  163. right
  164. rujukan
  165. rumah
  166. saat
  167. salah
  168. sama
  169. sampai
  170. sangat
  171. satu
  172. sebagai
  173. sebelum
  174. sebelumnya
  175. sebuah
  176. secara
  177. sedang
  178. sedangkan
  179. sehingga
  180. sejak
  181. sejarah
  182. sekarang
  183. sekitar
  184. selain
  185. selama
  186. selatan
  187. seluruh
  188. semua
  189. sendiri
  190. seorang
  191. seperti
  192. september
  193. serta
  194. setelah
  195. setiap
  196. situs
  197. stub
  198. suatu
  199. sudah
  200. svg
  201. tahun
  202. tanggal
  203. tanpa
  204. telah
  205. tempat
  206. tengah
  207. tentang
  208. terdapat
  209. terdiri
  210. tergolong
  211. terhadap
  212. terjadi
  213. termasuk
  214. tersebut
  215. tetapi
  216. the
  217. thumb
  218. tidak
  219. tiga
  220. timur
  221. tinggi
  222. title
  223. tokoh
  224. type
  225. umum
  226. untuk
  227. url
  228. utama
  229. utara
  230. waktu
  231. web
  232. website
  233. wilayah
  234. www
  235. yaitu
  236. yang
  237. year
Bad words

Bad words are words that would be commonly associated with vandalism. They are generally used to insult or be vulgar. This includes curse words, racial slurs, assertions of- and prejudices against sexual preferences.

  1. aboput
  2. anjing
  3. babi
  4. bajingan
  5. bangsat
  6. bastards
  7. bencong
  8. bishopsgarth
  9. bispak
  10. blo[o' ]*o?n
  11. brengse[kx]
  12. chalong
  13. cibai
  14. coley
  15. defamatory
  16. defraud
  17. diselama
  18. dishonest
  19. escoduro
  20. fogh
  21. fredrike
  22. gauguin
  23. ge[fs]tapo
  24. goblok
  25. heroin
  26. husseins
  27. indon
  28. jambut
  29. janc[uo]k
  30. jellinek
  31. jellygamat
  32. keparat
  33. kontol
  34. loked
  35. lonte
  36. lvmh
  37. malingsia
  38. memek
  39. monyong
  40. munch
  41. nesbitt
  42. netnapa
  43. ngentot
  44. overdosed
  45. paedophile
  46. paedophiles
  47. palaji
  48. panadta
  49. pedofil
  50. perek
  51. portugeuse
  52. prostituton
  53. pukimak
  54. riyhad
  55. satanic
  56. satanists
  57. sempak
  58. sinting
  59. steinway
  60. sukhano
  61. taenjamras
  62. terrorised
  63. terrorising
  64. terrorists
  65. tetek
  66. thaicia
  67. thailaland
  68. titit
  69. toket
  70. tzcesar

Informal words

Informal words are words unwelcome on article namespace but would be acceptable on talk pages. This would include words such as 'hello' or 'hahaha' which would be fine in discussions but not in articles.

Needs informal words... Use |list-informal=