Research:Revision scoring as a service/Word lists/ms

From Meta, a Wikimedia project coordination wiki


ISO code Language Generated list Badwords Informal words Stopwords Dictionary Stemmer Contact person Wiki labels Interface Forms Campaign Needs
ms Bahasa Melayu (Wikipedia) 250 90 69 - - - See: Word lists requested no no no -
Generated list [1]

Words in the generated list commonly appear in reverted revisions but not in others. This list is generated using a TF-IDF approach.

  1. aiyah
  2. ajaraham
  3. althpought
  4. amagine
  5. anjeng
  6. anjenk
  7. anjing
  8. annabell
  9. ansara
  10. antiamling
  11. apakah
  12. apakala
  13. apapula
  14. ape
  15. arabny
  16. asu
  17. ativity
  18. babi
  19. baibai
  20. bakut
  21. bakuteh
  22. bakutteh
  23. bangsat
  24. bangsatny
  25. bangsatttttttttt
  26. bapak
  27. bara
  28. becaose
  29. becouse
  30. beliaoe
  31. bercanggahan
  32. berformat
  33. berisik
  34. bermancung
  35. berrehun
  36. bigined
  37. bisa
  38. blockquote
  39. bodoh
  40. boelan
  41. boetir
  42. brader
  43. brudder
  44. buger
  45. cardle
  46. casiu
  47. cecontoh
  48. charecher
  49. charsiu
  50. chinany
  51. chrisnandi
  52. cibai
  53. condong
  54. condude
  55. contoh
  56. creartures
  57. creaturs
  58. creazy
  59. dah
  60. damn
  61. diangggap
  62. diketemukanny
  63. diklaim
  64. distinquih
  65. ditoejoekan
  66. domuzu
  67. ecquisition
  68. elbegdorj
  69. emmss
  70. ensiklopidik
  71. entri
  72. erection
  73. example
  74. faitfull
  75. farmyard
  76. fatsun
  77. fookin
  78. fronf
  79. fuck
  80. ganyang
  81. gay
  82. griveth
  83. hah
  84. hahahaha
  85. hapus
  86. hariadi
  87. heafter
  88. hehe
  89. hendakny
  90. hensem
  91. herafter
  92. hina
  93. hubungi
  94. ibaratnya
  95. inggrisny
  96. intellgence
  97. interbiu
  98. irisan
  99. italik
  100. itoe
  101. jamban
  102. jeroan
  103. kalau
  104. kalimat
  105. kampang
  106. kapan
  107. karena
  108. kasi
  109. kat
  110. kebhoku
  111. kecap
  112. kelembapan
  113. kesengajaannya
  114. kesiapannya
  115. ketum
  116. ketumkethamin
  117. khinz
  118. kitoba
  119. klaim
  120. knowlwdge
  121. kobuki
  122. konek
  123. konowledge
  124. kontol
  125. kotor
  126. kumolo
  127. lah
  128. laknat
  129. latestads
  130. lawakan
  131. locset
  132. loghatny
  133. lotnisko
  134. lovato
  135. macam
  136. malaysiaaaaaaaaaaaaa
  137. malaysiabangsat
  138. maling
  139. malingsi
  140. malingsia
  141. malingsie
  142. malingya
  143. mampos
  144. mapang
  145. masukkan
  146. math
  147. mau
  148. melayuny
  149. meleysi
  150. memamah
  151. mempoenyai
  152. mengoelangi
  153. menyembunyikan
  154. meroepakan
  155. mochyn
  156. mosth
  157. mytricajus
  158. nak
  159. nanang
  160. navarra
  161. nikahi
  162. nonm
  163. nowiki
  164. nyasar
  165. oechapan
  166. ofternoon
  167. ordains
  168. othert
  169. pamitan
  170. partainya
  171. pedulik
  172. pencuri
  173. pengatas
  174. penularan
  175. perhimpoenan
  176. pig
  177. plagiator
  178. prapatan
  179. prinsipel
  180. pru
  181. pryogo
  182. pukimak
  183. raeding
  184. relatedby
  185. rosmah
  186. saksang
  187. sari
  188. satoe
  189. saya
  190. sayange
  191. scinece
  192. scrofa
  193. sekba
  194. selena
  195. senyumsmile
  196. sesungguhny
  197. shit
  198. shoul
  199. sial
  200. sialan
  201. siqalirik
  202. sisipkan
  203. sparerib
  204. spiessbraten
  205. subskrip
  206. suksuwan
  207. sumbangan
  208. sunting
  209. superskrip
  210. tai
  211. tajuk
  212. tak
  213. tapi
  214. tarragona
  215. tau
  216. tebal
  217. teks
  218. tendencies
  219. tengok
  220. terhina
  221. terseboet
  222. thirdly
  223. tiem
  224. tjahjo
  225. tki
  226. toys
  227. trainable
  228. truffle
  229. truffles
  230. trymasak
  231. tsakhiagiin
  232. tukang
  233. tukarlah
  234. tukasnya
  235. tusukannya
  236. ungkapnya
  237. ungulata
  238. unlidless
  239. usperior
  240. vmfy
  241. walaoepoen
  242. wasit
  243. wassup
  244. whay
  245. whosooever
  246. whososoever
  247. wikiprojek
  248. wmt
  249. yuddy
  250. zamre
Generated common words

Common words appear on all revisions reverted or otherwise. In the English language this would include words like 'the' or 'is' which are meaningless on their own. This list is generated using a TF-IDF approach.

  1. accessdate
  2. ada
  3. adalah
  4. ahli
  5. air
  6. akan
  7. amerika
  8. anak
  9. and
  10. antara
  11. apabila
  12. area
  13. arrondissement
  14. asal
  15. asp
  16. atas
  17. atau
  18. awal
  19. bagi
  20. bahagian
  21. bahasa
  22. bahawa
  23. bandar
  24. banyak
  25. barat
  26. baru
  27. bawah
  28. beberapa
  29. beliau
  30. berjaya
  31. bermula
  32. bersama
  33. besar
  34. bin
  35. boleh
  36. buah
  37. bukan
  38. bulan
  39. canton
  40. caption
  41. category
  42. center
  43. cite
  44. class
  45. coa
  46. code
  47. com
  48. communaut
  49. communes
  50. dalam
  51. dan
  52. dapat
  53. dari
  54. daripada
  55. date
  56. deg
  57. dengan
  58. department
  59. dia
  60. digunakan
  61. dikenali
  62. diri
  63. district
  64. dua
  65. dunia
  66. elevation
  67. fail
  68. file
  69. first
  70. for
  71. from
  72. gambar
  73. german
  74. gov
  75. hanya
  76. hari
  77. hidup
  78. hingga
  79. home
  80. htm
  81. html
  82. http
  83. iaitu
  84. ialah
  85. image
  86. imej
  87. index
  88. infobox
  89. inggeris
  90. ini
  91. insee
  92. intercommunality
  93. itu
  94. januari
  95. jenis
  96. jpg
  97. juga
  98. jun
  99. kali
  100. kategori
  101. kawasan
  102. kecil
  103. kedua
  104. kelahiran
  105. kemudian
  106. kepada
  107. kerajaan
  108. kerana
  109. ketika
  110. ketua
  111. kini
  112. kumpulan
  113. lagi
  114. lain
  115. lama
  116. laman
  117. lat
  118. latitude
  119. lebih
  120. left
  121. lihat
  122. link
  123. location
  124. lon
  125. longitude
  126. luar
  127. mac
  128. malaysia
  129. mana
  130. masa
  131. masih
  132. max
  133. mayor
  134. mei
  135. melalui
  136. melayu
  137. membuat
  138. mempunyai
  139. mendapat
  140. mengambil
  141. menggunakan
  142. mengikut
  143. menjadi
  144. mereka
  145. merupakan
  146. mula
  147. nama
  148. name
  149. namun
  150. ndash
  151. negara
  152. negeri
  153. news
  154. old
  155. oleh
  156. orang
  157. org
  158. pada
  159. page
  160. paling
  161. partement
  162. party
  163. pautan
  164. pelbagai
  165. pernah
  166. pertama
  167. php
  168. plan
  169. png
  170. population
  171. postal
  172. publisher
  173. pula
  174. pusat
  175. rasmi
  176. raya
  177. ref
  178. references
  179. reflist
  180. region
  181. right
  182. rujukan
  183. rumah
  184. sahaja
  185. salah
  186. sama
  187. satu
  188. sebagai
  189. sebelum
  190. sebuah
  191. sec
  192. secara
  193. sehingga
  194. sejak
  195. sejarah
  196. sekitar
  197. selain
  198. selatan
  199. selepas
  200. semasa
  201. semua
  202. semula
  203. senarai
  204. sendiri
  205. seorang
  206. seperti
  207. serta
  208. setiap
  209. size
  210. small
  211. ssel
  212. state
  213. stub
  214. style
  215. svg
  216. syarikat
  217. tahun
  218. tanah
  219. tanpa
  220. telah
  221. tempat
  222. terdapat
  223. terhadap
  224. term
  225. termasuk
  226. tersebut
  227. tetapi
  228. the
  229. thumb
  230. tiada
  231. tidak
  232. tiga
  233. tinggi
  234. title
  235. tunas
  236. turut
  237. type
  238. untuk
  239. url
  240. utama
  241. utara
  242. walaupun
  243. web
  244. website
  245. with
  246. www
  247. yang
  248. year
Bad words

Bad words are words that would be commonly associated with vandalism. They are generally used to insult or be vulgar. This includes curse words, racial slurs, assertions of- and prejudices against sexual preferences.

  1. ale
  2. aleuto
  3. anjing
  4. anjeng
  5. anjenk
  6. babeng
  7. babi
  8. bahlul
  9. bahalul
  10. bakuteh
  11. bakutteh
  12. balaci
  13. bangang
  14. bangsat
  15. bangsatny
  16. bangsatttttttttt
  17. bapak
  18. bapok
  19. batang
  20. berak
  21. bodoh
  22. bohsia
  23. bongok
  24. burit
  25. butoh
  26. celaka
  27. cilaka
  28. cibai
  29. creazy
  30. damn
  31. fookin
  32. fuck
  33. ganyang
  34. gay
  35. gila
  36. giler
  37. hanat
  38. haram
  39. jahanam
  40. jadah
  41. jalang
  42. jilat
  43. kamjat
  44. katak
  45. kencing
  46. kepam
  47. khinz
  48. konek
  49. kontol
  50. kongkek
  51. kopek
  52. kote
  53. kotek
  54. kunyit
  55. lahabau
  56. lahanat
  57. lancau
  58. lanjiao
  59. macai
  60. malaysiaaaaaaaaaaaaa
  61. malaysiabangsat
  62. maling
  63. malingsi
  64. malingsia
  65. malingsie
  66. malingya
  67. mampos
  68. mampus
  69. meleysi
  70. merecik
  71. palat
  72. pepek
  73. plagiator
  74. politahi
  75. politaik
  76. politikus
  77. puki
  78. pukimak
  79. pundek
  80. sangap
  81. shit
  82. sial
  83. sialan
  84. sundal
  85. tahi
  86. tarragona
  87. terjengkang
  88. tetek
  89. uto
  90. waknat
Informal words

Informal words are words unwelcome on article namespace but would be acceptable on talk pages. This would include words such as 'hello' or 'hahaha' which would be fine in discussions but not in articles.

  1. aiyah
  2. bleh
  3. brader
  4. brudder
  5. dah
  6. hah
  7. haha
  8. hahaha
  9. hahahaha
  10. hehe
  11. leh
  12. ni
  13. tu
  14. ko
  15. korang
  16. diorang
  17. kitorang
  18. nape
  19. camne
  20. camtu
  21. cegitu
  22. camni
  23. canni
  24. cegini
  25. dah
  26. lah
  27. pi
  28. gi
  29. kat
  30. kasi
  31. ne
  32. tau
  33. je
  34. aje
  35. a'ah
  36. makwe
  37. awek
  38. pakwe
  39. balak
  40. minah
  41. mamat
  42. skodeng
  43. cun
  44. jom
  45. poyo
  46. selenge
  47. blah
  48. mai
  49. mau
  50. nak
  51. tapi
  52. tau
  53. apesal
  54. sal
  55. pehal
  56. yah
  57. pastu
  58. amik
  59. pekena
  60. jap
  61. sat
  62. pisyang
  63. pishang
  64. bai
  65. beb
  66. ek
  67. ke
  68. kekwat
  69. kasi