Research:Revision scoring as a service/Word lists/et

From Meta, a Wikimedia project coordination wiki


ISO code Language Generated list Badwords Informal words Stopwords Dictionary Stemmer Contact person Wiki labels Interface Forms Campaign Needs
et eesti (Wikipedia) 250 - - - - - See: Word lists requested no no almost complete [1] -
Generated list [2]

Words in the generated list commonly appear in reverted revisions but not in others. This list is generated using a TF-IDF approach.

  1. abuses
  2. acuaticos
  3. admins
  4. affi
  5. age
  6. allalaetav
  7. aminals
  8. and
  9. animal
  10. animals
  11. anqa
  12. are
  13. asi
  14. ass
  15. because
  16. broken
  17. butt
  18. by
  19. call
  20. caupo
  21. cay
  22. children
  23. cock
  24. comenz
  25. could
  26. delete
  27. deskana
  28. digitark
  29. disputed
  30. district
  31. driigid
  32. early
  33. eestini
  34. eestlasi
  35. eet
  36. eksoplaneet
  37. empez
  38. erect
  39. estudiar
  40. eventually
  41. exoplanet
  42. father
  43. festas
  44. fiesta
  45. finalista
  46. formaatimata
  47. fotoportaal
  48. frogi
  49. fterran
  50. fuck
  51. fucking
  52. gaasidest
  53. ganaron
  54. gay
  55. gei
  56. gliese
  57. gportal
  58. gw
  59. haendel
  60. haha
  61. hahaha
  62. hatched
  63. hendriku
  64. hermafrodiit
  65. hiidplaneet
  66. him
  67. himself
  68. his
  69. homo
  70. homod
  71. hubermann
  72. idioot
  73. idiot
  74. idiots
  75. if
  76. itan
  77. jobu
  78. joelfees
  79. joelfeest
  80. jou
  81. julblot
  82. julfest
  83. julo
  84. jumalused
  85. junn
  86. junni
  87. jupiteri
  88. kaastöö
  89. kaka
  90. kaldkiri
  91. kapchiy
  92. kasutaja
  93. kelgutamas
  94. kell
  95. kill
  96. kiri
  97. kirikukunst
  98. kiviplaneedid
  99. kreuzigungsgruppe
  100. kuradi
  101. kustutada
  102. kuusepuuga
  103. kyrkokonst
  104. lahingurivistuse
  105. libedad
  106. liking
  107. lingitav
  108. link
  109. links
  110. lits
  111. little
  112. lol
  113. loll
  114. lollakas
  115. lollid
  116. lumehelbeid
  117. lumememme
  118. lumesõda
  119. lõpptulemustega
  120. meeldib
  121. michalowicz
  122. miecyzslaw
  123. mina
  124. mine
  125. minge
  126. multiple
  127. munn
  128. munni
  129. munnid
  130. musek
  131. myanmari
  132. mõtetu
  133. nacionalizada
  134. neeger
  135. nigga
  136. noku
  137. noob
  138. now
  139. nukem
  140. näide
  141. näidis
  142. oistrakh
  143. olan
  144. oled
  145. olen
  146. olete
  147. palun
  148. pask
  149. pede
  150. peded
  151. pedekas
  152. pederast
  153. pederastid
  154. peenis
  155. peeru
  156. penis
  157. perse
  158. perses
  159. persse
  160. phentermine
  161. pig
  162. pigs
  163. pihku
  164. pistetud
  165. planeedid
  166. planeetidest
  167. planeta
  168. planetos
  169. please
  170. porno
  171. przepro
  172. punku
  173. putsi
  174. päikesesüsteem
  175. päikesesüsteemi
  176. põikasid
  177. raisk
  178. raped
  179. rasvane
  180. redirect
  181. redtube
  182. ristimisgrupp
  183. roboami
  184. räme
  185. sakib
  186. seks
  187. sisesta
  188. sitane
  189. sitt
  190. sitta
  191. smacked
  192. smegma
  193. smird
  194. spierdalajcie
  195. started
  196. stiiliprobleemid
  197. stilprobleme
  198. stop
  199. stupid
  200. subt
  201. suck
  202. sucks
  203. suht
  204. taevakehad
  205. tegelt
  206. tembri
  207. tere
  208. then
  209. they
  210. this
  211. throwers
  212. tie
  213. tiirleb
  214. tiptheauthors
  215. tocar
  216. tore
  217. tsau
  218. tsmir
  219. tussu
  220. tähelepanekutega
  221. türa
  222. tšmir
  223. utc
  224. vandalbot
  225. vandalize
  226. veebiprogrameerimine
  227. very
  228. viinapäev
  229. violinista
  230. viro
  231. vittu
  232. vitupea
  233. want
  234. was
  235. which
  236. wikipedia
  237. will
  238. wottele
  239. xcu
  240. xd
  241. yolo
  242. you
  243. yuil
Generated common words

Common words appear on all revisions reverted or otherwise. In the English language this would include words like 'the' or 'is' which are meaningless on their own. This list is generated using a TF-IDF approach.

  1. aasta
  2. aastal
  3. aastani
  4. aastast
  5. aastat
  6. aastatel
  7. aeg
  8. aga
  9. ainult
  10. ajal
  11. ajalugu
  12. alates
  13. all
  14. alla
  15. allikad
  16. ameerika
  17. and
  18. aprill
  19. artikkel
  20. artiklit
  21. asub
  22. august
  23. autor
  24. category
  25. class
  26. com
  27. commons
  28. coordinate
  29. defaultsort
  30. detsember
  31. di
  32. eest
  33. eesti
  34. eestis
  35. ega
  36. ehk
  37. ei
  38. elu
  39. enam
  40. enne
  41. esimene
  42. esimese
  43. est
  44. euroopa
  45. ew
  46. file
  47. hiljem
  48. htm
  49. html
  50. http
  51. ide
  52. iga
  53. ii
  54. il
  55. ile
  56. image
  57. in
  58. index
  59. inglise
  60. inimesed
  61. ist
  62. jaanuar
  63. jpg
  64. juba
  65. juuli
  66. juuni
  67. juures
  68. jäi
  69. järgi
  70. järjesta
  71. kaks
  72. kas
  73. kategooria
  74. keel
  75. keeles
  76. keeletoimeta
  77. kes
  78. kirjandus
  79. koduleht
  80. kogu
  81. kohta
  82. kokku
  83. kolm
  84. koos
  85. korda
  86. kui
  87. kuid
  88. kuna
  89. kuni
  90. kus
  91. kuu
  92. kõige
  93. kõik
  94. le
  95. left
  96. liit
  97. link
  98. linna
  99. lisa
  100. lisaks
  101. lk
  102. läbi
  103. lõuna
  104. maailma
  105. maakonna
  106. mida
  107. mille
  108. mis
  109. mitte
  110. märts
  111. nad
  112. nagu
  113. name
  114. need
  115. neid
  116. neist
  117. nende
  118. news
  119. ng
  120. nii
  121. nime
  122. nimi
  123. ning
  124. november
  125. nr
  126. ns
  127. näiteks
  128. of
  129. oktoober
  130. old
  131. ole
  132. oli
  133. olid
  134. olla
  135. olnud
  136. oma
  137. on
  138. org
  139. osa
  140. palju
  141. pdf
  142. peale
  143. php
  144. pildi
  145. pilt
  146. pisi
  147. png
  148. pole
  149. poolt
  150. px
  151. pärast
  152. põhja
  153. ref
  154. region
  155. right
  156. riigi
  157. riik
  158. rohkem
  159. rootsi
  160. räägib
  161. saab
  162. saanud
  163. sai
  164. saksa
  165. saksamaa
  166. sama
  167. samal
  168. samuti
  169. seal
  170. seda
  171. see
  172. selle
  173. sellest
  174. seotud
  175. september
  176. sest
  177. siis
  178. siiski
  179. small
  180. sse
  181. surnud
  182. suur
  183. svg
  184. sündinud
  185. tagasi
  186. tallinn
  187. tallinna
  188. tartu
  189. teda
  190. teine
  191. teise
  192. teiste
  193. tema
  194. the
  195. thumb
  196. toimeta
  197. toimetaaeg
  198. tuntud
  199. type
  200. tõttu
  201. umbes
  202. usa
  203. uus
  204. vaata
  205. vahel
  206. vaid
  207. vald
  208. vana
  209. varem
  210. vastu
  211. veebruar
  212. veel
  213. vene
  214. venemaa
  215. viide
  216. viited
  217. von
  218. väga
  219. välislingid
  220. välja
  221. või
  222. võib
  223. www
  224. ära
  225. ühe
  226. üks
  227. üle
  228. ülikool
Bad words

Bad words are words that would be commonly associated with vandalism. They are generally used to insult or be vulgar. This includes curse words, racial slurs, assertions of- and prejudices against sexual preferences.

  1. idio+t(s)?
  2. pig(s)?
  3. pede(d)?
  4. st(u|oo+)pid
  5. loll(akas|id)?
  6. munn(i|id|e)?
  7. kaka(junn)?
  8. noku
  9. noks
  10. pede(d|kas)?
  11. fuck(ing|er)?
  12. vitt(u)?
  13. pask
  14. homo(kas|d|kad)?
  15. puts(i)?
  16. pederast(id)?
  17. sitt(a)?
  18. lits(id)?
  19. türa
  20. jobu(d)?
  21. sita(ne|junn|hunnik)?
  22. vitupea
  23. nigga(s)?
  24. nig+(a|e|u)+(r|h)+
  25. (f|ph)ag+(ot)?
  26. motherfucker
  27. kepp(is|i|ida)?
  28. tuss(u)?
  29. pussy
  30. butt(hole)?
  31. crap
  32. cock
  33. taun
  34. nahh+ui
  35. perse(s|sse)?
Informal words

Informal words are words unwelcome on article namespace but would be acceptable on talk pages. This would include words such as 'hello' or 'hahaha' which would be fine in discussions but not in articles.

  1. t(s|š)mir
  2. kill
  3. pihku
  4. animal
  5. lohh
  6. lol(l|z)?
  7. yolo
  8. jou
  9. raisk
  10. tere
  11. suht
  12. tsau
  13. tegelt
  14. sakib
  15. noob
  16. haha
  17. hahaa
  18. hahaha
  19. räme
  20. ilge
  21. lahe
  22. hmm
  23. [ck](oo|ew)l(er|est)?
  24. ime(ge)?
  25. fakking
  26. kuradi
  27. neeger
  28. tat(t|id)
  29. junn(i)?
  30. gängsta
  31. suck(ing|er)?