Research:Revision scoring as a service/Word lists/eo

From Meta, a Wikimedia project coordination wiki


ISO code Language Generated list Badwords Informal words Stopwords Dictionary Stemmer Contact person Wiki labels Interface Forms Campaign Needs
eo Esperanto (Wikipedia) 250 19 - nltk.stopwords enchant.Dict nltk.SnowballStemmer See: Word lists translated no no started [1], not auto-labelled more badwords, informal words
Generated list [2]

Words in the generated list commonly appear in reverted revisions but not in others. This list is generated using a TF-IDF approach.

  1. abolis
  2. adc
  3. afraid
  4. alinomigu
  5. ambaux
  6. anarchism
  7. ankaux
  8. ankoraux
  9. anqa
  10. antaux
  11. anymore
  12. apart
  13. are
  14. ass
  15. aux
  16. auxstrio
  17. baldaux
  18. bambifan
  19. benzinomotoro
  20. bitch
  21. blowjob
  22. bondage
  23. boobs
  24. bother
  25. broken
  26. but
  27. cal
  28. capitalistic
  29. carry
  30. cay
  31. censored
  32. censoring
  33. chained
  34. changed
  35. cock
  36. come
  37. comyo
  38. constantly
  39. could
  40. crumble
  41. cry
  42. cumshot
  43. cumshots
  44. cxar
  45. cxe
  46. cxefa
  47. cxefaj
  48. cxefe
  49. cxefministro
  50. cxefurbo
  51. cxi
  52. cxiam
  53. cxinio
  54. cxirkaux
  55. cxiu
  56. cxiuj
  57. delete
  58. desegnitaj
  59. did
  60. disambiguation
  61. diskutejon
  62. diskutpaĝon
  63. disney
  64. dropping
  65. ecx
  66. email
  67. enlaj
  68. escorts
  69. estigxis
  70. euxropa
  71. euxropo
  72. expect
  73. external
  74. face
  75. faggot
  76. fantastaj
  77. farigxis
  78. feeling
  79. foliumilon
  80. forigu
  81. free
  82. fterran
  83. fuck
  84. fucking
  85. gay
  86. geaktoroj
  87. gepatrano
  88. get
  89. give
  90. goodbye
  91. gportal
  92. grew
  93. gxenerale
  94. gxermo
  95. gxi
  96. gxia
  97. gxin
  98. gxis
  99. had
  100. hagger
  101. hard
  102. hardcore
  103. hateful
  104. have
  105. here
  106. hidrokarbonidoj
  107. hodiaux
  108. hold
  109. href
  110. hurt
  111. iala
  112. just
  113. kanonika
  114. kapchiy
  115. kauxzas
  116. kept
  117. kirchheimb
  118. know
  119. komediaj
  120. kontraux
  121. laptop
  122. largxa
  123. laux
  124. learned
  125. like
  126. links
  127. lobbyism
  128. lobbyists
  129. lock
  130. logxantaro
  131. look
  132. loving
  133. lulz
  134. luz
  135. lyrikline
  136. mediawiki
  137. mejloŝtonon
  138. mend
  139. moderniĝo
  140. money
  141. movie
  142. movies
  143. musek
  144. musique
  145. myself
  146. named
  147. naskigxintoj
  148. naskigxis
  149. nci
  150. nereviziitaj
  151. never
  152. nights
  153. not
  154. now
  155. obtain
  156. okr
  157. olan
  158. one
  159. out
  160. outer
  161. pandemonion
  162. petrified
  163. pics
  164. pictures
  165. pieces
  166. pisda
  167. pizza
  168. please
  169. poemid
  170. porn
  171. preskaux
  172. provinio
  173. przepro
  174. punku
  175. pussy
  176. really
  177. reitherman
  178. rulestheworld
  179. sanalritim
  180. saving
  181. sesto
  182. she
  183. shemale
  184. shemales
  185. shit
  186. shots
  187. should
  188. skaitlis
  189. smird
  190. somebody
  191. someone
  192. sorry
  193. soy
  194. spent
  195. spierdalajcie
  196. sponsored
  197. stay
  198. still
  199. strength
  200. strong
  201. stupid
  202. sucks
  203. superflua
  204. survive
  205. sxtatestro
  206. sxtato
  207. sxtatoj
  208. szilva
  209. taki
  210. teen
  211. teritoria
  212. tgp
  213. that
  214. there
  215. they
  216. think
  217. thinking
  218. this
  219. took
  220. tranny
  221. transexual
  222. transsexual
  223. tried
  224. trovigxas
  225. try
  226. trying
  227. tsmir
  228. turn
  229. usuario
  230. vandalize
  231. videos
  232. walked
  233. walt
  234. was
  235. welcome
  236. weren
  237. whatsappforpcmi
  238. wheels
  239. who
  240. wikipedia
  241. wikipediadelete
  242. will
  243. wrong
  244. xcu
  245. you
  246. your
  247. zenno
  248. zetey
  249. ĝoŭ
Generated common words

Common words appear on all revisions reverted or otherwise. In the English language this would include words like 'the' or 'is' which are meaningless on their own. This list is generated using a TF-IDF approach.

  1. administra
  2. alia
  3. aliaj
  4. alidirektu
  5. all
  6. alta
  7. and
  8. angla
  9. ankaŭ
  10. ankoraŭ
  11. antaŭ
  12. apartenas
  13. aprilo
  14. areo
  15. artikolo
  16. aŭgusto
  17. bildo
  18. blazono
  19. category
  20. center
  21. centro
  22. clear
  23. com
  24. commons
  25. commonscat
  26. dato
  27. decembro
  28. dekstra
  29. denseco
  30. der
  31. des
  32. distrikto
  33. diversaj
  34. dosiero
  35. dua
  36. dum
  37. ekde
  38. eksteraj
  39. ekzemple
  40. ekzistas
  41. esperantistoj
  42. esperanto
  43. estas
  44. esti
  45. estis
  46. eta
  47. etimologio
  48. eŭropa
  49. eŭropo
  50. familio
  51. fare
  52. file
  53. fine
  54. flago
  55. fonto
  56. fontoj
  57. franca
  58. francio
  59. gallery
  60. geografio
  61. geokesto
  62. germana
  63. germanio
  64. granda
  65. havas
  66. havis
  67. historia
  68. historio
  69. homoj
  70. htm
  71. html
  72. http
  73. ili
  74. image
  75. index
  76. informkesto
  77. inter
  78. internacia
  79. iĝis
  80. jam
  81. januaro
  82. jarcento
  83. jaro
  84. jaroj
  85. jpg
  86. julio
  87. junio
  88. kaj
  89. kampoj
  90. kapo
  91. kategorio
  92. kelkaj
  93. kiam
  94. kie
  95. kiel
  96. kies
  97. kio
  98. kiu
  99. kiuj
  100. kiun
  101. kodo
  102. komunejo
  103. komunumaro
  104. komunumestraro
  105. komunumestro
  106. komunumo
  107. komunumoj
  108. kontraŭ
  109. koordinatoj
  110. kromnomo
  111. ktp
  112. kun
  113. lando
  114. lat
  115. latitudo
  116. laŭ
  117. left
  118. lia
  119. libera
  120. liberaj
  121. ligiloj
  122. ligoelstara
  123. ligoleginda
  124. lingvo
  125. listo
  126. literaturo
  127. loko
  128. long
  129. longitudo
  130. loĝantaro
  131. loĝantoj
  132. magyar
  133. majo
  134. maldekstra
  135. malnova
  136. map
  137. mapo
  138. marto
  139. mem
  140. mondo
  141. montaro
  142. mortintoj
  143. mortis
  144. morto
  145. multaj
  146. municipo
  147. municipoj
  148. name
  149. naskiĝintoj
  150. naskiĝis
  151. nbsp
  152. net
  153. nomata
  154. nombro
  155. nombroj
  156. nomo
  157. notoj
  158. nova
  159. novembro
  160. nun
  161. nur
  162. oficiala
  163. ofte
  164. okazis
  165. oktobro
  166. old
  167. oni
  168. org
  169. partio
  170. parto
  171. paĝo
  172. per
  173. php
  174. plej
  175. pli
  176. pluraj
  177. png
  178. por
  179. portalo
  180. post
  181. poste
  182. povas
  183. poŝtkodo
  184. pri
  185. priskribo
  186. pro
  187. projektoj
  188. provinco
  189. redirect
  190. ref
  191. references
  192. referencoj
  193. regiono
  194. regno
  195. retejo
  196. retpaĝo
  197. right
  198. rivero
  199. same
  200. sankta
  201. sed
  202. sen
  203. septembro
  204. sia
  205. sian
  206. simboloj
  207. sin
  208. situas
  209. situo
  210. stato
  211. sub
  212. sur
  213. svg
  214. tamen
  215. tempo
  216. teritorio
  217. the
  218. thumb
  219. tiam
  220. tie
  221. tiel
  222. ties
  223. time
  224. tio
  225. tipo
  226. titolo
  227. tiu
  228. tiuj
  229. tra
  230. tre
  231. tri
  232. troviĝas
  233. unu
  234. unua
  235. urbo
  236. urboj
  237. usono
  238. vidu
  239. vilaĝo
  240. vilaĝoj
  241. vivtempo
  242. www
  243. ĉar
  244. ĉirkaŭ
  245. ĉiuj
  246. ĝermo
  247. ĝia
  248. ĝin
  249. ĝis
  250. ŝtato
Bad words

Bad words are words that would be commonly associated with vandalism. They are generally used to insult or be vulgar. This includes curse words, racial slurs, assertions of- and prejudices against sexual preferences.

  1. ĉiesulino
  2. publikulo
  3. stratulo
  4. sinvendisto
  5. putino
  6. anuso
  7. anusulo
  8. bugri
  9. cico
  10. ĉiesulino
  11. ĉuri
  12. ĉuro
  13. cxiesulino
  14. cxuri
  15. cxuro
  16. fek
  17. fekado
  18. fekajxo
  19. fekero
  20. feki
  21. feko
  22. fektruo
  23. fikadi
  24. fikantino
  25. fikanto
  26. fikatino
  27. fikato
  28. fiki
  29. fikintino
  30. fikinto
  31. fikitino
  32. fikito
  33. fikontino
  34. fikonto
  35. fikotino
  36. fikoto
  37. fikuntino
  38. fikunto
  39. fikutino
  40. fikuto
  41. fingrumi
  42. forfikigxi
  43. frandzi
  44. glano
  45. kacego
  46. kaceto
  47. kaco
  48. kaco-suĉi
  49. kaco-sucxi
  50. kacujo
  51. kaki
  52. klabo
  53. kojonoj
  54. korpulenta
  55. kreteno
  56. malĉastulino
  57. malcxastulino
  58. mamo
  59. mam-pinto
  60. masturbi
  61. merdo
  62. midzi
  63. mordeti
  64. mordi
  65. onani
  66. onanigi
  67. patrinfikulo
  68. piĉo
  69. piĉo-leki
  70. picxo
  71. picxo-leki
  72. publikulino
  73. putinfilaĉo
  74. putinfilacxo
  75. putino
  76. seksumi
  77. sid-vangoj
  78. ŝmaci
  79. sodomii
  80. sodomiigi
  81. ŝpruci
  82. suĉi
  83. sucxi
  84. sxmaci
  85. sxpruci
  86. vagineto
  87. vagino
  88. volupta
  89. voluptama
Informal words

Informal words are words unwelcome on article namespace but would be acceptable on talk pages. This would include words such as 'hello' or 'hahaha' which would be fine in discussions but not in articles.

  1. damne
  2. ekshibiciulo
  3. fendo
  4. furzi
  5. furzo
  6. gadmeso
  7. geja
  8. kisi
  9. kondomo
  10. ovoj
  11. peniso
  12. pisi
  13. prepucio
  14. rektumo
  15. skroto
  16. varma
  17. vipi

Notes and references[edit]