Research:Revision scoring as a service/Word lists/gl

From Meta, a Wikimedia project coordination wiki
Jump to navigation Jump to search


ISO code Language Generated list Badwords Informal words Stopwords Dictionary Stemmer Contact person Wiki labels Interface Forms Campaign Needs
gl galego (Wikipedia) 250 - - - - - See: Word lists requested no no no -
Generated list [1]

Words in the generated list commonly appear in reverted revisions but not in others. This list is generated using a TF-IDF approach.

  1. adc
  2. ademas
  3. además
  4. alieans
  5. aliens
  6. alsaci
  7. amo
  8. anunciantes
  9. aqui
  10. aquí
  11. assim
  12. ate
  13. años
  14. bacon
  15. bem
  16. bien
  17. ble
  18. blogspot
  19. bold
  20. bottom
  21. breaks
  22. bueno
  23. but
  24. cabeceira
  25. cabron
  26. cabrón
  27. caca
  28. cago
  29. calidad
  30. campusformativo
  31. caracolimpicos
  32. carallo
  33. castiñeira
  34. charlotte
  35. chuggington
  36. chupa
  37. comes
  38. concellodetouro
  39. conjunto
  40. conocido
  41. cosas
  42. coño
  43. cual
  44. cualquier
  45. cuando
  46. cuenta
  47. cybertesis
  48. davincibles
  49. decir
  50. dia
  51. diariogalicia
  52. did
  53. didn
  54. dog
  55. donde
  56. earth
  57. eats
  58. einsteins
  59. ejemplo
  60. ellos
  61. elperal
  62. emmss
  63. encuentra
  64. eres
  65. escudotui
  66. eso
  67. esps
  68. espsformacion
  69. essa
  70. esse
  71. esto
  72. estos
  73. even
  74. existem
  75. face
  76. feliu
  77. feo
  78. ffffff
  79. follar
  80. formacionweb
  81. formatado
  82. fterran
  83. fuck
  84. fue
  85. galipedia
  86. gay
  87. geograf
  88. ghost
  89. give
  90. gmail
  91. gombby
  92. gormiti
  93. gornici
  94. gost
  95. gportal
  96. gusta
  97. hace
  98. hacen
  99. hacer
  100. hasta
  101. hay
  102. hijo
  103. hijos
  104. him
  105. his
  106. hoje
  107. hola
  108. homework
  109. hotmail
  110. iespana
  111. incomparbles
  112. incre
  113. insira
  114. isso
  115. jajaja
  116. jajajaja
  117. junto
  118. just
  119. kambu
  120. las
  121. lhe
  122. links
  123. lixo
  124. lixoporque
  125. llamado
  126. llamo
  127. los
  128. lster
  129. madre
  130. mainz
  131. making
  132. maricon
  133. maricón
  134. mas
  135. más
  136. math
  137. mejor
  138. merda
  139. metajets
  140. mierda
  141. misma
  142. mismo
  143. mockbuster
  144. mom
  145. money
  146. moral
  147. most
  148. movie
  149. mucho
  150. muchos
  151. muitas
  152. muito
  153. muitos
  154. mushiking
  155. muy
  156. nachom
  157. nacido
  158. nacio
  159. named
  160. negriña
  161. nombre
  162. nosso
  163. nowiki
  164. numa
  165. off
  166. olan
  167. opo
  168. otra
  169. otras
  170. otro
  171. otros
  172. padding
  173. pagina
  174. página
  175. pampered
  176. pela
  177. pendejo
  178. pene
  179. penela
  180. penes
  181. pequeño
  182. perra
  183. personas
  184. pie
  185. pig
  186. pigi
  187. pirucha
  188. poco
  189. polla
  190. pollas
  191. pot
  192. puede
  193. pueden
  194. puedes
  195. pues
  196. puta
  197. putas
  198. puto
  199. putos
  200. qualquer
  201. quando
  202. quem
  203. really
  204. redirect
  205. riasbaixas
  206. rips
  207. says
  208. scheme
  209. seja
  210. siempre
  211. siendo
  212. snake
  213. solo
  214. soy
  215. spider
  216. stupid
  217. sua
  218. superbruja
  219. sus
  220. tale
  221. tamb
  222. tambem
  223. tambi
  224. tambien
  225. también
  226. tamen
  227. tamén
  228. tells
  229. tener
  230. then
  231. they
  232. this
  233. tiene
  234. tienen
  235. todal
  236. tonto
  237. traici
  238. tried
  239. tudo
  240. turismoriasbaixas
  241. uma
  242. una
  243. uno
  244. unos
  245. user
  246. usted
  247. utc
  248. verga
  249. vezes
  250. viene
  251. walt
  252. wants
  253. weight
  254. whatever
  255. when
  256. which
  257. wiki
  258. wikipedia
Generated common words

Common words appear on all revisions reverted or otherwise. In the English language this would include words like 'the' or 'is' which are meaningless on their own. This list is generated using a TF-IDF approach.

  1. abril
  2. ademais
  3. alg
  4. align
  5. america
  6. and
  7. ano
  8. anos
  9. antes
  10. aos
  11. artigo
  12. artigos
  13. ata
  14. autoridades
  15. baixo
  16. base
  17. ben
  18. bibliograf
  19. cada
  20. cal
  21. cando
  22. cara
  23. caracter
  24. casa
  25. case
  26. categor
  27. category
  28. catro
  29. center
  30. centro
  31. cidade
  32. cita
  33. coa
  34. coas
  35. com
  36. coma
  37. commonscat
  38. como
  39. con
  40. contra
  41. control
  42. coordenadas
  43. cos
  44. culo
  45. cun
  46. cunha
  47. das
  48. data
  49. decembro
  50. defaultsort
  51. del
  52. dende
  53. densidade
  54. dereita
  55. desde
  56. despois
  57. deste
  58. display
  59. dos
  60. dous
  61. dun
  62. dunha
  63. durante
  64. entre
  65. era
  66. escudo
  67. españa
  68. esquerda
  69. est
  70. esta
  71. estado
  72. estados
  73. este
  74. estes
  75. externas
  76. febreiro
  77. ficheiro
  78. fico
  79. file
  80. finados
  81. foi
  82. forma
  83. foron
  84. galega
  85. galego
  86. galicia
  87. gran
  88. grande
  89. grupo
  90. hai
  91. historia
  92. hom
  93. htm
  94. html
  95. http
  96. idade
  97. igrexa
  98. image
  99. imaxe
  100. imaxes
  101. inclu
  102. isto
  103. jpg
  104. left
  105. lenda
  106. libro
  107. ligaz
  108. lingua
  109. link
  110. listaref
  111. lle
  112. localizaci
  113. logo
  114. los
  115. lugar
  116. lugares
  117. maio
  118. maior
  119. mais
  120. mapa
  121. mar
  122. marzo
  123. medio
  124. mentres
  125. mero
  126. mesmo
  127. mica
  128. miniatura
  129. moi
  130. mundo
  131. nado
  132. nados
  133. name
  134. nas
  135. nbsp
  136. nda
  137. ndose
  138. nica
  139. nico
  140. nimos
  141. nome
  142. non
  143. nos
  144. notas
  145. nova
  146. novembro
  147. novo
  148. nun
  149. nunha
  150. ocultas
  151. odo
  152. oficial
  153. old
  154. onde
  155. ordenar
  156. org
  157. orixe
  158. outra
  159. outras
  160. outro
  161. outros
  162. outroshom
  163. outubro
  164. para
  165. parroquias
  166. parte
  167. partir
  168. per
  169. pero
  170. personalidades
  171. php
  172. png
  173. poboaci
  174. pode
  175. poder
  176. pol
  177. pola
  178. polo
  179. polos
  180. por
  181. primeira
  182. primeiro
  183. principal
  184. progreso
  185. provincia
  186. publicaci
  187. que
  188. ref
  189. referencias
  190. rica
  191. right
  192. ronse
  193. san
  194. segunda
  195. segundo
  196. sen
  197. sendo
  198. ser
  199. setembro
  200. seu
  201. seus
  202. sica
  203. situaci
  204. small
  205. sobre
  206. son
  207. states
  208. stica
  209. sticas
  210. style
  211. superficie
  212. sur
  213. svg
  214. tam
  215. tanto
  216. tempo
  217. ten
  218. ter
  219. teñen
  220. the
  221. thumb
  222. tica
  223. tico
  224. ticos
  225. tipo
  226. title
  227. tiña
  228. todo
  229. todos
  230. traxectoria
  231. tres
  232. tulo
  233. unha
  234. unidos
  235. united
  236. url
  237. varios
  238. ver
  239. vez
  240. vida
  241. web
  242. width
  243. www
  244. xaneiro
  245. xase
  246. xeral
  247. xina
  248. xullo
  249. xunto
  250. xuño
Bad words

Bad words are words that would be commonly associated with vandalism. They are generally used to insult or be vulgar. This includes curse words, racial slurs, assertions of- and prejudices against sexual preferences.

  1. tetas
  2. pis
  3. pedo
  4. zorra
  5. cabron
  6. cabrón
  7. caca
  8. caga
  9. carallo
  10. coño
  11. follar
  12. fuck
  13. maricon
  14. maricón
  15. merda
  16. mierda
  17. pendejo
  18. polla
  19. pollas
  20. puta
  21. putas
  22. puto
  23. putos
  24. stupid
  25. tonto
  26. verga
  27. porno
  28. estupido
  29. estupidos
  30. estupida
  31. estupidas
  32. estúpido
  33. estúpidos
  34. estúpida
  35. estúpidas
  36. chúpame
  37. cerdo
  38. cerdos
  39. cerda
  40. cerdas
  41. imbecil
  42. imbécil
  43. cagada
  44. mamada
  45. concha
  46. gilipollas
Informal words

Informal words are words unwelcome on article namespace but would be acceptable on talk pages. This would include words such as 'hello' or 'hahaha' which would be fine in discussions but not in articles.

  1. carallo
  2. jajaja
  3. jajajaja
  4. merda
  5. tetas
  6. ola
  7. adeus