Research:Revision scoring as a service/Word lists/ca

From Meta, a Wikimedia project coordination wiki
Jump to navigation Jump to search


ISO code Language Generated list Badwords Informal words Stopwords Dictionary Stemmer Contact person Wiki labels Interface Forms Campaign Needs
ca català (Wikipedia) 250 - - - - - See: Word lists requested no no no -
Generated list [1]

Words in the generated list commonly appear in reverted revisions but not in others. This list is generated using a TF-IDF approach.

  1. acreciéndose
  2. afirmanza
  3. ajuntaeras
  4. alboroque
  5. alignbars
  6. allevan
  7. almelistrativa
  8. amotean
  9. ampliament
  10. amule
  11. ancharia
  12. angunos
  13. apriendimiento
  14. araua
  15. arauak
  16. arremató
  17. arrumpimiento
  18. aspacio
  19. astrella
  20. astrellas
  21. astudiantas
  22. aun
  23. backgroundcolors
  24. bardata
  25. canvas
  26. capètides
  27. castillonuevo
  28. chocantes
  29. cientifico
  30. cintro
  31. cogieran
  32. colorao
  33. comencipó
  34. comoni
  35. comonid
  36. complió
  37. componío
  38. contributions
  39. cuincide
  40. cumunes
  41. cunjunto
  42. cunquista
  43. curtural
  44. cyberduck
  45. darkgrey
  46. dateformat
  47. defendío
  48. deseparación
  49. deseparanza
  50. despiaze
  51. desprecios
  52. destinguir
  53. destinguío
  54. destintos
  55. dperje
  56. drecha
  57. egualmente
  58. emportancia
  59. encomenzó
  60. endependencia
  61. enderlein
  62. entrad
  63. escarcu
  64. esige
  65. estamos
  66. esternas
  67. exponen
  68. ezquierdas
  69. ezquierdista
  70. fontsize
  71. freunde
  72. gente
  73. gridcolor
  74. hestória
  75. hestórico
  76. identificao
  77. ilustresmun
  78. inexistentes
  79. izendegia
  80. jorm
  81. jundamentos
  82. juntamentos
  83. justify
  84. klassifikation
  85. lanes
  86. lans
  87. licano
  88. lightgrey
  89. llengüísticas
  90. llengüístico
  91. llibremente
  92. lónguida
  93. madre
  94. mbl
  95. mismisimos
  96. mos
  97. murcianismo
  98. naturforschender
  99. normativización
  100. olvida
  101. openbsd
  102. orbaitzeta
  103. orbaizeta
  104. orientation
  105. otonomista
  106. otonómica
  107. otorid
  108. otónoma
  109. paises
  110. pampered
  111. pasao
  112. patriotísmo
  113. patriotísta
  114. pelínsula
  115. piazo
  116. piensar
  117. plotarea
  118. plotdata
  119. ponen
  120. porno
  121. pradesrural
  122. predujiendo
  123. prejundo
  124. premovedúra
  125. prencipales
  126. prencipiando
  127. prencipió
  128. prepartía
  129. presienta
  130. presiente
  131. previncia
  132. profundo
  133. psychodinen
  134. pulítico
  135. rautas
  136. rebullicionaos
  137. rebullición
  138. reconocíos
  139. remanencia
  140. remanencias
  141. represienta
  142. represientao
  143. represientativa
  144. repul
  145. repúl
  146. revolica
  147. rgb
  148. rialid
  149. riconocencia
  150. rigionalismo
  151. rileras
  152. romanzado
  153. scalemajor
  154. scaleminor
  155. sebunda
  156. sembología
  157. sentimos
  158. sestema
  159. sfondo
  160. shift
  161. sieglos
  162. sitzungsberichte
  163. suponió
  164. terraje
  165. terrajes
  166. terretorial
  167. terretorio
  168. textdata
  169. till
  170. timeaxis
  171. timeline
  172. traicionales
  173. trola
  174. tutera
  175. uficiales
  176. uficialid
  177. uio
  178. unicamente
  179. utonomista
  180. valenciafreedom
  181. variantas
  182. venieros
  183. verdad
  184. zudi
  185. úrtimos
Generated common words

Common words appear on all revisions reverted or otherwise. In the English language this would include words like 'the' or 'is' which are meaningless on their own. This list is generated using a TF-IDF approach.

  1. abans
  2. abril
  3. actual
  4. actualment
  5. agost
  6. així
  7. això
  8. algunes
  9. alguns
  10. altra
  11. altre
  12. altres
  13. amb
  14. and
  15. anglès
  16. antiga
  17. any
  18. anys
  19. aquest
  20. aquesta
  21. aquestes
  22. aquests
  23. ara
  24. article
  25. articles
  26. autor
  27. autoritat
  28. bandera
  29. barcelona
  30. bases
  31. bibliografia
  32. bot
  33. cada
  34. cal
  35. cap
  36. capita
  37. castellà
  38. cat
  39. catalunya
  40. català
  41. categoria
  42. causa
  43. center
  44. centre
  45. citar
  46. ciutat
  47. cognom
  48. col
  49. com
  50. commonscat
  51. conegut
  52. consulta
  53. contra
  54. coor
  55. coord
  56. cursiva
  57. dades
  58. data
  59. del
  60. dels
  61. des
  62. desembre
  63. després
  64. dia
  65. diferents
  66. dins
  67. dir
  68. display
  69. distàncies
  70. diverses
  71. diversos
  72. dos
  73. dues
  74. durant
  75. edat
  76. editor
  77. editorial
  78. els
  79. encara
  80. enllaç
  81. enllaços
  82. entitats
  83. entre
  84. era
  85. esborrany
  86. escut
  87. espanya
  88. estat
  89. estats
  90. està
  91. externs
  92. febrer
  93. fer
  94. fet
  95. file
  96. final
  97. fins
  98. fitxer
  99. font
  100. forma
  101. format
  102. foto
  103. fou
  104. gener
  105. general
  106. generat
  107. geografia
  108. germans
  109. gran
  110. grans
  111. grup
  112. guerra
  113. han
  114. haver
  115. havia
  116. història
  117. htm
  118. html
  119. http
  120. image
  121. imatge
  122. index
  123. infotaula
  124. inline
  125. isbn
  126. jpg
  127. juliol
  128. juny
  129. left
  130. les
  131. llengua
  132. llibre
  133. llista
  134. lloc
  135. los
  136. maig
  137. major
  138. manera
  139. març
  140. mateix
  141. mediana
  142. mentre
  143. mida
  144. molt
  145. molts
  146. mort
  147. més
  148. món
  149. naixement
  150. name
  151. nbsp
  152. net
  153. nom
  154. només
  155. nord
  156. nou
  157. nova
  158. novembre
  159. obra
  160. octubre
  161. oficial
  162. old
  163. ordena
  164. org
  165. origen
  166. part
  167. partir
  168. país
  169. pdf
  170. pel
  171. pels
  172. per
  173. perquè
  174. persones
  175. període
  176. però
  177. peu
  178. php
  179. png
  180. població
  181. poc
  182. poder
  183. posició
  184. pot
  185. primer
  186. primera
  187. principal
  188. projectes
  189. pàgina
  190. pàgines
  191. qual
  192. quals
  193. quan
  194. quatre
  195. que
  196. qui
  197. què
  198. redirect
  199. ref
  200. references
  201. referències
  202. region
  203. relativa
  204. right
  205. sant
  206. segle
  207. segona
  208. segons
  209. sense
  210. ser
  211. setembre
  212. seu
  213. seus
  214. seva
  215. seves
  216. sobre
  217. sota
  218. source
  219. style
  220. sud
  221. svg
  222. són
  223. també
  224. tant
  225. taxocaixa
  226. taxonòmiques
  227. temps
  228. tenir
  229. terme
  230. text
  231. the
  232. thumb
  233. tipus
  234. title
  235. tot
  236. totes
  237. tots
  238. tres
  239. troba
  240. type
  241. títol
  242. una
  243. uns
  244. url
  245. van
  246. vegeu
  247. vida
  248. web
  249. www
Bad words

Bad words are words that would be commonly associated with vandalism. They are generally used to insult or be vulgar. This includes curse words, racial slurs, assertions of- and prejudices against sexual preferences.

  1. cabron
  2. cabrones
  3. caca
  4. caga
  5. cagar
  6. cago
  7. capullo
  8. catalufo
  9. catalufos
  10. cojones
  11. cony
  12. coño
  13. choch[oa]
  14. chup[ea][nr]
  15. chupa(r|me|mel[ao]|ban?)?
  16. cul
  17. culito
  18. culo
  19. coi
  20. facha
  21. fatxa
  22. folla
  23. follar
  24. follen
  25. gay
  26. gilipollas
  27. gordo
  28. gorda
  29. guarra
  30. imbecil
  31. imbècil
  32. joder
  33. maricon
  34. marimach[ao]
  35. maripos[óo]n
  36. mea(r|da+)s?
  37. merda
  38. merdas
  39. merdes
  40. mierda
  41. mierdas
  42. minga
  43. mocos
  44. mojon
  45. moro
  46. negrata
  47. paja
  48. pajero
  49. paki
  50. pedo
  51. pene
  52. penes
  53. penis
  54. pipi
  55. polla
  56. pollas
  57. polles
  58. popo
  59. porno
  60. puta
  61. putas
  62. putes
  63. puticlub
  64. puto
  65. putos
  66. rabo
  67. ramera
  68. separata
  69. subnormal
  70. tonta
  71. tonto
  72. tontos
  73. trol(o|a)
  74. vergas?
  75. vibrador
  76. xdd
  77. xddd
  78. zorra
Informal words

Informal words are words unwelcome on article namespace but would be acceptable on talk pages. This would include words such as 'hello' or 'hahaha' which would be fine in discussions but not in articles.

  1. asi
  2. bienvenido
  3. bienvenidos
  4. esto
  5. estúpid
  6. jaja
  7. jajaja
  8. jajajaja
  9. (ha)+
  10. (he)+
  11. hola
  12. holi
  13. hosti
  14. hostia
  15. hòstia
  16. ignorant
  17. llamo
  18. lol
  19. malparit
  20. mua(ha)+
  21. merci
  22. nadie
  23. osti
  24. quede
  25. quereis
  26. resto
  27. soy
  28. traga
  29. tranqui
  30. visca
  31. viva
  32. vuestros
  33. xd
  34. xupa
  35. wtf