Research:Revision scoring as a service/Word lists/ro

From Meta, a Wikimedia project coordination wiki
Jump to navigation Jump to search


ISO code Language Generated list Badwords Informal words Stopwords Dictionary Stemmer Contact person Wiki labels Interface Forms Campaign Needs
ro română (Wikipedia) 250 - - - - - See: Word lists requested no no no -
Generated list [1]

Words in the generated list commonly appear in reverted revisions but not in others. This list is generated using a TF-IDF approach.

  1. adevarat
  2. adevarata
  3. adica
  4. aia
  5. aldin
  6. arimin
  7. armînă
  8. asa
  9. asta
  10. astea
  11. atat
  12. atentie
  13. ati
  14. aveti
  15. aşeyare
  16. așază
  17. așează
  18. bag
  19. bagat
  20. bla
  21. bou
  22. caca
  23. cacat
  24. caci
  25. cand
  26. cate
  27. cateva
  28. cauta
  29. cautati
  30. cititi
  31. contributions
  32. cosminalin
  33. credeti
  34. cur
  35. curu
  36. curva
  37. curve
  38. daca
  39. dati
  40. datorita
  41. decat
  42. demnitarilor
  43. desi
  44. destept
  45. diacriticelor
  46. discuţie
  47. dracu
  48. dumneavoastra
  49. esti
  50. exponent
  51. faca
  52. faceti
  53. faci
  54. facut
  55. facuta
  56. facute
  57. fara
  58. fraier
  59. fraieri
  60. fraierilor
  61. fuck
  62. fut
  63. fute
  64. futut
  65. gardareanu
  66. gasi
  67. gasiti
  68. gay
  69. guta
  70. gutsa
  71. hai
  72. hindex
  73. imi
  74. impreuna
  75. inca
  76. incat
  77. indice
  78. infodosar
  79. informatii
  80. infostraseni
  81. insa
  82. inseamna
  83. intampla
  84. inteles
  85. intrati
  86. introduceţi
  87. invulnerabilitatea
  88. ionut
  89. isi
  90. iti
  91. iubesc
  92. kkt
  93. laba
  94. langa
  95. latlngs
  96. legăturii
  97. lol
  98. luati
  99. macar
  100. mana
  101. mananca
  102. manele
  103. manelele
  104. manelistul
  105. marcibrevete
  106. masura
  107. mata
  108. merita
  109. muie
  110. muist
  111. multa
  112. multumesc
  113. multumim
  114. nascut
  115. naspa
  116. naste
  117. neformatat
  118. neodown
  119. nevorbitor
  120. nhs
  121. niciodata
  122. nicolaeguta
  123. niste
  124. noastra
  125. nowiki
  126. numeste
  127. oare
  128. ocupator
  129. ofera
  130. ohim
  131. omorat
  132. pacat
  133. peperonity
  134. pidar
  135. pizda
  136. plm
  137. porcarie
  138. poti
  139. proasta
  140. profiluri
  141. prost
  142. prosti
  143. prostie
  144. prostii
  145. prostilor
  146. pula
  147. pule
  148. puli
  149. pulii
  150. pute
  151. puteti
  152. putin
  153. rahat
  154. rau
  155. reprezinta
  156. rog
  157. românoeo
  158. rupto
  159. rusine
  160. scrieti
  161. smecher
  162. softess
  163. speedy
  164. starzonek
  165. stie
  166. stim
  167. stiti
  168. stiu
  169. suge
  170. sugeti
  171. sugi
  172. sunteti
  173. supt
  174. tare
  175. tigani
  176. tine
  177. toata
  178. toti
  179. totusi
  180. traieste
  181. trait
  182. urat
  183. usor
  184. utilizator
  185. varsta
  186. vastite
  187. vazut
  188. vedeti
  189. veti
  190. voastra
  191. voi
  192. vreau
  193. vrei
  194. vreodata
  195. vreti
  196. yeahost
  197. șr
  198. ȝƿ
  199. комуна
  200. أكد
  201. أمضى
  202. إن
  203. ارييل
  204. الأحد
  205. الإسرائيلي
  206. الاثنين
  207. الاجتماعات
  208. الاعتيادية
  209. الذي
  210. الصحي
  211. المغنطيسي
  212. الناطق
  213. الوزراء
  214. باسم
  215. بالرنين
  216. بالمستشفى
  217. بيان
  218. تحديد
  219. تعرض
  220. حذف
  221. خفيفة
  222. دماغية
  223. رئيس
  224. شارون
  225. شريف
  226. عاصي
  227. عددا
  228. عين
  229. غرفته
  230. فإن
  231. قاله
  232. قبل
  233. كارم
  234. لجلطة
  235. لفحوص
  236. ليلة
  237. ما
  238. محک
  239. مساء
  240. مستشفى
  241. مكتب
  242. منو
  243. هادئة
  244. هداسا
  245. والمقطعي
  246. وتشاور
  247. وسيخضع
  248. وضعه
  249. ووفق
  250. کن
Generated common words

Common words appear on all revisions reverted or otherwise. In the English language this would include words like 'the' or 'is' which are meaningless on their own. This list is generated using a TF-IDF approach.

  1. a
  2. accessdate
  3. aceasta
  4. această
  5. acest
  6. acesta
  7. adresă
  8. ai
  9. al
  10. ale
  11. ales
  12. alt
  13. alte
  14. altitudine
  15. and
  16. ani
  17. anul
  18. apoi
  19. aprilie
  20. are
  21. asemenea
  22. astfel
  23. au
  24. august
  25. avea
  26. avut
  27. așezare
  28. b
  29. bibliografie
  30. bibliotecare
  31. bucurești
  32. c
  33. care
  34. categorie
  35. cea
  36. cei
  37. cel
  38. cele
  39. center
  40. ciot
  41. cod
  42. codpoștal
  43. com
  44. comuna
  45. comună
  46. coordonate
  47. cum
  48. când
  49. către
  50. d
  51. dar
  52. data
  53. date
  54. dată
  55. decembrie
  56. defaultsort
  57. densitate
  58. descriere
  59. despre
  60. din
  61. dintre
  62. doar
  63. două
  64. după
  65. e
  66. ei
  67. era
  68. este
  69. externe
  70. f
  71. face
  72. februarie
  73. fiind
  74. file
  75. fişier
  76. fișier
  77. foarte
  78. fost
  79. fără
  80. harta
  81. hartă
  82. htm
  83. html
  84. http
  85. i
  86. ianuarie
  87. iar
  88. ii
  89. image
  90. imagine
  91. in
  92. index
  93. infobox
  94. infocaseta
  95. informații
  96. iulie
  97. iunie
  98. jpg
  99. județ
  100. județul
  101. județului
  102. l
  103. latd
  104. latm
  105. latns
  106. lats
  107. le
  108. lea
  109. left
  110. legături
  111. limba
  112. limbă
  113. lista
  114. listănote
  115. loc
  116. localități
  117. locul
  118. longd
  119. longev
  120. longm
  121. longs
  122. lor
  123. lui
  124. lumii
  125. m
  126. map
  127. mare
  128. martie
  129. mult
  130. multe
  131. n
  132. name
  133. nașteri
  134. național
  135. nbsp
  136. noiembrie
  137. note
  138. nu
  139. nume
  140. numele
  141. o
  142. oameni
  143. octombrie
  144. of
  145. old
  146. oraș
  147. orașe
  148. orașul
  149. orașului
  150. org
  151. p
  152. parte
  153. partea
  154. pe
  155. pentru
  156. peste
  157. php
  158. png
  159. poate
  160. populaţie
  161. populație
  162. prima
  163. primar
  164. primul
  165. prin
  166. printre
  167. publisher
  168. px
  169. până
  170. recensământ
  171. redirecteaza
  172. ref
  173. references
  174. referințe
  175. reflist
  176. right
  177. românia
  178. româniei
  179. română
  180. s
  181. sale
  182. sau
  183. secolul
  184. septembrie
  185. sit
  186. spre
  187. stat
  188. stemă
  189. style
  190. sub
  191. sunt
  192. suprafaţă
  193. suprafață
  194. svg
  195. său
  196. the
  197. thumb
  198. timp
  199. timpul
  200. tip
  201. title
  202. titlu
  203. toate
  204. trei
  205. ul
  206. ului
  207. un
  208. unde
  209. unei
  210. unui
  211. unul
  212. url
  213. v
  214. va
  215. vezi
  216. viață
  217. web
  218. website
  219. www
  220. x
  221. în
  222. început
  223. într
  224. între
  225. şi
  226. ţară
  227. și
  228. țară
  229. țările
Bad words

Bad words are words that would be commonly associated with vandalism. They are generally used to insult or be vulgar. This includes curse words, racial slurs, assertions of- and prejudices against sexual preferences.

  1. bou
  2. caca
  3. cacat
  4. cur
  5. curu
  6. curva
  7. curve
  8. dracu
  9. fraier
  10. fraieri
  11. fraierilor
  12. fuck
  13. fut
  14. fute
  15. futut
  16. kkt
  17. laba
  18. mata
  19. muie
  20. muist
  21. pidar
  22. pizda
  23. plm
  24. porcarie
  25. pula
  26. pule
  27. puli
  28. pulii
  29. suge
  30. sugeti
  31. sugi
  32. supt
Informal words

Informal words are words unwelcome on article namespace but would be acceptable on talk pages. This would include words such as 'hello' or 'hahaha' which would be fine in discussions but not in articles.

  1. aia
  2. asa
  3. asta
  4. astea
  5. ati
  6. aveti
  7. bag
  8. bagat
  9. bla
  10. lol
  11. naspa
  12. prost
  13. prosti
  14. prostie
  15. prostii
  16. prostilor
  17. rahat
  18. smecher
  19. tigani