Research talk:Revision scoring as a service/Word lists/hu

From Meta, a Wikimedia project coordination wiki

Bad words[edit]

Curse words, nonsense words[edit]

  1. anyad
  2. anyád
  3. anyádat
  4. anyátok
  5. anyátokat
  6. apád
  7. asd
  8. balfasz
  9. baszni
  10. baszott
  11. bazd
  12. bazdmeg
  13. bazmeg
  14. béna
  15. birkanépet
  16. birkanépünk
  17. büdös
  18. buktája
  19. buzi
  20. buzik
  21. csicska
  22. csá
  23. fasszopó
  24. fasz
  25. fasza
  26. faszfej
  27. faszkalap
  28. faszok
  29. faszom
  30. faszomat
  31. faszság
  32. faszt
  33. faszát
  34. fing
  35. fos
  36. fuck
  37. geci
  38. gecik
  39. gecis
  40. gecit
  41. hulye
  42. hülye
  43. hülyék
  44. kabbe
  45. kaka
  46. kaki
  47. kibaszott
  48. kocsog
  49. kuki
  50. kurva
  51. kurvák
  52. kurvára
  53. kurvát
  54. köcsög
  55. köcsögök
  56. lófasz
  57. megbaszta
  58. mocskos
  59. málejku
  60. mizu
  61. naon
  62. picsa
  63. picsája
  64. pina
  65. punci
  66. putri
  67. pöcs
  68. retkes
  69. ribanc
  70. rohadt
  71. sissitek
  72. szar
  73. szarok
  74. szaros
  75. szart
  76. szopd
  77. sále

Probably parts of spam URLs?[edit]

  1. elmenyekvolgye
  2. immoviva
  3. infosarok
  4. kirandulastervezo
  5. kirándulástervező
  6. magyarvendeglatas
  7. magyarvendéglátás
  8. magyarvirtus
  9. matraonline
  10. mátraonline
  11. nosztalgiautazasok
  12. pestmost
  13. tapioregio
  14. turist
  15. utazasi
  16. vandorhorgasz
  17. vándorhorgász

Informal or otherwise non-article-space[edit]

  1. baromság
  2. dencey
  3. haha
  4. hahaha
  5. hehe
  6. hello
  7. hihi
  8. hülyeség
  9. képviselőink
  10. képviselőinket
  11. képünkbe
  12. lol
  13. megválasszuk
  14. mészárosaim
  15. országunk
  16. special
  17. soknevű
  18. szavazatunkat
  19. szeretem
  20. szeretlek
  21. szerintem
  22. szia
  23. sziasztok
  24. tex
  25. xdd
  26. xddd
  27. tudjátok
  28. tönkretesszük
  29. ugye
  30. unokáink
  31. user
  32. utálom
  33. vagyok
  34. vagytok

Not inherently bad but frequently vandalism/spam (politician names, party names, words like "lie" or "steal" or "traitor")[edit]

  1. ellopásával
  2. eszünkbe
  3. felelőtlen
  4. gergényi
  5. gyurcsány
  6. hatalmakat
  7. hazaáruló
  8. hazudnak
  9. hazugság
  10. hazugságra
  11. hazánknak
  12. honfitársaim
  13. hunyadiné
  14. kicsinyes
  15. kluboldala
  16. laci
  17. lejárató
  18. lenéznek
  19. lopásra
  20. megalázni
  21. megdézsmálásának
  22. megvetnek
  23. megválasztó
  24. megérdemel
  25. nemzsidókra
  26. panamai
  27. rovástáblás
  28. szavazófülke
  29. szex
  30. talmudjukban
  31. tiszaeszlár
  32. toaffot
  33. tehetetlenül
  34. torolják
  35. érdekeik
  36. érdekeiknek

Interface mistakes (e.g. edit button example text)[edit]

  1. alfejezet
  2. apróbetűs
  3. cest
  4. cet
  5. cityhomepage
  6. cityid
  7. cityname
  8. contributions
  9. egyszerikép
  10. formázott
  11. félkövér
  12. nowiki
  13. peldaegyketto
  14. presentation
  15. selecttriptargetcategaction
  16. áthúzott

Wrong words (grammar mistakes, missing accents)[edit]

  1. allamigazgatas
  2. bizonyit
  3. bizonyitani
  4. bizonyitja
  5. bizonyitjuk
  6. bizonyitom
  7. bizonyitsuk
  8. bizonyiték
  9. elö
  10. géretekben
  11. istenerv
  12. kodoljuk
  13. kodolni
  14. kodolva
  15. kodolás
  16. idö
  17. irodak
  18. megbecstelen
  19. mindentt
  20. márr
  21. rkércs
  22. rtét
  23. tanuvallomásra
  24. tölem
  25. ugy
  26. élö

False positives[edit]

  1. adandó
  2. alkalmatlanságukkal
  3. alsóbbrendűséget
  4. amilyent
  5. bölcsen
  6. csegöld
  7. elnyomni
  8. elvehető
  9. fejezzünk
  10. fkf
  11. gyakoroljuk
  12. gyerekeink
  13. hetefejércse
  14. igazságosabb
  15. igazságosan
  16. indulhatunk
  17. intézményrendszereit
  18. kapjátok
  19. kiszolgálja
  20. kitörlik
  21. közvagyon
  22. közvagyonkat
  23. magányában
  24. nagyközségei
  25. nemesborzova
  26. panyola
  27. szamossályi
  28. szerkesztővita
  29. szervezetekre
  30. szállásadók
  31. számtalanszor
  32. szöveget
  33. tanuló
  34. urait
  35. vendéglátók
  36. vetült
  37. válasszuk
  38. vámosoroszi
  39. életművész
  40. életünket
  41. érdekel
  42. értékrendjüket
  43. ömböly
  44. öntudatos

Stopwords[edit]

Common Hungarian[edit]

  1. adott
  2. ahol
  3. aki
  4. akik
  5. akkor
  6. alap
  7. alapján
  8. alatt
  9. alá
  10. amely
  11. ami
  12. amikor
  13. amit
  14. annak
  15. azonban
  16. azt
  17. ban
  18. ben
  19. bár
  20. csak
  21. egy
  22. egyes
  23. egyik
  24. egyéb
  25. egyért
  26. együtt
  27. egész
  28. ekkor
  29. elején
  30. első
  31. elő
  32. először
  33. előtt
  34. ennek
  35. ezek
  36. ezen
  37. ezt
  38. ezzel
  39. ezért
  40. kell
  41. fel
  42. feletti
  43. hanem
  44. hogy
  45. három
  46. igen
  47. illetve
  48. itt
  49. kis
  50. később
  51. két
  52. körül
  53. következő
  54. között
  55. közül
  56. külső
  57. lehet
  58. lett
  59. majd
  60. meg
  61. mellett
  62. mely
  63. melynek
  64. mer
  65. mert
  66. miatt
  67. minden
  68. mint
  69. mivel
  70. már
  71. más
  72. másik
  73. második
  74. még
  75. nagy
  76. nagyobb
  77. nak
  78. nek
  79. nem
  80. nincs
  81. néhány
  82. olyan
  83. pedig
  84. része
  85. saját
  86. sem
  87. sok
  88. során
  89. szerepel
  90. szerint
  91. szám
  92. száma
  93. számos
  94. számára
  95. teljes
  96. the
  97. tól
  98. több
  99. től
  100. után
  101. vagy
  102. valamint
  103. való
  104. van
  105. volt
  106. voltak
  107. vált
  108. végén
  109. áll
  110. állt
  111. által
  112. óta
  113. össze
  114. úgy

MediaWiki (template parameters, URL parts etc)[edit]

  1. accessdate
  2. and
  3. bélyegkép
  4. center
  5. cite
  6. com
  7. commonskat
  8. csonk
  9. date
  10. defaultsort
  11. dátum
  12. forrás
  13. források
  14. fájl
  15. hivatkozások
  16. hosszúsági
  17. htm
  18. html
  19. http
  20. image
  21. index
  22. infobox
  23. isbn
  24. jegyzetek
  25. jobbra
  26. jpg
  27. kategória
  28. koorde
  29. koordn
  30. kép
  31. képalá
  32. képméret
  33. kész
  34. körzeth
  35. language
  36. lap
  37. left
  38. magasság
  39. name
  40. nbsp
  41. nyelv
  42. népesség
  43. old
  44. org
  45. php
  46. png
  47. portál
  48. ref
  49. references
  50. right
  51. szélességi
  52. terület
  53. thumb
  54. title
  55. url
  56. web
  57. weboldal
  58. www
  59. átirány

False positive?[edit]

  1. amerikai
  2. andrás
  3. angol
  4. budapest
  5. család
  6. egyesült
  7. eml
  8. fok
  9. földrajz
  10. hely
  11. helyi
  12. hivatalos
  13. információk
  14. irány
  15. istván
  16. jelentős
  17. jános
  18. kapcsolódó
  19. katalógusok
  20. katolikus
  21. került
  22. kiadó
  23. király
  24. legnagyobb
  25. listája
  26. lásd
  27. lászló
  28. magyar
  29. magyarok
  30. magyarország
  31. mai
  32. nemzetközi
  33. neve
  34. német
  35. név
  36. néven
  37. ország
  38. országos
  39. perc
  40. polgármester
  41. például
  42. rang
  43. res
  44. rás
  45. régi
  46. római
  47. seg
  48. személyek
  49. szent
  50. század
  51. szöveg
  52. született
  53. található
  54. település
  55. települései
  56. templom
  57. további
  58. történelmi
  59. története
  60. zászló
  61. épült
  62. éve
  63. évek
  64. években

???[edit]

these look like word endings:

  1. tik
  2. tett
  3. tette
  4. tették
  5. tott
  6. totta
  7. tották
  8. tás
  9. tása
  10. tése
  11. vül

time units prefixed with v

  1. vmásodperc
  2. vperc