Abstraktní Wikipedie/Související a předchozí práce/Generování přirozeného jazyka

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Abstract Wikipedia/Related and previous work/Natural language generation and the translation is 100% complete.

Abstraktní Wikipedie vygeneruje text v přirozeném jazyce z abstraktní reprezentace. To není nová myšlenka a již několikrát byla vyzkoušena.

Cílem této stránky je shromáždit různé existující přístupy. Snaží se shrnout hlavní myšlenky různých přístupů, jejich výhody a nevýhody a upozorňuje na existující implementace. Tato stránka (vytvořená komunitou a pro komunitu) pomůže vybrat, na který přístup se zaměřit nejdříve.

Implementace

Arria NLG
ASTROGEN
Chimera
Elvex
FUF/SURGE
Genl
GoPhi
Grammar Explorer
Grammatical Framework
  • Wikipedie: Grammatical Framework [ en ] [ nn ]
  • Webová stránka: https://www.grammaticalframework.org/
  • Licence: GNU General Public License: see text
  • Podporované jazyky: Afrikaans, Amharic (partial), Arabic (partial), Basque (partial), Bulgarian, Catalan, Chinese, Czech (partial), Danish, Dutch, English, Estonian, Finnish, French, German, Greek ancient (partial), Greek modern, Hebrew (fragments), Hindi, Hungarian (partial), Interlingua, Italian, Japanese, Korean (partial), Latin (partial), Latvian, Maltese, Mongolian, Nepali, Norwegian bokmål, Norwegian nynorsk, Persian, Polish, Punjabi, Romanian, Russian, Sindhi, Slovak (partial), Slovene (partial), Somali (partial), Spanish, Swahili (fragments), Swedish, Thai, Turkish (fragments), and Urdu.
jsRealB
KPML
Linguistic Knowledge Builder
Multimodal Unification Grammar
NaturalOWL
NLGen and NLGen2
OpenCCG
rLDCP
RoseaNLG
Semantic Web Authoring Tool (SWAT)
SimpleNLG
SPUD
Suregen-2
Syntax Maker
TGen
Universal Networking Language
UralicNLP
  • Webová stránka: https://uralicnlp.com/
    https://github.com/mikahama/uralicNLP
  • Podporované jazyky: Finnish, Russian, German, English, Norwegian, Swedish, Arabic, Ingrian, Meadow & Eastern Mari, Votic, Olonets-Karelian, Erzya, Moksha, Hill Mari, Udmurt, Tundra Nenets, Komi-Permyak, North Sami, South Sami and Skolt Sami[1]

Teoretické pozadí

Založeno na Wikidatech

Natural language generation [ de ] [ en ] [ es ] [ fr ] [ 日本語 ] [ nn ] [ 中文 ] je podoblastí natural language processing. Viz broader topic on Scholia.[2]

Model pipeline

Ve svém přehledu z roku 2018,[3] Gatt[4] a Krahmer[5] začínají popisem natural language generation jako "úlohy generování textu nebo řeči z nejazykového vstupu". Identifikují šest dílčích problémů (podle Reiter & Dale 1997, 2000[6]) [2.NLG Tasks, str. 70-82]:[3]

  1. Content determination (content determination (Q5165077))
  2. Text structuring (document structuring (Q5287648))
  3. Sentence aggregation (aggregation (Q4692263))
  4. Lexicalisation (lexical choice (Q6537688))
  5. Referring expression generation (referring expression generation (Q7307185))
  6. Linguistic realisation (realization (Q7301282))

Upozorňujeme, že šest výše uvedených témat má články pouze v anglické Wikipedii (24. července 2020).

Těchto šest dílčích úloh lze považovat za segmentaci "pipeline", které začíná "ranými" úlohami, jež jsou v souladu s účelem jazykového výstupu. "Pozdější" úlohy jsou více přizpůsobeny konečné jazykové podobě. Souhrnná podoba by mohla být "Co (1), uspořádané (2) a segmentované (3) jak, s jakými slovy (4&5), v jakých formách (6)". Lexikalizace (4) není v této souhrnné formě jasně odlišena od "generování odkazovacích výrazů" (REG) (5). Klíčovou myšlenkou při REG je vyhnout se opakování a dvojznačnosti, resp. zvládnout napětí mezi těmito protichůdnými cíli. To odpovídá Griceově maximě (Grice, 1975[7]), že "mluvčí by měli dbát na to, aby jejich příspěvky byly dostatečně informativní pro účely výměny, ale ne více" (nebo, jak řekl Roger Sessions (1950) podle Alberta Einsteina (1933): "vše by mělo být tak jednoduché, jak jen to jde, ale ne jednodušší!").

Content determination

Document structuring

Aggregation

Lexical choice

Referring expression generation

Realization

"V jazykovědě je realizace proces, při kterém je nějaký druh povrchové reprezentace odvozen od své základní reprezentace; to znamená způsob, jakým se nějaký abstraktní objekt lingvistické analýzy vytváří ve skutečném jazyce. Často se říká, že fonémy jsou realizovány pomocí řečových zvuků. Různé zvuky, které mohou realizovat určitý foném, se nazývají jeho alofony."
"Realizace je také dílčí úlohou generování přirozeného jazyka, která zahrnuje vytvoření skutečného textu v lidském jazyce (angličtina, francouzština atd.) ze syntaktické reprezentace."
Anglická Wikipedie
(Přispěvatelé Wikipedie, “Realization”, Wikipedie, svobodná encyklopedie, 26. května 2020, 02:46 UTC, <https://en.wikipedia.org/w/index.php?title=Realization&oldid=958866516> [navštíveno 31. srpna 2020].)


Přístup "černé skříňky"

V novějším průzkumu Gârbacea a Mei[8] navrhli "neuronové generování jazyka" jako vznikající podoblast NLG. Jedenáct článků citovaných v jejich průzkumu má v názvu slovo "neuronový jazyk", nejstarší z roku 2016 (Édouard Grave, Armand Joulin a Nicolas Usunier)[9]. Nejstarší citace, v níž se objevuje "neurální generování jazyka", je z roku 2017 (Jessica Ficler a Yoav Goldberg)[10].

V polovině roku 2020 není "neuronové generování jazyka" dostatečně vyspělé na to, aby mohlo být použito ke generování přirozeného jazyka pro jazykově neutrální obsah.

Reference

  • Jessica Ficler and Yoav Goldberg, 2017[10]
  • Édouard Grave, Armand Joulin, and Nicolas Usunier, 2016[9]
  • Gârbacea and Mei, 2020[8]
  • Gardent et al., 2017[11]
  • Gatt & Krahmer, 2018[3]
  • Grice, 1975[7]
  • Reiter & Dale, 2000[6] (PDF ends at the end of the first section.)

Externí odkazy

Poznámky

  1. https://models.uralicnlp.com/nightly/
  2. V Scholia view on Natural-language generation chyběly standardní zdroje a přední autoři 27. července 2020. Místo toho se podívejte na Google Scholar.
  3. a b c Gatt, Albert; Krahmer, Emiel (January 2018), "Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation", Journal of Artificial Intelligence Research 61: 65–170, archived from the original on 2020-06-23, retrieved 2020-07-24 
  4. Gattovy publikace
  5. Emiel Krahmer (Q51689943) Vybrané publikace
  6. a b Reiter, EB; Dale, R (2000), Building Natural-Language Generation Systems. (PDF), Cambridge University Press., archived from the original (PDF) on 2019-07-11, retrieved 2020-07-27 
  7. a b Grice, H. Paul (1975), Logic and conversation (PDF), retrieved 2020-08-10 
  8. a b Gârbacea, Cristina; Mei, Qiaozhu, Neural Language Generation: Formulation, Methods, and Evaluation (PDF), pp. 1–70, retrieved 2020-08-08, Compared to the survey of (Gatt and Krahmer, 2018), our overview is a more comprehensive and updated coverage of neural network methods and evaluation centered around the novel problem definitions and task formulations. 
  9. a b Grave, Édouard; Joulin, Armand; Usunier, Nicolas (2016), Improving neural language models with a continuous cache (PDF) 
  10. a b Ficler, Jessica; Goldberg, Yoav (2017), "Controlling linguistic style aspects in neural language generation" (PDF), Proceedings of the Workshop on Stylistic Variation: 94–104 . Published slightly earlier that year was Van-Khanh Tran and Le-Minh Nguyen. 2017.
    Ficler, Jessica; Goldberg, Yoav (2017), Semantic Refinement GRU-based Neural Language Generation for Spoken Dialogue Systems (PDF) 
  11. Gardent, Claire; Shimorina, Anastasia; Narayan, Shashi; Perez-Beltrachini, Laura (2017), "The WebNLG Challenge: Generating Text from RDF data." (PDF), Proceedings of the 10th International Conference on Natural Language Generation: 124–133