Abstrakte Wikipedia/Verwandte und frühere Arbeiten/Textgenerierung

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Abstract Wikipedia/Related and previous work/Natural language generation and the translation is 100% complete.

Die Abstrakte Wikipedia generiert natürlichsprachigen Text aus einer abstrakten Darstellung. Dies ist keine neue Idee und wurde bereits mehrfach ausprobiert.

Diese Seite hat das Ziel, verschiedene bestehende Ansätze zu sammeln. Sie versucht, die Kernideen der verschiedenen Ansätze, ihre Vor- und Nachteile zusammenzufassen, und verweist auf bestehende Implementierungen. Diese Seite (von und für die Community) soll helfen, zu entscheiden, auf welchen Ansatz man sich zuerst konzentrieren möchte.

Implementierungen

Arria NLG
ASTROGEN
Chimera
Elvex
FUF/SURGE
Genl
GoPhi
Grammar Explorer
Grammatical Framework
  • Wikipedia: Grammatical Framework [ en ] [ nn ]
  • Website: https://www.grammaticalframework.org/
  • Lizenz: GNU General Public License: see text
  • Unterstützte Sprachen: Afrikaans, Amharic (partial), Arabic (partial), Basque (partial), Bulgarian, Catalan, Chinese, Czech (partial), Danish, Dutch, English, Estonian, Finnish, French, German, Greek ancient (partial), Greek modern, Hebrew (fragments), Hindi, Hungarian (partial), Interlingua, Italian, Japanese, Korean (partial), Latin (partial), Latvian, Maltese, Mongolian, Nepali, Norwegian bokmål, Norwegian nynorsk, Persian, Polish, Punjabi, Romanian, Russian, Sindhi, Slovak (partial), Slovene (partial), Somali (partial), Spanish, Swahili (fragments), Swedish, Thai, Turkish (fragments), and Urdu.
jsRealB
KPML
Linguistic Knowledge Builder
Multimodal Unification Grammar
NaturalOWL
NLGen and NLGen2
OpenCCG
rLDCP
RoseaNLG
Semantic Web Authoring Tool (SWAT)
SimpleNLG
SPUD
Suregen-2
Syntax Maker
TGen
Universal Networking Language
UralicNLP
  • Website: https://uralicnlp.com/
    https://github.com/mikahama/uralicNLP
  • Unterstützte Sprachen: Finnish, Russian, German, English, Norwegian, Swedish, Arabic, Ingrian, Meadow & Eastern Mari, Votic, Olonets-Karelian, Erzya, Moksha, Hill Mari, Udmurt, Tundra Nenets, Komi-Permyak, North Sami, South Sami and Skolt Sami[1]

Theoretischer Hintergrund

Powered by Wikidata

Natural language generation [ de ] [ en ] [ es ] [ fr ] [ 日本語 ] [ nn ] [ 中文 ] ist ein Teilbereich von natural language processing. Siehe umfassenderes Thema auf Scholia.[2]

Pipeline-Modell

In ihrer Übersicht 2018 beschreiben[3] Gatt[4] und Krahmer[5] zunächst natural language generation als die "Aufgabe der Generierung von Text oder Sprache aus nicht-sprachlichem Input." Sie identifizieren sechs Teilprobleme (nach Reiter & Dale 1997, 2000[6]) [2.NLG Tasks, S. 70-82]:[3]

  1. Content determination (content determination (Q5165077))
  2. Text structuring (document structuring (Q5287648))
  3. Sentence aggregation (aggregation (Q4692263))
  4. Lexicalisation (lexical choice (Q6537688))
  5. Referring expression generation (referring expression generation (Q7307185))
  6. Linguistic realisation (realization (Q7301282))

Bitte beachte, dass die sechs oben aufgeführten Themen nur in der englischen Wikipedia Artikel haben (24.07.2020).

Diese sechs Teilprobleme können als eine Segmentierung der "Pipeline" gesehen werden, beginnend mit "frühen" Aufgaben, die auf den Zweck der sprachlichen Ausgabe ausgerichtet sind. Die "späten" Aufgaben sind mehr auf die endgültige sprachliche Form ausgerichtet. Eine Kurzform könnte lauten: "Was (1), wie geordnet (2) und segmentiert (3), mit welchen Wörtern (4&5), in welchen Formen (6)". Die Lexikalisierung (4) wird in dieser zusammenfassenden Form nicht klar von der "referenzierenden Ausdrucksgenerierung" (REG = "referring expression generation") (5) unterschieden. Der Schlüsselgedanke bei der REG ist die Vermeidung von Wiederholungen und Mehrdeutigkeit bzw. die Bewältigung der Spannung zwischen diesen widerstreitenden Zielen. Dies entspricht der Grice'schen Maxime (Grice, 1975[7]), dass "Sprecher sicherstellen sollten, dass ihre Beiträge für die Zwecke des Austauschs ausreichend informativ sind, aber nicht mehr" (oder, wie Roger Sessions (1950) nach Albert Einstein (1933) sagte: "Alles sollte so einfach sein, wie es sein kann, aber nicht einfacher!").

Content determination

Document structuring

Aggregation

Lexical choice

Referring expression generation

Realization

"In der Linguistik ist Realisierung der Prozess, durch den eine Art von Oberflächendarstellung aus ihrer zugrundeliegenden Repräsentation abgeleitet wird; das heißt, die Art und Weise, wie ein abstraktes Objekt der linguistischen Analyse in tatsächlicher Sprache produziert wird. Von Phonemen wird oft gesagt, dass sie durch Sprachlaute realisiert werden. Die verschiedenen Laute, die ein bestimmtes Phonem realisieren können, nennt man seine Allophone."
"Die Realisierung ist auch eine Teilaufgabe der Textgenerierung, bei der es darum geht, aus einer syntaktischen Repräsentation einen tatsächlichen Text in einer menschlichen Sprache (Englisch, Französisch, etc.) zu erzeugen."
Englische Wikipedia
(Wikipedia-Autoren, “Realization”, Wikipedia, Die freie Enzyklopädie, 26. Mai 2020, 02:46 UTC, <https://en.wikipedia.org/w/index.php?title=Realization&oldid=958866516> [abgerufen am 31. August 2020].)


Black-Box-Ansatz

In einer späteren Studie schlugen Gârbacea und Mei[8] "Neural language generation" als ein aufstrebendes Teilgebiet von NLG vor. Elf der in ihrer Übersicht zitierten Arbeiten haben Titel mit "neural language", die früheste aus dem Jahr 2016 (Édouard Grave, Armand Joulin und Nicolas Usunier)[9]. Das früheste Zitat, in dem "neural language generation" vorkommt, ist von 2017 (Jessica Ficler und Yoav Goldberg)[10].

Mitte 2020 ist die "neuronale Sprachgenerierung" noch nicht ausgereift genug, um natürlichsprachige Wiedergaben von sprachneutralen Inhalten zu erzeugen.

Referenzen

  • Jessica Ficler and Yoav Goldberg, 2017[10]
  • Édouard Grave, Armand Joulin, and Nicolas Usunier, 2016[9]
  • Gârbacea and Mei, 2020[8]
  • Gardent et al., 2017[11]
  • Gatt & Krahmer, 2018[3]
  • Grice, 1975[7]
  • Reiter & Dale, 2000[6] (PDF ends at the end of the first section.)

Externe Links

Anmerkungen

  1. https://models.uralicnlp.com/nightly/
  2. Der Scholia-Ansicht zur Generierung natürlicher Sprache fehlten am 27. Juli 2020 die Standardquellen und die führenden Autoren. Stattdessen siehe Google Scholar.
  3. a b c Gatt, Albert; Krahmer, Emiel (January 2018), "Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation", Journal of Artificial Intelligence Research 61: 65–170, archived from the original on 2020-06-23, retrieved 2020-07-24 
  4. Gatts Publikationen
  5. Emiel Krahmer (Q51689943) ausgewählte Publikationen
  6. a b Reiter, EB; Dale, R (2000), Building Natural-Language Generation Systems. (PDF), Cambridge University Press., archived from the original (PDF) on 2019-07-11, retrieved 2020-07-27 
  7. a b Grice, H. Paul (1975), Logic and conversation (PDF), retrieved 2020-08-10 
  8. a b Gârbacea, Cristina; Mei, Qiaozhu, Neural Language Generation: Formulation, Methods, and Evaluation (PDF), pp. 1–70, retrieved 2020-08-08, Compared to the survey of (Gatt and Krahmer, 2018), our overview is a more comprehensive and updated coverage of neural network methods and evaluation centered around the novel problem definitions and task formulations. 
  9. a b Grave, Édouard; Joulin, Armand; Usunier, Nicolas (2016), Improving neural language models with a continuous cache (PDF) 
  10. a b Ficler, Jessica; Goldberg, Yoav (2017), "Controlling linguistic style aspects in neural language generation" (PDF), Proceedings of the Workshop on Stylistic Variation: 94–104 . Published slightly earlier that year was Van-Khanh Tran and Le-Minh Nguyen. 2017.
    Ficler, Jessica; Goldberg, Yoav (2017), Semantic Refinement GRU-based Neural Language Generation for Spoken Dialogue Systems (PDF) 
  11. Gardent, Claire; Shimorina, Anastasia; Narayan, Shashi; Perez-Beltrachini, Laura (2017), "The WebNLG Challenge: Generating Text from RDF data." (PDF), Proceedings of the 10th International Conference on Natural Language Generation: 124–133