Abstraktní Wikipedie/Aktualizace/2022-05-27

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Abstract Wikipedia/Updates/2022-05-27 and the translation is 100% complete.
Aktualizace Abstraktní Wikipedie Translate

Abstraktní Wikipedie prostřednictvím e-mailového seznamu Abstraktní Wikipedie na IRC Wikifunkce na Telegramu Wikifunkce na Facebooku Wikifunkce na Twitteru Wikifunkce na Facebooku Wikifunkce na YouTube Webové stránky Wikifunkcí Translate

Návrh architektury generování přirozeného jazyka (NLG)

Náš spolupracovník z Google.org, Ariel Gutman, je autorem návrhu architektury pro systém generování přirozeného jazyka (NLG) abstraktní Wikipedie.

Navrhovaná architektura se řídí 4 hlavními principy:

  1. Modularita: systém by měl být modulární, aby bylo možné nezávisle upravovat různé aspekty NLG (např. morfosyntaktická a fonotaktická pravidla).
  2. Lexikálnost: systém by měl být schopen jak načítat lexikální data (odděleně od kódu), tak se spoléhat na produktivní jazyková pravidla pro generování těchto dat za běhu (např. skloňování anglického plurálu s -s).
  3. Rekurzivita: vzhledem ke kompoziční a rekurzivní povaze většiny jazyků by efektivní systém NLG musel být sám rekurzivní.
  4. Rozšiřitelnost: systém by měl být přístupný rozšiřování jak jazykovými odborníky a technickými přispěvateli, tak i netechnickými a neodbornými přispěvateli, kteří pracují na různých částech systému.

Tyto úvahy vedou k návrhu "potrubního" systému, v němž je vstupní konstruktor zpracováván různými moduly (odpovídajícími různým aspektům přirozeného jazyka), dokud není vrácen konečný výstupní text.

V této pipeline jsou tmavě modré bloky prvky, které by vytvořili přispěvatelé do Wikifunkcí (obdélníky) nebo Wikidat (zaoblené obdélníky), zatímco světle modré prvky představují funkce nebo data žijící v orchestrátoru Wikifunkcí.

Klíčovým aspektem systému jsou "šablonové vykreslovače". Wikifunkce budou poskytovat specializovaný šablonovací jazyk, vyvinutý vlastními silami, který by měl umožnit i netechnickým přispěvatelům psát renderery pro jejich jazyk. Tyto renderery budou podporovány lexikálními daty z Wikidat a gramatickými vztahy ve stylu univerzální závislosti, které by v rámci Wikifunkcí definovali jazykově zainteresovaní přispěvatelé.

Budeme rádi, když nám na diskusní stránce návrhu sdělíte jakoukoli zpětnou vazbu, zejména pokud jde o nápad vyvinout vlastní šablonovací systém.

Další aktualizace za minulý týden

  • Tento týden tým uspořádal první zasedání Deep Dive. Představili jsme naše projektové OKR (cíle a klíčové výsledky) a získali zpětnou vazbu od vedení.
  • Tento týden strávil tým přípravami na víkendový Hackathon:
    • Proběhla prezentace a otázky a odpovědi na téma Wikifunkcí.
    • Pro účastníky Hackathonu bylo identifikováno a označeno několik úkolů z backlogu Phabricatoru.

Níže je uveden stručný týdenní přehled s důrazem na stav každého pracovního procesu:

  • Výkon:
    • Pokrok v nastavení Beta clusteru: služby orchestrátoru a evaluátoru se nyní automaticky aktualizují na nejnovější bitovou kopii.
  • NLG:
    • Dokončení počátečního návrhu dokumentu návrhu architektury systému NLG.
  • Metadata:
    • Částečné dokončení kódu front-endu, aby byla zajištěna dopředná i zpětná kompatibilita pro staré a nové formáty metadat.
  • Zkušenosti:
    • Další pokrok v implementaci zobrazení funkcí a editorů pro mobilní zařízení
    • Dokončení migrace funkčních schémat na pole Benjamin
    • Předané návrhy pro 'Text se záložním řešením'