Wikipédia abstraite/Mises à jour/2021-02-10

Actualités de la Wikipédia abstraite

L’objectif de la Wikipédia abstraite est de générer des textes en langue naturelle depuis une représentation abstraite du contenu à présenter. Afin de pouvoir le faire, nous utiliserons les données lexicographiques de Wikidata. Et bien que nous soyons assez loin de parvenir à générer des textes, une chose pour laquelle nous voulons encourager l’aide de chacun est la couverture et la complétude des données lexicographique dans Wikidata.

Aujourd’hui nous voulons présenter les prototypes de deux outils qui peuvent aider les personnes à visualiser, montrer en exemple et mieux guider notre compréhension de la couverture lexicographique des données dans Wikidata.

Interface d’annotation

Les premier prototype est une interface d’annotation qui permet aux utilisateurs d’annoter des phrases dans toute langue, en associant chaque mot ou expression dans un Lexème de Wikidata, y compris en sélectionnant sa Forme et son Sens.

Vous pouvez en voir un exemple dans la capture d’écran suivante.

Chaque « mot » de la phrase ici est annoté avec un Lexème (l’identifiant du Lexème L31818 est donné juste sous le mot), suivi par le lemme, la langue et la partie du discours. Vient ensuite, si elle est sélectionnée, la Forme spécifique qui est utilisée dans ce contexte — par exemple, sur « dignité » nous voyons l’identifiant de Forme L31818#F1, qui est la celle au singulier du Lexème. Enfin vient le Sens (ou Lemme) qui est affecté de l’identifiant de Sens L31818#S1 et défini par une glose.
À tout moment, vous pouvez retirer n’importe laquelle des annotations ou en ajouter de nouvelles. Certaines des options vous amènent directement à Wikidata. Par exemple, si vous voulez ajouter un Sens à un Lexème donné, car il n’a pas encore de Sens ou il manque celui dont vous avez besoin, cela vous mènera à Wikidata afin de le faire là-bas de la façon normale. Une fois ajouté là-bas, vous pouvez revenir et sélectionner le nouveau Sens ajouté.
L’interface utilisateur du prototype est un peu lente, donc accordez lui quelques secondes quand vous démarrez une action. Cela devrait fonctionner en l’état dans différentes langues. Le Sélecteur de langue universel (ULS) est disponible (en haut de la page) et vous pouvez l’utiliser pour changer de langue. Notez que les gloses des Sens ne sont fréquemment disponibles dans la langue du Lexème, et l’interface utilisateur ne réalise encore aucun repli vers une autre langue, donc si vous regardez des phrases en anglais avec une interface utilisateur en allemand vous pourriez souvent trouver des gloses manquantes.

Techiquement parlant, ceci est un prototype entièrement mis en œuvre en Javascript et en CSS, au dessus d’une installation normale de MediaWiki. Ceci n’est probablement pas la meilleure solution technique pour un tel système, mais cela devrait aider à déterminer s’il y a un quelconque intérêt des utilisateurs pour l’outil, pour une potentielle remise en œuvre. Également, ce serait une tâche fascinante de s’accorder sur une API qui puisse être mise en œuvre par d’autres groupes pour fournir la sélection des Lexèmes, des Sens et des Formes pour les phrases en entrée. La ligne de base actuelle est ici extrêmement simple et ne serait pas assez bonne pour un système de balisage automatisé. Avoir ceci disponible pour de nombreuses phrases dans de nombreuses langues fournirait un large corpus pour entrainer des systèmes de compréhension de la langue naturelle. Il y a bien des choses qui peuvent être bâties à partir de cela.

Le but de ce prototype est de rendre plus tangible les progrès de la communauté Wikidata concernant la couverture des données lexicographiques. Vous pouvez prendre une phrase dans n’importe quelle langue écrite, la placer dans ce système, et déterminer la complétude que vous pouvez obtenir avec vos annotations. C’est une façon de faire une démonstration et de créer une expérience anecdotique des données lexicographiques dans Wikidata.

L’interface prototype d’annotation est sur : annotation.wmcloud.org.
Vous pouvez en discuter sur : annotation.wmcloud.org/wiki/Discussion (vous devrez créer un nouveau compte sur ce wiki).

Tableau de bord de couverture du corpus

Le second outil prototype est un tableau de bord qui montre la couverture des données comparée au corpus de Wikipédia dans chaque langue parmi une quarantaine.

L’année dernière, lorsque j’étais en poste précédemment chez Google Research, j’ai co-écrit une publication où nous avions construit et publié des modèles de langue à partir du texte nettoyé d’une quarantaine d’éditions linguistiques de Wikipédia.^[1] À côté des modèles de langue, nous avons également publié les données brutes : ce texte avait été nettoyé en utilisant le système de prétraitement que Google utilise sur le texte de Wikipédia afin d’intégrer le texte dans plusieurs de ses fonctionnalités. Aussi, bien que ce jeu de données consiste en du texte relativement propre en langue naturelle — certainement, en comparaison du texte wiki brut — il contient encore de nombreux artefacts. Si vous connaissez un meilleur large corpus de texte encyclopédique que nous pouvons utiliser, peut-être des versions mieux nettoyées de Wikipédia ou des corpus couvrant davantage de langues, merci de nous le faire savoir.

Nous avons extrait ces textes à partir de modèles TensorFlow (flux de tenseurs). Nous avons fourni les textes extraits en téléchargement. Nous avons scindé les textes en éléments lexicaux et compté les occurrences de mots et avons comparé combien de ces éléments apparaissent parmi les Formes des Lexèmes de chaque langue dans les données lexicographiques de Wikidata. Si cela s’avère utile, nous pourrions déplacer les textes nettoyés avec un hôte plus permanent.

Une capture d’écran de l’état actuel pour la langue anglaise figure ici.

Nous voyons combien de Formes sont disponibles pour cette langue dans Wikidata et combien de Formes différentes sont attestées dans Wikipédia (par ex., combien de mots différents ou de types de mots sont dans l’édition de Wikipédia de la langue donnée). Le nombre d’éléments lexicaux est le nombre total de mots dans le corpus de langue donné. Les formes couvertes indiquent combien des formes présentes dans le corpus sont également dans l’ensemble des Lexèmes de Wikidata, tandis que les éléments lexicaux couverts nous indiquent combien d’occurrences sont couvertes (donc si le terme « temps » apparait 100 fois dans l’édition de Wikipédia en français, il sera compté comme une forme couverte, mais 100 éléments lexicaux couverts). Les deux diagrammes en camembert visualisent respectivement la couverture des formes et celle des éléments lexicaux.
Finalement, il existe un lien avec le millier de formes les plus fréquentes qui ne sont pas encore dans Wikidata. Ceci peut aider les communautés à accorder une plus grande priorité pour faire rapidement décoller la couverture. Notez cependant que le rapport des progressions est manuel et n’est pas mis à jour automatiquement. Je prévois pour l’instant d’exécuter une mise à jour de temps en temps.

Le tableau de bord prototype de couverture du corpus est sur : Wikidata:Couverture lexicographique.
Vous pouvez en discuter sur : Discussion Wikidata:Couverture lexicographique.

Aide demandée

Les deux prototypes sont exactement cela : des prototypes, pas des produits réels. Nous ne sommes pas engagés à soutenir et développer plus loin ces prototypes. En même temps, la totalité du code et des données est bien sûr en source ouverte. Si quelqu’un voudrait reprendre le développement ou la maintenance de ces prototypes, vous serez plus que bienvenu. Faites-le nous savoir (sur ma page de discussion, par courriel ou sur la page des idées d’outils).

Également, si quelqu’un aime l’idée mais pense qu'une mise en œuvre différente serait meilleure, merci d'aller de l’avant avec — Je serai ravi de vous soutenir et d’en discuter avec vous. Il y a beaucoup à améliorer ici, mais nous espérons que ces deux prototypes conduiront à davantage de développement du contenu et des outil dans l’espace des données lexicographiques.

Notes

↑ Mandy Guo, Zihang Dai, Denny Vrandečić, Rami Al-Rfou : Wiki-40B : jeu de données du modèle de langue multilingue, LREC 2020.