抽象的なウィキペディア/更新情報/2021年07月29日

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Abstract Wikipedia/Updates/2021-07-29 and the translation is 36% complete.
抽象的なウィキペディアの更新情報 Translate

メーリングリストによる抽象ウィキペディア IRCに関する抽象的なウィキペディア Telegramのウィキファンクションズ Wikifunctions on Mastodon Twitterのウィキファンクションズ Facebook上のウィキファンクションズ YouTubeのウィキファンクションズ ウィキファンクションズのウェブサイト Translate

Abstract descriptions.

抽象ウィキペディアの趣旨は、誰でも何語でもコンテンツを執筆でき、それを別の何語でも読めるようにすることです。 究極には、目指すコンテンツの形態はウィキペディアの記事であり、偏向がなくて時差のない、理解できる百科事典型の知識を誰もが公平に受け取ったり貢献できるようにするためです。

今後の数ヵ月をかけて、その目標に向かい大きなマイルストンを達成していきます。 今日の機会に、マイルストンの一つの概要を描いてみたいと考えます。それはウィキデータ用の抽象説明 abstract descriptions というものです。

ウィキデータの「項目」はすべてそれぞれの言語でラベル説明エリアスを備えています。Q836805という項目を調べた場合をサンプルにしてみましょう。 英語の場合、この項目に付いたラベルは “Chalmers University of Technology” 、説明は “university in Gothenburg, Sweden” です。スウェーデン語なら、 それぞれ“Chalmers tekniska högskola”“universitet i Göteborg, Sverige” になります。 ラベルには項目の一般名という使い道があり、説明とともに実社会でその項目を固有のものとして識別させます。 たとえ複数の項目に同じラベルが付いていても、言い換えるなら実社会では同名でも異なるものがあるように、特定の言語において複数の項目同士のラベルと説明が、全く同じになることはありません。 エリアスは検索体験の向上を支えるために使います。

The meaning of the descriptions across languages is often the same, and when it is not, although sometimes intentional, it usually differs by accident. Given there are more than 94 million Items in Wikidata, and Wikidata supports more than 430 languages, that would mean that if we had perfect coverage, we would have more than 40 billion labels and as many descriptions. And not only would the creation of all these labels and descriptions be a huge amount of work, they would also need to be maintained. If there are not enough contributors checking on the quality of these, it would be unfortunately easy to sneak in vandalism.

The Wikidata community has known about this issue for a long time, and made great efforts to correct it. Tools such as AutoDesc by Magnus Manske and bots such as Edoderoobot, Mr.Ibrahembot, MatSuBot (these were selected by clicking “Random Item” and looking at the history) and many others have worked on increasing the coverage. And it shows: these bots often target descriptions, and so, even though only six languages have labels for more than 10% of Wikidata Items, a whopping 64 languages have a coverage over 10% for descriptions! Today, we have well over two billion descriptions in Wikidata.

These bots create descriptions, usually based on the existing statements of the Item. And that is great. But there is no easy way to fix an error across languages, nor is there an easy way to ensure that no vandalism has snuck in. Also, bots give an oversized responsibility to a comparably small group of bot operators. Our goal is to democratize that responsibility again and allow more people to contribute.

Descriptions in Wikidata are usually noun phrases, which are something that we will need to be able to do for Abstract Wikipedia anyway. We want to start thinking about how to implement this feature, and then derive from there what will need to happen in Wikifunctions and in Wikidata. This work will need to happen in close coöperation with the Wikidata team, and the communities of both Wikidata and Wikifunctions. It will represent a way to ramp-up our capabilities towards the wider vision of Abstract Wikipedia. Timewise, we hope to achieve that in 2022.

We don’t know yet how exactly this will work. Here are a few thoughts, but really I invite you so that we all work together on the design for abstract descriptions:

  • It must be possible to overwrite a description for a given language
  • It must be possible to retract a local overwrite for a given language
  • The pair of label and description still must remain unique
  • It would be great if implementing this would not be a large effort
  • The goal is not to create automatic descriptions, but abstract descriptions

The last point is subtle: an automatic description is a description generated automatically from the given statements of an Item. That’s a valuable and very difficult task. The above mentioned AutoDesc for example, starts the English description for Douglas Adams as follows: “British playwright, screenwriter, novelist, children's writer, science fiction writer, comedian, and writer (1952–2001) ♂; member of Footlights and Groucho Club; child of Christopher Douglas Adams and Janet Adams; spouse of Jane Belson”. The Q42 Item's current manual English description is the much more succinct “English writer and humorist”. There can be many subtle decisions and editorial judgements to be made in order to create the description for a given Item, and I think we should be working on this — but later.

Instead, we want to support abstract descriptions: a description, manually created, but instead of being written in a specific natural language, it is encoded in the abstract notation of Wikifunctions and then we use the renderers to generate the natural languages text. This allows the community to retain direct control over the content of a description.

Here are a few ideas to kick off the conversation:

  • We introduce a new language code, qqz. That code is in the range reserved for local use, and is similar to the other dummy language codes in MediaWiki, qqq and qqx. Wikidata is to support the qqz language code for descriptions.
  • The content of the qqz description is an abstract content. Technically we could store it in some string notation such as “Z12367(Q3918, Q25287, Q34)”. あるいは JSON ZObject の保存で対応できるかもしれません。
  • 抽象説明はウィキ関数で抽象コンテンツの編集用に開発した Vue コンポーネントをそのまま流用できそうです。
  • 抽象説明は多言語版で説明が欠如したものにはフォールバックとして使います。 それぞれの言語で説明を書くと、上書きされます。
  • レンダリング関数もしくはその下敷きとなる 辞書式順序が変更されるたび、対照する生成のやり直しを求められます。
  • 未解決点の一つは、生成した説明を「項目」に保存するのか、その場合、抽象説明により生成した説明であると示すため、データモデルをどう変更するかです。
  • 合わせて更新情報の追跡を希望する 人全員に、変更点を知らせる方法も決める必要があります。 If we store the generated description as proposed above, we can piggyback on the current system.

All of these are just ideas for discussion. Some of the major questions are whether to store all the generated descriptions in the Item or not, how to represent that in the edit history of the Item, how to design the caching and retriggering of the generated descriptions, etc.

What would that look like?

Let’s take a look at an oversimplified example. The English description for Chalmers is “university in Gothenburg, Sweden”. That seems like a reasonably simple case that could easily be templated into abstract content say of the form “Z12367(Q3918, Q25287, Q34)”, where Z12367 (that ZID is made-up) represents the abstract content saying in English “(institution) in (city), (country)”, Q3918 the QID for university, Q25287 the QID for Gothenburg, and Q34 the QID for Sweden. (In reality, this template is actually nowhere near as simple as it looks like - we will discuss this more in an upcoming weekly newsletter. For now, let’s assume this to be so simple.)

Renderers would then take this abstract content and for each language generate the description, in this case “university in Gothenburg, Sweden” for English, or “sveučilište u Göteborgu u Švedskoj” in Croatian. Since there is already an English description, we wouldn’t store nor actually generate the text, but in Croatian we would generate it, store it, and mark it as a generated description.

抽象ウィキペディアの道のりにおいて、これは実利的な結果を得た点で良いマインストンになると考えています。 皆さんの意見はどうですか? このアイデアをめぐる討論にトークページで参加しませんか。


統計が示すテスターと実装担当の共同作業

他のニュースとして、リンゼー Lindsay による新機能の動画があります。テスター班と実装班がどのように協力して、テスト合格に持ち込むかその過程を描いたものです。

動画はテスト版をを複数回走らせてどのように実装を変えているかとらえています。 ウィキ関数の質を保つ決め手は、テスターの皆さんの存在です。

皆さんと次にお会いして質疑応答ができるチャンスはウィキマニアです。 8月14日17:00 UTCより、1.5 時間の予定でウィキ関数(Wikifunctions)ならびに 抽象ウィキペディアのセッションを主催します。 今年のウィキマニアは完全に仮想イベントとして開催し、参加登録は無料です。 ウィキマニア 2021に皆さんの質問と提言を持ち寄りましょう。

来週は更新のお知らせを休刊します。