Wikimedia Enterprise — это новый сервис Фонда Викимедиа, выполняемый несколькими его департаментами с доступом через enterprise.wikimedia.com. Целью сервиса является построение услуг для крупных коммерческих пользователей контента проектов Викимедиа. Сервис был анонсирован в марте 2021 года (пост в блоге, статья в WIRED) и запущен в октябре 2021 года (пресс-релиз, статья в OpenFutures).
Основной фокус делается на организациях, которые хотят повторно использовать контент Викимедиа в других контекстах, предоставляя услуги в области данных в крупном масштабе, чтобы они могли быть более комплексными, скоростными, надёжными и безопасными. Wikimedia Enterprise стремится повысить для читателей Викимедиа удобство работы за пределами наших собственных веб-сайтов; увеличить доступность и лёгкость нахождения контента; а также повысить осведомленность и упростить процесс определения авторства и проверки со стороны организаций, которые чаще всего повторно используют данные проектов Викимедиа — и всё это через самоокупаемые сервисы.
За исключением распространённых случаев использования данных Викимедиа в форме чтения или редактирования, барьер для получения возможности использования данных Викимедиа очень высок. Это связано с тем, что машинам сложно сегментировать и понимать контент, что, в свою очередь, влияет на то, как данные проектов Викимедиа выходят за рамки нашей собственной экосистемы, и масштабы их влияния.
В рекомендациях стратегии развития движения «Способствование устойчивому развитию нашего движения» и «Улучшение пользовательского опыта» содержатся следующие положения, соответственно: «Изучение новых возможностей как для получения дохода, так и для распространения бесплатных знаний с помощью партнерских связей и доходов от коммерческой деятельности, например... Создание прикладных интерфейсов корпоративного уровня» и «Возможности сделать набор прикладных интерфейсов Викимедиа более полным, надежным, безопасным и быстрым в сотрудничестве с крупными пользователями... а также повысить осведомленность и простоту установления подлинности и проверяемости для повторных пользователей контента».
Хорошо известно, что несколько крупных компаний пользуются данными наших проектов. Эти компании признаю́т, что без проектов Викимедиа они не смогли бы предоставить своим пользователям настолько обширные или надёжные возможности для работы. В сообществе уже давно бытует мнение, что эти компании могут сделать больше для сообществ Викимедиа в финансовом плане в обмен на те выгоды, которые они получают от использования контента и ресурсов.
Это привело к идее разработки нового подхода, который будет в долгосрочной перспективе более устойчивым и обеспечит более понятные отношения между Викимедиа и корпоративными пользователями. Скорее всего, большинство средств для Викимедиа будут поступать лишь от очень небольшого количества крупных коммерческих пользователей и будут направляться обратно на финансирование движения Викимедиа.
По мере развития этой идеи стало ясно, что мы обязаны также упростить доступ к нашим данным для организаций, которые не обладают такими же ресурсами, как эти крупнейшие пользователи, обеспечивая равные условия использования данных и здоровый Интернет без укрепления монополий. Данный сервис должен быть доступен не только для стартапов или мелких конкурентов интернет-гигантов, но и для университетов и исследователей, архивов и архивариусов; а также в целом для движения Викимедиа.
Общий обзор
Сервис «Wikimedia Enterprise» нацелен на предприятия, которые повторно используют наш контент, как правило, в крупном масштабе, например, интегрируют в графы знаний, поиск, голосовые помощники, карты, новостные сообщения, инструменты для сообщества, сторонние приложения и корпусные исследования. Дополнение множества наборов данных Викимедиа для структурирования нашего неструктурированного контента позволит всем нашим пользователям, повторно использующим контент, удовлетворять их индивидуальные потребности, а также позволит нам создавать в будущем новые инструменты и сервисы, доступные всем.
Частота: регулярные актуальные версии проектов Викимедиа
Надёжность: надежная и доступная инфраструктура
Качество: «лучшая последняя редакция»
Акцент на наборе конкретных самоокупаемых видов использования позволит команде API Викимедиа сосредоточиться на добровольцах, командах и организациях, которые хотят получить доступ к нашим наборам данных (и, что самое главное, использовать их). Это включает большинство используемых сообществом инструментов редактирования, не входящих в охват данного сервиса. Для получения дополнительной информации об усовершенствованиях существующих API Викимедиа см. страницу сервиса в разделе, посвящённом инициативе «API Gateway».
Цели программы:
Контент: Обеспечить доступность большего количества контента нашего движения в последовательных машиночитаемых форматах, доступных всем исследователям и повторным пользователям.
Нагрузка ресурсов: Снизить потребность в высокоинтенсивном веб-скрейпинге за счёт перевода на API Викимедиа повторных пользователей с наибольшей частотой и объёмом использования, которые в настоящее время нацелены на использование наших производственных серверов.
Финансирование: Наличие более чёткого и последовательного способа реинвестирования полученных преимуществ крупнейшими повторными пользователями обратно в движение вместо случайных альтруистических пожертвований, размер которых различается.
Сообщество
Свяжитесь с командой, если вы хотите обсудить этот сервис с вашим сообществом (в удобное для вас время и через подходящую программную платформу по вашему выбору).
Английское слово free имеет два значения: «свободный» и «бесплатный»; для пояснения этой разницы значений часто используют обороты свободный как в «свободе слова», бесплатный как в словосочетании «бесплатное пиво».
Проекты Фонда Wikimedia всегда были, остаются и всегда будут свободными. Из принципов свободных работ следует, что любой может пользоваться контентом Wikimedia без каких-либо ограничений, в том числе в коммерческих целях. В этом состоит наша идеология как движения. Именно поэтому мы отвергаем «некоммерческие» лицензии: ими ограничиваются возможности повторного использования. И по этой же причине мы считаем коммерческое повторное использование важным средством распространения знаний.
Равным образом проекты Фонда Wikimedia всегда были, остаются и всегда будут бесплатными. Наличие бесплатного доступа к знаниям, которые предлагаются в рамках всех проектов Фонда Wikimedia, составляет центральный элемент миссии Фонда и движения. Мы предоставляем этот доступ не только физическим лицам, которые посещают наши сайты, но и — на программном уровне — машинам с возможностью адаптации назначения наших материалов под конкретные нужды. Полный корпус материалов Фонда Wikimedia всегда был и останется доступен для повторного использования в разных формах (включая, в частности, дамп баз данных, API [интерфейс прикладного программирования] и веб-скрейпинг) для бесплатного повторного использования.
Как следствие, коммерческие организации часто изменяют назначение наших материалов с учётом потребностей своего бизнеса и, соответственно, зарабатывают на этом. Не считая добровольных пожертвований, которые поступают в фонд Wikimedia от юридических лиц, наше движение никогда не получало никаких выгод от такой прибыли в форме обратных инвестиций. В подтверждение этого обстоятельства в составе рекомендации «Способствование устойчивому развитию нашего движения» процесс разработки Стратегии развития движения направил в Фонд Wikimedia запрос на исследование, среди прочего, «прикладных интерфейсов корпоративного уровня... моделей выплат или устойчивого развития для коммерческих повторных пользователей в масштабах предприятия, с учетом необходимости предотвращения зависимости доходов или другого ненадлежащего внешнего влияния на дизайн и разработку продукта». Дополнительная рекомендация «Улучшение пользовательского опыта» гласит: «Возможности сделать набор прикладных интерфейсов Wikimedia более полным, надежным, безопасным и быстрым в сотрудничестве с крупными пользователями в случаях, когда это соответствует нашей миссии и принципам, чтобы улучшить пользовательский опыт как наших прямых, так и косвенных пользователей, увеличить охват и обнаруживаемость нашего контента и потенциал для возврата данных, а также повысить осведомленность и простоту установления подлинности и проверяемости для повторных пользователей контента».
Команда проекта Enterprise занимается разработкой нового ресурса, предназначенного для лиц, осуществляющих повторное использование в коммерческих целях, требования которых к продуктам, сервисам и системам выходят за рамки того, к чему мы предоставляем свободный и бесплатный доступ. Использование этого ресурса не будет обязательным условием повторного использования материалов в коммерческих целях; компании смогут по-прежнему бесплатно пользоваться доступными в настоящее время инструментами. Вся выручка от Enterprise API будет в обязательном порядке идти на поддержку миссии фонда Wikimedia, например, на финансирование программ Wikimedia или пополнение фонда развития Wikimedia (Endowment).
Данный проект — это новый для Фонда вид деятельности. В настоящее время проект находится на ранней стадии реализации, которую следует рассматривать как время учебы. Мы будем достигать поставленных целей, но будем делать и ошибки, будем вынуждены корректировать собственные стратегии. Команда проекта готова прислушиваться к замечаниям, которые будут поступать в связи с проектом, внимательно их изучать и по возможности применять на практике. Настоящий документ определяет и отражает текущую позицию команды проекта; мы стараемся публично документировать как можно больший объем выполняемой работы. До настоящего времени наша работа корректировалась с учетом результатов ряда первичных интервью с членами сообщества, Попечительским советом фонда Wikimedia, а также персоналом, исследователями и осуществляющими повторное использование лицами.
Принимая во внимание характер сервиса, основное решение по нему будет принято Фондом Викимедиа. Мы просим членов сообщества, в частности технического сообщества и тех, кто участвовал в процессе разработки стратегии, предоставлять помощь на протяжении всего срока реализации сервиса. Мы получили комментарии по техническим вопросам от коллег из Фонда Викимедиа, отраслевых партнёров и исследовательских организаций, технических партнеров в рамках движения, а также в целом от технических сообществ через Фабрикатор. Получение комментариев по финансовым аспектам сервиса будет осуществляться по аналогичной схеме. В соответствии с нашими принципами мы продолжим собирать комментарии с помощью опросов и фокус-групп, а также форм обратной связи на Мете.
Технические вопросы
For full information about the product work, see the documentation homepage on MediaWiki.org and the API documentation subpage. Over time, the "product" being offered will grow and improve. We are still defining the exact nomenclature for API endpoints and documentation, but these are the main products that our team is currently building. This information is accurate as of Version 1.0.
Structured Content API
High-volume reusers that use an infrastructure reliant on the EventStream platform depend on services like RESTBase to pull HTML from page titles and current revisions to update their products. High-volume reusers have requested a reliable means to gather this data, as well as structures other than HTML when incorporating our content into their KGs and products.
Wikimedia Enterprise Structured Content API, at release, will contain:
A commercial schema
SLA
Firehose API
High-volume reusers currently rely heavily on the changes that are pushed from our community to update their products in real time, using EventStream APIs to access such changes. High-volume reusers are interested in a service that will allow them to filter the changes they receive to limit their processing, guarantee stable HTTP connections to ensure no data loss, and supply a more useful schema to limit the number of api calls they need to make per event.
Enterprise Firehose API, at release, will contain:
Filtering of events by Project or Revision Namespace
Guaranteed connections
Commercially useful schema similar* to those that we are building in our Structured Content API and Bulk API
SLA
*We are still in the process of mapping out the technical specifications to determine the limitations of schema in event platforms and will post here when we have finalized our design.
Bulk API
For high volume reusers that currently rely on the Wikimedia Dumps to access our information, we have created a solution to ingest Wikimedia content in near real time without excessive API calls (Structured Content API) or maintaining hooks into our infrastructure (Firehose).
Enterprise Bulk API, at release, will contain:
24-hour JSON*, Wikitext, or HTML compressed dumps of "text-based" Wikimedia projects
A hourly update file with revision changes of "text-based" Wikimedia projects
SLA
*JSON dumps will contain the same schema per page as the Structured Content API.
Доступ
Для получения доступа к наборам данных Enterprise API существуют три метода:
Платный
API в реальном времени (пакетная и потоковая передача) Через специальный веб-сайт продукта Enterprise API по адресу https://enterprise.wikimedia.com/
Creating an account via the project's website also includes a no-cost trial period of access. Wikimedians who have a mission-relevant use-case for continued access to the official service that cannot be fulfilled via existing methods, or those listed below, can request continued no-cost access.
Many people from different teams also contribute significantly, including from the WMF Legal, Engineering, Partnerships, Design, Communications teams etc. Additional contract work provided by: Speed & Function are providing engineering support; Boldr provide customer support services; Vuurr are assisting our sales process; Beutler Ink with marketing and communications, and Super Natural Design are the designers of the project website.
В состав совета LLC, курирующего проект, входят представители руководства Фонда Викимедиа, представляющие свои штатные должности в Фонде Викимедиа. В их число входят директор по продвижению Лиза Сейц-Грювел, главный юрисконсульт Аманда Кетон, главный технический директор [в настоящее время эта должность вакантна] и Лэйн Бэкер, который является президентом LLC. В конечном счёте деятельность Компании контролируется Попечительским советом Фонда Викимедиа, как это описано в Заявлении совета Фонда Викимедиа о принципах получения доходов в Wikimedia Enterprise.
Documents covering the legal relationship of the LLC to the Wikimedia Foundation are published on the Governance Wiki under "Category:Wikimedia Enterprise". Specifically, these are the operating, cost-sharing, and inter-company licensing agreements.The LLC's legal registration can be found at the State of Delaware, Division of Corporations, Entity name: Wikimedia, LLC, File number: 7828447.
Initial Wikimedia Foundation Diff blogpost note: media stories listed below are written and published independently and were neither pre-reviewed nor approved by the WMF
Wikitech: Data Services: Портал сервисов в области данных — список доступных для сообществ сервисов, которые обеспечивают прямой доступ к базам данных и дампам данных, а также веб-интерфейсы для запросов и программного доступа к хранилищам данных.
Enterprise hub — страница для тех, кто заинтересован в использовании программного обеспечения MediaWiki в рамках компании:
Группа MediaWiki Stakeholders — независимая аффилированная организация, которая защищает потребности пользователей MediaWiki за пределами Фонда Викимедиа, включая коммерческие предприятия.