Wikisource Loves Manuscripts

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Wikisource Loves Manuscripts and the translation is 86% complete.
Outdated translations are marked like this.


Wikisource Loves Manuscripts is a call-to-action and a project to support the digitization of manuscripts on Wikisource.

Latar belakang

Photograph of a Balinese palm-leaf manuscript during the digitization process in Bali.

Pada tahun 2020-21, Wikimedia Foundation mendanai dua proyek yang membantu menciptakan Wikisource baru dalam Bahasa Bali di Indonesia. Salah satu fokus proyek tersebut adalah menciptakan teknologi untuk mendukung transkripsi manuskrip lontar yang ditulis tangan di Wikisource, sedangkan fokus lainnya yaitu memindai dan mendigitalisasi lebih banyak manuskrip dari arsip dan kolektor perorangan. Kami percaya bahwa ini adalah strategi yang bisa dilakukan kembali untuk mempererat hubungan dengan budaya dan warisan di Asia Tenggara.

Wikisource Loves Manuscripts pilot di Indonesia

Pusat Pengkajian Islam dan Masyarakat (PPIM) adalah lembaga yang berlokasi di Jakarta yang akan menjalankan proyek pilot Wikisource Loves Manuscripts di Indonesia berkolaborasi dengan Wikimedia Indonesia dan komunitas penggerak proyek Wikilontar, dengan dukungan dari Wikimedia Foundation.

Wilayah

Proyek ini akan berfokus pada penyelamatan manuskrip di tiga pulau: Bali, Jawa dan Sumatra. Manuskrip dari wilayah tersebut memiliki keragaman yang sangat kaya baik dalam segi bahasa, aksara, bahan tulis, dan isi teksnya.

Linimasa

  • Oktober hingga Desember 2022 - Perencanaan proyek dan pengumuman
  • Januari hingga Maret 2023 - Misi digitalisasi pertama & proofread-a-thon
  • April hingga Juni 2023 - Misi digitalisasi kedua & proofread-a-thon
  • Juli hingga Semptember 2023 - Misi digtalisasi ketiga & proofread-a-thon
  • November to December 2023 - Program extension & reports

Kegiatan Utama

Digitalisasi manuskrip

Kegiatan inti dari proyek ini yaitu mendigitalisasi koleksi manuskrip yang dimiliki oleh perorangan dan lembaga (perpustakaan, museum dan sebagainya) yang terancam bahaya kerusakan. Seluruh halaman manuskrip akan difoto (atau dipindai) dan salinan digitalnya diunggah ke Wikimedia Commons dengan lisensi Creative Commons yang memadai. Setiap bundel manuskrip akan disediakan informasi metadata melalui Wikidata.

Wikisource proofread-a-thon

Manuskrip yang telah diunggah ke Wikimedia Commons bersama metadatanya akan diproses melalui transkripsi menggunakan Wikisource. Manuskrip akan diketik oleh para sukarelawan menggunakan aksara yang sesuai dengan aksara pada manuskripnya. Atas alasan ini, akan dilakukan perkenalan tentang cara kerja Wikisource untuk mengetik aksara non-Latin. Dalam tahap berikutnya, akan diadakan kompetisi untuk mentranskripsi manuskrip hasil digitalisasi.

Uji coba Transkribus

Teks di Wikisource yang ditranskripsi melalui perpaduan antara rekognisi teks secara otomatis dan perbaikan oleh komunitas. Kualitas Optical Character Recognition (OCR) membantu kontributor untuk fokus memperbaiki kualitas konten, melalui uji baca, dibanding melakukan transkripsi secara manual sepenuhnya. Ini adalah prasyarat untuk memperluas proyek Wikisource. Tim CommTech dari Wikimedia Foundation meningkatkan Wikisource dengan mengintegrasikan dua mesin OCR, Google OCR, dan Tesseract. Tetapi banyak bahasa dan dokumen masih belum didukung dengan OCR on-wiki berkualitas tinggi, termasuk Wikisources bahasa Bali dan Jawa yang diluncurkan pada tahun 2021.

  • Transkribus (website) adalah alat pengenalan teks dan tulisan tangan bertenaga AI yang dapat digunakan untuk membuat model OCR berdasarkan transkripsi di Wikisource. Berdasarkan penelitian awal, tidak ada alat pengenalan teks dan tulisan tangan lain yang dapat dilatih untuk mendukung bahasa apa pun. Ada juga permintaan komunitas yang ada ( Wikimediawan Benggala Barat) dan keterlibatan mitra (British Library) dengan Transkribus.
  • Sebuah tim dari IIIT Hyderabad dengan keahlian dalam penglihatan komputer dan pembelajaran mesin terapan akan menguji kelayakan Transkribus dengan bahasa-bahasa yang kurang didukung di Asia Tenggara. Pada tahap pertama uji coba, kami akan menggunakan dokumen berbahasa Bali yang sudah ditranskripsikan oleh sukarelawan di Wikisource, untuk membangun model OCR baru.

Pembaruan

Tim

PPIM

Wikimedia Indonesia

IIIT Hyderabad

  • Dr. Ravi Kiran

Wikimedia Foundation