Perangkat Lunak Karakter Optis Aksara Jawa untuk Wikisource

Dari Wikimedia Indonesia
Loncat ke navigasi Loncat ke pencarian

Perangkat Lunak Karakter Optis Aksara Jawa untuk Wikisource Anggaran Laporan Dokumentasi Aktivitas Laporan Penggunaan Dana


Perangkat Lunak Karakter Optis Aksara Jawa untuk Wikisource merupakan subproyek dari Wikimedia Indonesia APG 2018.

Latar belakang

Peralihan dari masa pencetakan mesin ke penyebaran informasi elektronik telah memicu kebangkitan digital, sebuah era yang ditandai oleh kelahiran kembali sumber-sumber utama dan dokumen-dokumen sejarah dalam bentuk digital. Motivasi utama dari digitalisasi dokumen-dokumen tersebut adalah untuk menjaga kandungan maupun eksistensinya. Selain itu, dokumen-dokumen tersebut dapat diteruskan ke generasi berikutnya sebagai sumber referensi tentang perkembangan budaya, tradisi, dan identitas suatu bangsa pada periode waktu tertentu.

Proses digitalisasi dokumen dan naskah sejarah tidak serta merta berhenti ketika telah dipindai dan tersimpan dalam format gambar (jpg atau png). Kerugian dalam menyimpan dokumen dalam format gambar adalah kebutuhan untuk menyimpannya dalam ukuran yang besar dan akses yang tidak fleksibel. Masalah ini bisa diselesaikan melalui metode Pengenalan Karakter Optis (Optical Character Recognition, OCR) yang mengubah gambar aksara menjadi teks karakter yang dapat dicari. Itulah yang melatarbelakangi fokus proyek ini pada pembangunan mesin OCR untuk mengenali aksara Jawa dari hasil pemindaian naskah Jawa.

Tujuan jangka pendek dari proyek ini adalah untuk mengembangkan prototipe perangkat lunak yang mampu mengenali aksara Jawa dalam bentuk optik dan memetakannya ke dalam simbol Unicode. Dalam jangka panjang, proyek ini bertujuan untuk mentransliterasikan aksara Jawa ke dalam huruf Latin dan meningkatkan tingkat pengenalan prototipe dengan menguraikan segmentasi dan tahap pra-pemrosesan dan menemukan model untuk proses pasca-koreksi. Proyek ini didukung oleh dosen Jurusan Teknik Informatika, Universitas Kristen Duta Wacana, Dr. phil. Lucia D. Krisnawati dan Aditya W. Mahastama, S.Kom, M.Cs.

Pengguna dan penggunaan

Pihak-pihak yang merasakan manfaat utama dari proyek ini adalah proyek-proyek Wikisource dan sukarelawannya, serta para peneliti dan akademisi. Pengguna Wikisource dapat memasukkan semua aksara Jawa dari sumber aslinya secara efektif dan efisien. Para peneliti dan akademisi maupun peminat sastra Jawa dapat dengan mudah menemukan informasi yang mereka inginkan dengan memasukkan Unicode dari aksara Jawa tanpa perlu membaca seluruh naskah asli.

Dampak

Dampak nyata dari proyek ini adalah prototipe perangkat lunak OCR berbasis web untuk mengenali aksara Jawa. Perangkat lunak ini akan disinkronkan dengan penggunaan Wiki sehingga hasilnya dapat diakses publik. Kasus penggunaan semacam itu akan mengarah pada pembukaan sumber-sumber sejarah Indonesia yang penting dan memungkinkan para ahli sejarah dan humaniora untuk melakukan penelitian awal mereka berdasarkan sumber-sumber primer yang tersedia untuk umum. Sebagai proyek pertama pada pengenalan aksara Jawa, proyek penelitian ini dapat dipastikan akan merangsang para peneliti tentang digitalisasi dokumen sejarah di Indonesia. Pada akhirnya, proyek ini berkontribusi dalam meningkatkan jumlah sumber-sumber dalam bahasa Jawa yang lebih mudah diakses melalui teks karakter yang dapat dicari di Wikimedia.

Target

Beberapa kiriman mencakup hal-hal berikut:

  • Prototipe perangkat lunak OCR-engine untuk aksara Jawa
  • Penyematan prototipe perangkat lunak OCR ke Antarmuka Pengguna Wiki
  • 2 jilid manuskrip OCR dengan lisensi CC, berkisar 400 halaman sebagai data pelatihan; misalnya. Serat Babad Surakarta Volume 1-2
  • 2 artikel konferensi yang disebarluaskan dalam konferensi internasional
  • 1 program magang sarjana yang juga berfungsi sebagai dokumentasi proyek ini
  • 1 tesis sarjana di Jurusan Informatika Universitas Kristen Duta Wacana tentang topik ini
  • 2 pelatihan penggunaan prototipe dengan 10 peserta untuk setiap pelatihan