위키문헌 러브 매뉴스크립트

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Wikisource Loves Manuscripts and the translation is 97% complete.


Wikisource Loves Manuscripts is a call-to-action and a project to support the digitization of manuscripts on Wikisource.

배경

발리에서 디지털화 과정을 진행 중인 발리 야자잎 원고 사진.

2020-21년에 위키미디어 재단은 인도네시아 발리어로 새로운 위키문헌을 만드는 데 도움이 되는 두 개의 프로젝트에 자금을 지원했습니다. 프로젝트 중 하나는 위키문헌에서 손으로 쓴 야자잎 원고의 필사를 지원하는 기술을 만드는 데 중점을 두었고 다른 프로젝트는 아카이브 및 개인 수집가의 더 많은 원고를 스캔하고 디지털화하는 데 중점을 두었습니다. 우리는 이것이 문화와 유산에 참여하기 위한 복제 가능한 전략이라고 믿습니다.

위키문헌 러브 매뉴스크립트 인도네시아 파일럿

자카르타에 기반을 둔 연구 기관인 이슬람과 사회 연구 센터(PPIM, Pusat Pengkajian Islam dan Masyarakat)는 위키미디어 재단의 지원을 받아 위키미디어 인도네시아 및 커뮤니티 주도 위키론타 프로젝트와 협력하여 인도네시아에서 위키문헌 러브 매뉴스크립트 파일럿을 이끌 예정입니다.

지역

이 프로젝트는 발리, 자바, 수마트라의 세 섬에서 원고 구출에 초점을 맞출 것입니다. 이 영역의 원고는 언어, 스크립트, 쓰기 지원 및 텍스트 내용 면에서 상당히 다양합니다.

일정표

  • 2022년 10월 ~ 12월 - 프로젝트 기획 및 발표
  • 2023년 1월~3월 - 첫 번째 보존 미션 및 교정 대회
  • 2023년 4월~6월 - 두 번째 보존 미션 및 교정 대회
  • 2023년 7월~9월 - 세 번째 보존 미션 및 교정 대회
  • November to December 2023 - Program extension & reports

기본 활동

매뉴스크립트 디지털화

이 프로젝트의 핵심 활동은 손상 위험에 처한 개인 및 기관(도서관, 박물관 등)의 원고 컬렉션을 디지털화하는 것입니다. 원고의 모든 페이지는 사진을 찍고(또는 스캔하고) 충분한 크리에이티브 커먼즈 라이선스에 따라 디지털 사본을 위키미디어 공용에 업로드합니다. 각 매뉴스크립트 번들은 위키데이터를 통해 충분한 메타데이터와 함께 제공됩니다.

위키문헌 교정 대회

위키미디어 공용에 업로드되고 메타데이터가 포함된 원고는 위키문헌을 사용하는 필사 프로세스를 통해 처리됩니다. 원고는 원고에 사용된 스크립트에 해당하는 스크립트를 사용하여 자원 봉사자가 입력합니다. 이러한 이유로 위키문헌이 비라틴어 스크립트 타이핑을 처리하는 방법에 대한 소개가 있을 것입니다. 다음 단계에서는 디지털화 결과 원고를 필사하는 대회가 열릴 예정이다.

파일럿 전사

위키문헌의 텍스트는 자동화된 텍스트 인식 및 커뮤니티 수정을 통해 기록됩니다. 우수한 품질의 OCR(광학 문자 인식)을 통해 기여자는 전체 전사를 수동으로 수행하는 대신 교정을 통해 콘텐츠 품질을 개선하는 데 집중할 수 있습니다. 위키문헌 프로젝트를 확장하기 위한 전제 조건입니다. 재단의 CommTech 팀은 두 개의 OCR 엔진인 구글 OCR과 Tesseract를 통합하여 위키문헌을 개선했습니다. 그러나 2021년에 출시된 발리어자바어 위키문헌을 포함하여 많은 언어와 문서가 고품질 온 위키 OCR에서 여전히 지원되지 않습니다.

  • Transkribus(웹사이트)는 위키문헌 필사본을 기반으로 OCR 모델을 만드는 데 사용할 수 있는 AI 기반 텍스트 및 필기 인식 도구입니다. 초기 연구에 따르면 모든 언어를 지원하도록 훈련할 수 있는 다른 텍스트 및 필기 인식 도구는 없습니다. Transkribus와의 기존 커뮤니티 요구(서벵골 위키미디어인들) 및 파트너 참여(영국 도서관)도 있습니다.
  • 컴퓨터 비전 및 응용 기계 학습에 대한 전문 지식을 갖춘 IIIT 하이데라바드의 팀이 지원이 부족한 동남아시아 언어로 Transkribus의 실행 가능성을 테스트합니다. 파일럿의 첫 번째 단계에서는 새로운 OCR 모델을 구축하기 위해 위키문헌에서 자원 봉사자가 이미 기록한 발리어 문서를 사용할 것입니다.

업데이트

PPIM

위키미디어 인도네시아

IIIT 하이데라바드

  • 라비 키란 박사

위키미디어 재단