Jump to content

연구:서벵골의 유산 구조물에 관한 위키데이터의 데이터 격차 이해

From Meta, a Wikimedia project coordination wiki
This page documents a completed research project.


이것은 위키데이터에서 서벵골의 유산 구조물과 관련된 데이터 격차를 파악하고 이를 해결하기 위한 잠재적 전략에 대한 짧은 연구입니다. 이 보고서는 Bodhisattwa (CIS-A2K)가 작성했으며, 푸티야 푸라일 스네하가 편집 기록보호 및 지원을 했고 수만드로 차타파디아이가 외부 검토를 했습니다. 이것은 CIS-A2K 팀이 2019-2020년에 수행한 일련의 단기 연구의 일부입니다.

위키데이터는 위키미디어 재단이 호스팅하는 구조화되고 연결된 데이터의 무료 오픈 저장소로, 전 세계의 인간 자원봉사자와 로봇이 협력하여 구축했습니다.[1][2] 이 플랫폼은 원래 위키미디어 프로젝트 내에서 고품질 2차 데이터베이스로 사용하려는 의도를 가지고 있었으며, 처음에는 다른 언어[3][4][5][6][7]로 된 동일한 주제에 대한 위키백과 문서를 중앙에서 링크하는 것으로 시작했지만, 곧 외부 데이터베이스와 링크하기 시작했습니다.

위키데이터 소개

위키데이터는 주어-술어-목적어의 삼중 형태로 진술을 설명하는 자원 설명 프레임워크 또는 RDF 모델로 구성되도록 설계되었습니다. 위키데이터에서 주어-술어-목적어는 항목-속성-값으로 지칭됩니다. 위키데이터의 항목은 정의된 저명성의 특정 임계값을 통과하는 인간 지식의 모든 가능한 개체, 개념 또는 주제를 나타낼 수 있으며 고유한 Q 번호로 표현됩니다. 항목의 실제 데이터는 값이라고 하며 문자열, 숫자, 날짜, URL 링크, 좌표, 악보 등 데이터 유형 또는 다른 항목에 의해 미리 정의됩니다. 고유한 P 번호로 표현되는 속성은 항목의 데이터 값을 설명합니다. 항목, 속성 및 값은 언어와 독립적이므로 완전히 기계가 읽을 수 있지만 인간의 편의와 이해를 위해 레이블, 설명 또는 별칭을 추가하거나 번역하여 항목을 고유 언어로 설명할 수 있습니다.

위키데이터의 기계 판독 가능한 트리플릿 구조 덕분에, 데이터베이스는 위키백과 문서와 같은 비정형 콘텐츠 목록에서는 불가능할 수 있는 답변을 찾기 위해 쉽게 쿼리할 수 있습니다. 트리플릿에서 RDF 데이터 형식을 검색하고 조작하려면 SPARQL이라는 RDF 데이터베이스용 의미 쿼리 언어가 필요합니다. 위키데이터 쿼리 서비스를 통해 SPARQL을 사용하여 데이터와 위키데이터의 우세한 격차를 검색하고 다양한 방식으로 시각화할 수 있습니다.

인도 서벵골의 위키데이터

2018년 10월부터 2019년 5월 사이에 서벵골 지역의 좌표를 대량으로 위키데이터에 가져왔으며 이는 Resemble.js를 사용하여 생성된 지도에 반영되어 있습니다.

인도 전역의 위키데이터 활동은 위키프로젝트 인도라는 이름으로 거의 4년 동안 인도 전역에서 조직되었습니다. 이 기간 동안 데이터 마라톤과 캠페인을 통해 다양한 주제에 대한 데이터 격차를 메우기 위한 타깃 접근 방식을 추진했으며, 워크숍과 기술 공유 이니셔티브를 통해 커뮤니티의 힘을 키우는 것을 목표로 했습니다.

그 이니셔티브의 일환으로, 인도의 서벵골 주는 최근 몇 년 동안 위키데이터를 중심으로 많은 활동을 했습니다. 위키프로젝트의 틀 아래에서, 위키데이터 자원봉사자들은 주, 인구 통계, 문화, 유산, 교육, 건강, 정치, 언어 등과 관련된 다양한 주제에 대한 데이터를 구축하기 위해 함께 일해 왔습니다. 유산은 서벵골의 위키미디어 커뮤니티 구성원들의 주요 초점이었기 때문에, 이 글에서는 SPARQL 쿼리를 통해 주제와 관련된 데이터 격차를 파악하고, 수년간 이 분야에서 일해 온 활동적인 자원봉사자들과의 인터뷰를 통해 그 이유를 탐구할 것입니다.

위키미디어 커뮤니티 회원들은 2011년 처음으로 위키백과 테이크 콜카타 사진 산책을 조직한 이래로 다양한 형태의 유산을 기록하는 작업을 해왔습니다. 그 이후로 그들은 8개의 위키백과 테이크 콜카타 사진 산책, 주의 9개 지구에서 11개의 위키 탐험 프로젝트, 2018년2019년에 권위 있는 인도의 위키 러브 모뉴먼트 에디션, 그리고 유기적으로 또는 단독으로 조직된 여러 다른 기록 프로젝트를 조직했으며, 이를 통해 위키미디어 공용에 유산 구조물과 GLAM 컬렉션과 관련된 수천 장의 사진을 업로드했습니다.

이 글에서는 서벵골의 유산 구조물을 기록하기 위해 수행된 사진 산책과 탐험에 초점을 맞출 것입니다. 우리는 유산 구조물에 대한 모든 데이터 세트에 있어야 하는 두 가지 기본 유형의 데이터, 즉 a) 위치와 b) 이미지에 초점을 맞출 것이고, SPARQL 쿼리를 사용하여 거기에 상당한 격차가 있는지 알아볼 것입니다.

서벵골의 사진 산책과 위키 탐험

위키데이터 쿼리에서 생성된 KMC 유산 건물 지도 https://w.wiki/Tir

위키백과가 콜카타의 유산 건물과 구조물을 사진으로 기록하는 것을 목표로 하는 9개의 연속된 콜카타 사진 산책 시리즈부터 시작해 보겠습니다. 유산 건물과 관련된 데이터 격차를 이해하기 위해, 다양한 SPARQL 쿼리를 통해 위키데이터에 등록된 콜카타 시의회(KMC)[8] 의 등급이 매겨진 유산 건물과 구조물의 존재 여부를 살펴보겠습니다. 위키데이터에는 현재 KMC가 등록한 유산 건물과 구조물 923개가 있지만, 그 중 26.65%는 이미지가 있고 18.53% 18.53%만 좌표가 있습니다.

문화 유산 구조물 항목의 81.47%가 좌표가 누락되었지만 위치에 대한 좋은 아이디어를 제공했으며, 모든 항목에는 연결된 시정촌 구역과 거리가 있어 사진작가와 여행객이 사이트를 쉽게 탐험할 수 있을 것으로 기대됩니다. 그러나 구역 항목을 테스트하는 동안 144개 구역 모두에 좌표가 포함되어 있지만 위치 영역을 나타낼 수 있는 중요한 속성, 즉 지오쉐이프 데이터가 모두 부족하다는 것을 알게 되었습니다. 좌표는 지역의 특정 부분의 정확한 위치를 나타낼 수 있지만 위치를 더 잘 설명하기 위해 지오쉐이프가 필요한 더 넓은 지역의 경우 오해의 소지가 있습니다. 거리 데이터를 테스트하는 동안 거리에 대한 지오쉐이프와 좌표 데이터가 모두 부족하여 찾기가 매우 어렵다는 것을 알게 되었습니다.

위키데이터 쿼리에서 생성된 서벵골의 사원 지도 https://w.wiki/Tj7

지난 3년 동안 서벵골의 위키미디어 자원봉사자들은 또한 주의 외딴 지역에 대한 위키 탐사 프로젝트에 참여하여 사원, 모스크, 조각상 등을 기록했는데, 이 중 많은 것들이 이전에 온라인에 기록되지 않았습니다. 주의 9개 지구에 있는 수백 개의 문화 유산 구조물이 기록되었고 이 프로젝트에 따라 수천 장의 사진이 위키미디어 공용에 업로드되었습니다. 이제 서벵골에 있는 사원의 위키데이터 존재 여부를 테스트하면 435개 사원에 항목이 있고 그 중 196개 항목에만 이미지가 있고 79개에만 좌표가 있지만 그 중 302개는 마을, 구, 도시 또는 도시 수준으로 위치가 지정되어 있음을 알 수 있습니다. 이전 사례와 유사하게 서벵골에 있는 마을에 대한 항목이 40,359개 있지만 좌표가 있는 것은 0.017%에 불과하고 지오쉐이프 데이터가 있는 것은 없습니다.

위의 두 시나리오에서 SPARQL 쿼리를 통해 상당한 양의 데이터 갭이 있다는 결론을 쉽게 내릴 수 있습니다. 두 데이터 세트 모두 위치 데이터와 이미지가 상당히 부족합니다. 두 번째 시나리오는 사원 자체에 대한 데이터조차 부족합니다.

서벵골에서 위키데이터에 기여하는 과제

이제 데이터에 큰 격차가 있는 이유를 이해하기 위해, 우리는 이 두 종류의 프로젝트에 참여하는 서벵골 출신의 자원봉사자 4명을 인터뷰했습니다. 그중 3명은 5~10년 동안 위키미디어에 기여했고, 1명은 이 운동에 비교적 새로운 사람입니다. 그들은 모두 위키미디어 공용에 유산 사진을 업로드하고, 2명은 위키데이터에 기여합니다. 그들 모두는 적절한 하드웨어가 부족하여 유산 구조물을 사진으로 기록하는 동안 정확한 좌표 데이터를 기록할 수 없다는 데 동의했습니다. GPS 장치나 GPS가 내장된 풀 프레임 카메라는 비싸고 많은 사람이 감당할 수 없습니다. 인터뷰 대상자들은 또한 유산 구조물을 올바르게 기록하는 방법에 대한 적절한 교육이 부족하여 사진작가와 아마추어 연구자가 기록의 중요한 요점을 놓치고 데이터 격차가 커진다고 지적했습니다. 가족이 관리하는 사원이나 개인 유산 건물과 같은 개인 유산 구조물과 그 문서에 대한 접근이 제한적이고, 아날로그 및 디지털 메타데이터와 함께 적절한 기존 문서가 부족하고, 유지 관리가 부족하거나 복원 절차가 부적절하여 건축 유산이 빠르게 파괴되는 것도 데이터 격차의 원인입니다. 사진이 데이터로 완전히 변환되지 않는 이유에 대한 질문에 답하면서, 그들은 사진작가가 위키데이터에서 데이터 입력에 대해 배우는 것이 부담스러울 수 있다고 지적합니다. 이는 사진작가의 관심 분야와 워크플로우에서 벗어나기 때문입니다. 인터뷰 대상자가 지적했듯이, '위키데이터에서 하는 일의 특성은 사진작가의 워크플로우와 맞지 않습니다.' 그러나 그들은 또한 사진작가와 문서화에 참여하는 관심 있는 사람들을 대상으로 위키데이터에 대한 교육 프로그램을 실시하여 유산 문서화 분야에서 구조화된 데이터의 중요성을 알려야 한다고 강조했습니다.

권장사항

이 짧은 연구의 관찰에 따르면, 서벵골에서 문화 유산 문서화 작업을 하는 자원봉사자는 좌표를 문서화하는 데 적합한 하드웨어로 지원해야 한다는 것이 권장됩니다. 전문가가 자원봉사자에게 문화 유산 구조물을 전문적인 방식으로 문서화하는 방법에 대한 빈번한 교육 프로그램을 실시하여 데이터 격차를 최소화해야 합니다. 사진작가에게는 문화 유산 문서화 분야에서 구조화된 데이터의 중요성을 이해하도록 위키데이터에 대한 교육을 실시해야 합니다. 또한 위키데이터와 위키미디어 공용 자원봉사자 간의 상호 작용을 늘려 서로의 작업 흐름을 이해하고 최적의 결과를 제공하기 위해 전략적으로 수정하는 것이 좋습니다.

각주

  1. Vrandečić, Denny (2012). "위키데이터: 협업적 데이터 수집을 위한 새로운 플랫폼". 21번째 국제 컨퍼런스의 진행사항 World Wide Web - WWW '12 Companion: 1063. doi:10.1145/2187980.2188242. 
  2. Vrandečić, Denny; Krötzsch, Markus (23 September 2014). "위키데이터: 무료 협업 지식 기반". ACM의 커뮤니케이션 57 (10): 78–85. doi:10.1145/2629489. 
  3. Roth, Matthew (30 March 2012). "위키백과 데이터 혁명". Diff. 
  4. Pintscher, Lydia (14 January 2013). "헝가리어 위키백과에서 위키데이터의 첫 번째 단계". 위키미디어 독일 블로그. 
  5. Pintscher, Lydia (30 January 2013). "다음 두 개의 위키백과에 위키데이터가 등장합니다.". 위키미디어 독일 블로그. 
  6. Pintscher, Lydia (13 February 2013). "영어 위키백과에 위키데이터가 라이브로 제공됩니다.". 위키미디어 독일 블로그. 
  7. Pintscher, Lydia (6 March 2013). "위키데이터가 이제 모든 위키백과에 적용됩니다.". 위키미디어 독일 블로그. 
  8. "문화유산 건물 등급 목록 등급 I IIA IIB" (PDF). 콜카타 시의회. 콜카타 시의회. 2009. 

참고사항

  • 쿼리 결과는 2020년 초에 생성되었습니다. 이 문서가 출판될 당시에는 결과가 다를 수 있습니다.
Annexure: Interview questionnaire
  1. 서벵골의 유산 구조물 사진 문서화 작업에 대해 조금 설명해 주시겠습니까? (구조물 유형, 연대 등에 대한 간략한 설명)
  2. 모든 업로드와 데이터 작업에서 어떤 종류의 데이터가 부족하다고 생각하십니까?
  3. 데이터 추출을 통해 상당수의 유산 구조물에 대한 정확한 위치, 좌표 등이 누락되어 있다는 것을 알게 되었습니다. 누락된 이유와 이를 줄이기 위해 할 수 있는 일은 무엇인지 어떻게 이해하십니까?
  4. 유산 구조물 작업에서 다른 데이터 갭을 발견하셨습니까?
  5. 누락된 데이터와 관련된 다른 가능한 요인은 무엇일까요(사이트 접근성, 기술, 언어, 보관 콘텐츠, 기술 등)
  6. 또한 지난 3년 동안 11개의 탐사 프로젝트가 진행되었고 수천 장의 사진이 위키미디어 공용에 업로드되었지만 위키데이터에 서벵골 사원에 대한 데이터가 부족하다는 것을 알게 되었습니다. 이미지에서 데이터로의 전환율이 낮은 이유는 무엇이라고 생각하십니까? 그리고 이를 어떻게 높일 수 있습니까?
  7. 이러한 문제 중 일부를 해결하기 위해 노력했나요? 다른 위키프로젝트에서 그러한 노력을 보셨나요?