추상 위키백과/데이터

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Abstract Wikipedia/Data and the translation is 100% complete.

메일링 리스트를 통한 추상 위키백과 IRC의 추상 위키백과 텔레그램의 위키함수 마스토돈의 위키함수 트위터의 위키함수 페이스북의 위키함수 유튜브의 위키함수 위키함수 웹사이트 Translate

중요한 모듈을 가져오고 서로 유사한 모듈을 찾습니다

도구
abstract-wiki-ds.toolforge.org
출처
GitHub: abstract-wikipedia-data-science
파브리케이터
T263678
데모 동영상 (3분, 유튜브)
아웃리치 데모가 포함된 추상 위키백과 데이터 과학
데모 오디오 (41분)

설명

위키 프로젝트 및 언어 전반에 걸친 스크리분토 모듈은 다양한 기능을 수행하는 데 사용됩니다. 추상 위키백과의 목표에 따라, 우리는 이제 모든 공동체의 작성 기능을 한곳에 모으고 중복성을 제거하여 가능하면 기능을 모듈화해야합니다. 이 도구는 사용자와 기여자에게 중요한 모듈로 시작하여 위키 함수를 분석하고 병합한 다음 유사한 모듈을 병합하거나 리팩토링 할 수 있는 장소를 제공합니다.

이 작업은 류드밀라 칼리나(Liudmila Kalina)와 아이샤 카툰(Aisha Khatun)이 인턴으로 활동하는 아웃 리치 인턴십 프로젝트로 시작되었습니다. 인턴십 기간 동안 그 분들(그리고 나머지 분들)이 격주 보고서에 게시한 블로그 게시물을 읽어보세요.

포함된 내용

  • "중요한" 모듈 목록. 중요성의 개념은 작업마다 약간 다를 수 있으므로 기능에 가중치를 부여하는 방법을 제공합니다. 가중치는 나중에 정규화되므로 사용자는 가중치 입력에 임의의 숫자를 입력할 수 있습니다. 숫자가 높을수록 특정 기능에 더 중요하다는 것을 나타냅니다.
  • 위키 프로젝트 현명한 필터(위키백과와 위키책 등과 같은 일부 또는 모든 프로젝트 선택)
  • 언어 필터.
  • 모듈을 클릭하면 유사한 모듈 목록이 표시됩니다. 사용자는 이러한 기능을 병합하거나 더 모듈화한 버전을 만드는 데 기여할 수 있습니다.

방법

서로 유사한 중요한 모듈과 모듈을 찾는 작업을 수행하기 위해 다음 하위 작업을 순서대로 완료했습니다. 이 모든 작업은 깃허브(GitHub) 저장소의 최종 제품으로 이어졌습니다.

  • 위키미디어 API(T270494)를 사용하여 모듈 이름공간에 있는 모든 모듈의 소스 코드를 수집합니다.
  • 복제본 데이터베이스(T270492)에서 이러한 모듈과 관련된 데이터를 수집합니다.
  • 수집된 데이터를 분석하여 우선 순위 모듈 식별(T272003):
    • 데이터 분석 요약 보고서: PDF.
    • 채점 메커니즘에 대한 요약 보고서: PDF.
    • 데이터 분석 수행: 노트북, PDF.
    • 중요성 측면에서 채점 모듈: 노트북, PDF.
  • 유사한 모듈을 분리하기 위한 클러스터링 모듈(T270827):
    • 검사된 클러스터링 방법 및 결과에 대한 요약 보고서: PDF.
    • 같은 제목의 모듈 내용 분석: 노트북, PDF.
    • 유사성 분석: 노트북, PDF.
    • 클러스터링 방법 조정: 노트북, PDF.
  • 또한 페이지 뷰 데이터를 수집하려는 시도가 있었습니다(T271400): 노트북, PDF.