Community Wishlist/Wishes/Physical Wikimedia Commons media dumps (for backups, AI models, more metadata)/ko
설명
비슷한 내용이 위키미디어 공용의 최근 가장 시급하거나 유용한 기술 문제 및 희망에 대한 설문 조사에서 제안된 바 있습니다. 기술적 요구 설문 조사/미디어 덤프. 인용하자면:
미디어를 포함하는 위키미디어 공용 덤프는 없습니다. 2021년부터 파브리케이터 티켓이 공개되었지만(T298394) 큰 진전은 보이지 않습니다.
이 문제에 대한 해결책으로 사람들이 대용량 하드 드라이브를 가지고 WMF에 와서(또는 번들로 주문하지 않는 경우 보내는 것이 더 나을 듯) 다음과 같은 특정 하위 섹션을 복사하는 것이 가장 좋을 것 같습니다:
- 위키미디어 프로젝트에서 사용 중인 모든 파일 또는
- 1GB 이상의 비디오 파일과 대용량 .tiff 파일 폴더를 제외한 모든 파일 또는
- 1GB 이상 파일 및 분류가 없거나 복사 위반 가능성이 있는 것으로 분류되지 않은 모든 파일
- c:Category:People by activity과 c:Category:Audio files of music의 모든 파일.
현재 WMC의 방대한 양의 무료 미디어 백업은 기본 사본과 동일한 데이터 센터에만 저장되는 것으로 보이므로 더 많은 별도 또는 오프라인 백업이 필요할 것입니다. 이를 위한 좋은 방법은 물리적 데이터 덤프를 가져오는 서비스를 통해 제3자가 항목을 복사할 수 있도록 하는 것입니다. 모든 WMC 데이터는 매우 작아서 30TB 디스크 몇 개에 들어갈 수 있지만 다운로드하기에는 너무 큽니다.
또한 이를 통해 약간의 수익을 창출할 수도 있습니다. 위키미디어 엔터프라이즈의 일부로서 말이죠. 하지만 이를 활용하는 사람이나 조직의 수가 너무 적어서 큰 수익을 낼 수 없을 것으로 생각합니다.
또한, 많은 애플리케이션을 활성화할 수 있습니다. 예를 들어, 데이터 세트는 AI 훈련에 더 잘 사용될 수 있으며, 이는 미디어와 메타데이터(특히 범주)를 구성하는 데 들어간 모든 노력을 훨씬 더 유용하게 만들 수 있습니다. 이 측면은 아마도 과소평가되고 있으며 AI 모델을 훈련하거나 개선하는 데 매우 유용할 수 있으며, 이 중 일부는 머신 이미지 분류를 통한 범주화 제안을 만드는 것과 같이 WMC를 개선하는 데 사용될 수도 있습니다.
또한 WMC의 모든 파일이나 많은 파일을 분석하고 데이터를 추가하는 비 AI 봇에도 유용할 수 있습니다. 예를 들어 OCR을 통해 모든 파일의 이미지에서 텍스트를 읽고 이 정보를 WMC나 WMC에서 이 정보를 가져올 수 있는 보완 사이트에 추가하는 것과 같습니다. 또는 단순히 SchlurcherBot이 하는 일도 유용합니다.
또한 사람들이 사이트를 스크래핑할 필요가 없고 전체 또는 일부만 덤프로 가져올 수 있으므로 서버 부하도 줄일 수 있습니다. 이상적으로는 두 개의 다른 시간 덤프가 있거나 덤프가 있는 드라이브가 소스 위키미디어 서버에 연결되어 있을 때 편집이나 새 파일로 인한 변경 사항을 작성하여 주어진 덤프를 병합하거나 업그레이드하는 소프트웨어가 있어야 하며, 본질적으로 분산적으로 저장된 증분 백업입니다. 이 제안은 파일을 다운로드하는 것이 아니라 복사하는 것에 관한 것입니다.
또한 최근 IM-1 Lunar LibraryIM-1 달 도서관의 일부로 위키백과에 적용한 것처럼, 달에 백업으로 둔 덤프를 쉽게 포함하는 것도 가능할 것입니다. - 자세한 정보와 관련 코드 문제는 새로운 페이지 공용:공용:덤프 및 백업에서 확인할 수 있습니다.
할당된 초점 영역
할당되지 않음.
소원 유형
Feature request
관련 프로젝트
위키미디어 공용, 위키백과
영향을 받는 사용자
위키미디어 공용 사용자
파브리케이터 작업
기타 상세 내용
- 생성됨: 16:27, 4 August 2024 (UTC)
- 최근 갱신: 16:50, 17 September 2024 (UTC)
- 저자: Prototyperspective (talk)