Learning Pattern Freigeben von Archiven/Datenübertragungen nach Commons für Institutionen

This page is a translated version of the page Learning patterns/Data transfers to Wikimedia Commons: Sharing institutional archives and the translation is 91% complete.

Outdated translations are marked like this.

Das ist ein Learning Pattern fürKultur- und Gedächtnisinstitutionen

Learning-Pattern-Bibliothek

Datenübertragungen nach Commons für Institutionen

ProblemDie Standard-Upload-Funktion des Freien Medienarchivs Wikimedia Commons ist in erster Linie für das Hochladen kleinerer Datenmengen konzipiert worden.

LösungDie Übertragung größerer Datenbestände oder ganzer Archive erfordert in der Regel etwas Vorarbeit, abhängig von der vorhandenen Form der Daten und zugehöriger Metadaten. Da verschiedene Datenbestände die unterschiedlichsten Voraussetzungen mit sich bringen, ist eine allgemeingültige Schritt-für-Schritt-Anleitung zum Bereitstellen der Daten leider kaum möglich. Dieses Learning Pattern versucht dennoch einige wiederkehrende Fragen und Probleme für die gängigsten Tools darzustellen, die allgemein erforderlichen Vorbereitungen und Wege zu erklären und zeigt wo die wichtigsten Hilfe-Seiten zum Thema zu finden sind.

erstellt von• Nicolas Rück (WMDE)• Jakob Warkotsch (WMDE)

diskutiere das

für gut finden

erstellt am2. Dezember 2015

Welche Problemstellung soll gelöst werden?

Warum sollten Institutionen ihr Archiv frei geben?

Eine Befreiung kostbarer Datenbestände aus den Archiven ermöglicht und vereinfacht deren Weiternutzung, Kontextualisierung und Aufbereitung durch Dritte. Die Daten können beispielsweise in Wikipedia integriert oder barrierefrei in einen wissenschaftlichen Kontext gesetzt werden, es lassen sich kreative und innovative Anwendungen daraus entwickeln. Bisher nicht bekannte Hintergrunddetails können von Freiwilligen identifiziert und aufbereitet werden.

Mittlerweile haben zahlreiche Einrichtungen den Nutzen freier Daten erkannt. Bereits 2008 gab das Bundesarchiv über 80.000 Fotos aus seinem Bestand frei, die seit dem unter anderem der Illustration zahlreicher Wikipedia-Artikel dienen. Das Veikkos-Archiv stellte seine einmalige Sammlung von über 40.000 gemeinfreien Siegelmarken auf Commons ein, die umgehend von der Community in ehrenamtlicher Arbeit sortiert, kategorisiert und zugeordnet wurden.

Weitere Beispiele sind die im Rahmen der Kultur-Hackathons Coding da Vinci freigegebenen Datenbestände wie eine historische Stoffmustersammlung der Hochschule für Technik und Wirtschaft Berlin, Schriften des 18. Jahrhunderts aus dem Archiv des Bezirksamts Charlottenburg-Wilmersdorf, Bilder der Geologischen Sammlung des Stadtmuseums Berlin oder Audio- und Videodateien des Ethnologischen Museums, um nur einige wenige zu nennen.

Die Standard-Upload-Funktion des Freien Medienarchivs Wikimedia Commons ist in erster Linie für das Hochladen kleinerer Datenmengen konzipiert worden.

Was ist die Lösung?

Die Übertragung größerer Datenbestände oder ganzer Archive erfordert in der Regel etwas Vorarbeit, abhängig von der vorhandenen Form der Daten und zugehöriger Metadaten. Da verschiedene Datenbestände die unterschiedlichsten Voraussetzungen mit sich bringen, ist eine allgemeingültige Schritt-für-Schritt-Anleitung zum Bereitstellen der Daten leider kaum möglich. Dieses Learning Pattern versucht dennoch einige wiederkehrende Fragen und Probleme für die gängigsten Tools darzustellen, die allgemein erforderlichen Vorbereitungen und Wege zu erklären und zeigt wo die wichtigsten Hilfe-Seiten zum Thema zu finden sind.

In welcher Form kann ich Mediendateien bei Commons hochladen?

Dateitypen

Bei Commons werden die hier aufgeführten Dateiformate akzeptiert.

Auflösung/Komprimierung/Dateigröße

Um alle Möglichkeiten, die sich durch eine Weiternutzung ergeben können, voll ausschöpfen zu können, sollten die Dateien so groß wie möglich bzw. möglichst verlustfrei (= unkomprimiert) hochgeladen werden. Verkleinern und Komprimieren von Bildern macht viel Arbeit, bringt viele Nachteile und wenig Vorteile.

Allerdings sind die Uploads in den Standardeinstellungen aus technischen Gründen begrenzt. Weitere Informationen zur Dateigröße sind hier zu finden.

Dateinamen

Ein Dateiename sollte sich möglichst aus einem erklärenden Titel und einer Inventar- oder Objektnummer zusammensetzen. Bei künstlerischen Werken beispielsweise aus dem Namen des Künstlers, dem Namen des Kunstwerks und der Objektnummer oder bei Buchscans in folgender Reihenfolge aus dem Namen des Autors, dem Titel und der fortlaufenden Seitenzahl. Allgemeine Informationen zur Dateibenennung sind hier zu finden.

Was benötige ich?

Um Mediendateien auf das freie Medienarchiv Commons zu übertragen, wird eine Internetverbindung, ein kostenloser Benutzer-Account und ein frei herunterladbares Tool zur Übertragung der Daten (siehe unten) benötigt. Außerdem musst der Uploader Rechteinhaber der Dateien sein, um diese unter eine freie Lizenz zu stellen, sofern es sich nicht um bereits gemeinfreie Werke handelt.

Siehe dazu auch:

Wie lege ich einen Benutzeraccount an?

Ein Benutzeraccount für Wikimedia Commons kann hier (oder auch hier für Uploads für Commons Beta). Der Account ist auch für andere Wikimedia-Projekte wie Wikipedia und vielen anderen gültig. Es ist ratsam für jede einzelne Person, die plant Dateien und Daten zu bearbeiten, einen eigenen Account zu erstellen. Auch ist es ratsam die Benutzernamen folgendermaßen zu wählen: „Namen der Person (Name der Institution)“. Weitere Details zu Erstellung von Benutzeraccounts siehe hier.

Eine Wikimedia-Projekt haben kein Problem, wenn mehrere Menschen gemeinsam einen Account nutzen, andere wiederum nicht. Insbesondere die englischsprachige Wikipedia ist sehr strikt bei ihrer Regelung das ein Account nur von einer Person benutzt werden kann. Wenn du also gedenkst Bearbeitungen in der englischsprachigen Wikipedia vorzunehmen, bedenke bitte dies und lege für jede Person einen Account an.

Anschließend empfiehlt es sich aus Transparenz- und Sicherheitsgründen den Account verifizieren zu lassen. Alle Informationen zur Benutzerverifizierung erfährst du hier.

Auf deiner Benutzerseite kannst du außerdem deine Einrichtung und oder die von dir bereit gestellten Mediendateien kurz vorstellen (siehe auch unten „Wie stelle ich meine Projekte vor?“). Alle Informationen zu Benutzerseiten sind hier aufgeführt.

Welches Tool nutze ich für den Upload?

Für den Upload einzelner oder weniger Dateien ist der einfach zu nutzende Hochladeassistent ausreichend. Um einzelne bereits an einer anderen Stelle im www online verfügbare Dateien auf Commons zu kopieren, hat sich URL2Commons als ein sehr einfaches Tool bewährt.

Für den Upload größerer Datenmengen empfiehlt sich der VicuñaUploader oder Pattypan.

VicuñaUploader (für den ordnerweisen Upload offline vorliegender Daten)

Eine Kurzbeschreibung des VicuñaUploaders ist hier zu finden. Du kannst dir das Programm kostenlos herunterladen. Eine Anleitung auf englisch steht hier bereit.

Anleitung zum Upload über Vicuña

Wähle die hochzuladenden Dateien über Datei → Dateien lesen

Um alle Dateien für den Upload zu markieren wähle Bearbeiten → Alle auswählen
Gehe auf Bearbeiten → Beschreibung ausgewählter Dateien bearbeiten
Unter Beschreibung kannst du nun deinen Beschreibungstext in folgender Form einfügen:

{{de|Beschreibungstext in deutscher Sprache}}
optional wäre die Beschreibung auf weiteren Sprachen wünschenswert, z.B. {{en|Beschreibungstext in englischer Sprache}}
{{fr|Beschreibungstext in französischer Sprache}} usw.

Unter dem Menüpunkt Datum kannst du das Datum der Datei unter Verwendung der Date-Vorlage einfügen
Über Kategorien kannst du die hochzuladenden Dateien einer Kategorie zuordnen. (Informationen zur Nutzung von Kategorien, siehe unten)
Über Werkzeuge → Einstellungen können Details zur Urheberschaft, Quelle und Lizenz angegeben werden. In dem Freitextfeld unter Lizenz kannst du in doppelt geschweiften Klammern deine Projekt- bzw. Kooperationsvorlage eingeben (für weitere Informationen zu Projekt- bzw. Kooperationsvorlagen, siehe unten).

GWToolset (für die Übertragung bereits online verfügbarer Daten auf Commons)

Siehe auch: GLAMwiki Toolset

Voraussetzungen und Vorbereitungen

Für einen Upload über das GWToolset sind Grundkenntnisse in der Programmierung erforderlich.

Die Übertragung sollte zunächst auf Commons Beta getestet werden und erst nach dem erfolgreichen Upload auf Commons wiederholt werden.

Um bereits online verfügbare Daten auf Commons zu übertragen, musst du zunächst für deinen Commons-Benutzeraccount eine entsprechende Berechtigung anfordern. Sobald du eine Berechtigung erhalten hast, kannst du das GWToolset aufrufen.

Anschließend muss der Server auf dem sich die zu transferierenden Daten befinden, auf eine Whitelist gesetzt werden. Dies ist unter diesem Link auf Phabricator zu beantragen. Eine Anmeldung auf Phabricator erfolgt mit den Daten des Commons- bzw. Wikipedia-Accounts und einem Klick auf den unteren Button „Login or Register MediaWiki“. Bis zur Freischaltung ist mit einer Wartezeit von etwa einer Woche zu rechnen. Wegen eventueller dort erscheinender Nachfragen solltest du den Antrag beobachten. Einige Server sind bereits auf dieser Whitelist eingetragen. So beispielsweise das Fotoportal Flickr.

Sollten sich deine Dateien also auf Flickr befinden, können diese direkt von dort übernommen werden, beispielsweise mit dem einfachen und selbsterklärenden Tool flickr2commons oder mit dem UploadWizard (solltest du das Benutzerrecht „upload by url“ besitzen). Bitte beachte, dass dabei weitere bei Flickr angegebene Informationen zu den einzelnen Dateien wie z.B. Bildbeschreibungen u.ä. übernommen werden.

Erstellung einer XML-Datei für den GWToolset-Upload

Für den Upload mithilfe des GWToolsets muss zunächst eine Datei mit Metadaten aller Bilder im XML-Format erstellt werden. Die Erzeugung einer solchen Datei und Lösungsansätze häufig auftretender Probleme werden im Folgenden anhand eines Beispiels erläutert. Für die Umwandlung und Aufbereitung der Daten sind Grundkenntnisse der Programmierung notwendig. Der Ablauf der Erstellung der XML-Datei kann grob in fünf Schritte unterteilt werden:

Umwandlung der gegebenen Datei in CSV
Einlesen und Strukturieren der erstellten CSV-Datei
Aufbereitung von Feldern
Erstellung von Kategoriefeldern
Erstellung der XML-Datei

Umwandlung der gegebenen Datei in CSV

Die Metadaten-Datei muss für jedes Bild mindestens den Dateinamen, den Titel und die URL des Bildes enthalten. Solche Dateien sind bei Kulturinstitutionen häufig in Form eines Spreadsheet-Formats vorhanden und müssen zunächst in das CSV-Format umgewandelt werden, um das Einlesen durch ein selbst geschriebenes Programm, wie es für den Upload erforderlich ist, zu erleichtern. Hierfür kann in der Regel die Metadaten-Datei in einem beliebigen Tabellenkalkulationsprogramm geöffnet und mithilfe der Exportfunktion in CSV umgewandelt werden.

Einlesen und Strukturieren der erstellten CSV-Datei

Für die nächsten Schritte bietet sich die Verwendung einer Skriptsprache wie z.B. Ruby, PHP, Perl oder Python an. Für Beispielcode wird im Folgenden Ruby verwendet. Ein funktionierendes Beispielprogramm, das auf den gezeigten Auszügen aufbaut, kann hier eingesehen werden.

Die Datei sollte zunächst zeilenweise eingelesen und die Felder in eine geeignete Datenstruktur (Map, Dictionary o.ä.) übertragen werden.

Nehmen wir an, unsere CSV-Datei hat 5 Spalten: „Titel“, „URL“, „Beschreibung“, „Kategorien“ und „Erstellungsjahr“. Diese können nun wie im folgenden Codebeispiel eingelesen werden.

metadata = []

CSV.read(file, col_sep: ';').each do |row|
 metadata << {
   title: row[0],
   url: row[1],
   description: row[2],
   categories: row[3],
   year: row[4]
 }
end

Aufbereitung von Feldern

Es kommt häufig vor, dass einige der Felder aus den gegebenen Metadaten wegen unterschiedlicher Sortierungsmuster, Namenskonventionen o.ä. nicht eins zu eins auf Commons übertragen werden sollten. Wenn diese automatisch angepasst werden können, bietet es sich an eine Klasse zu schreiben, die die rohen Metadaten aufbereitet.

Einlesen der Daten:

class ImageMeta
 attr_reader :title, :url, :description

// creating instance variables from the “fields” hash
 def initialize(fields)
   fields.each { |field, value| instance_variable_set "@#{field}", value.strip unless value.nil? }
 end
end

Innerhalb dieser Klasse können für anzupassende Felder entsprechende Methoden implementiert werden. Das Erstellungsjahr aus dem Beispiel kann wie folgt um eine MediaWiki-Datumsvorlage ergänzt werden:

def year
 "{{Date|#{@year}}}"
end

Das Anpassen weiterer Felder funktioniert analog. Es können nun Objekte der erstellten Klasse aus den im zweiten Schritt eingelesenen Metadaten erstellt werden.

metadata.map! { |fields| ImageMeta.new(fields) }

Erstellung von Kategoriefeldern

Um die über das GWToolset hochgeladenen Bilder zu kategorisieren, muss jede Kategorie in einem eigenen XML-Element der Metadaten-Datei liegen. Um die Kategorie-Rohdaten auf eine Liste von Kategorien zu überführen, sollten diese zunächst aus der CSV-Datei extrahiert und anschließend auf die gewünschten Kategorien abgebildet werden.

Angenommen, die Kategorien befinden sich durch Komma getrennt in einer Spalte der CSV-Datei. In der ImageMeta-Klasse können die Kategorien somit folgendermaßen extrahiert werden:

def raw_categories
 @categories.split(',').map(&:strip)
end

Um beim Überführen der Kategorien flexibel zu bleiben, kann auch hierfür eine Klasse erstellt werden:

class CategoryMapping
 MAPPING = {
   'Radierung' => 'Etchings',
   'Lithografie' => 'Lithographs',
   'Aquatinta' => 'Aquatint',
   'Mappe' => 'Portfolios'
 }

def initialize(raw_categories)
   @raw_categories = raw_categories
 end

def mapped_categories
   return [] if @raw_categories.nil?

categories = []
   @raw_categories.each do |category|
     categories << MAPPING[category] if MAPPING[category]
   end

categories.uniq
 end
end

Erstellung der XML-Datei

Da nun alle Daten vorhanden sind, kann die XML-Datei erstellt werden. Die Benennung der XML-Elemente spielt für das GWToolset keine Rolle, es setzt jedoch eine bestimmte Struktur voraus. Im Wurzel-Element befinden sich XML-Elemente für jedes der Bilder, die wiederum die Metadaten enthalten. Innerhalb der Bild-Elemente darf es allerdings keine weitere Verschachtelung geben.

Die entsprechende XML-Struktur kann für unser Beispiel wie folgt aufgebaut werden:

builder = Nokogiri::XML::Builder.new(encoding: 'UTF-8') do
 images do
   metadata.each do |image|
     image do
       title image.title
       description image.description
       year image.year
       imageUrl image.url

mapping = CategoryMapping.new(image.raw_categories)
       mapping.mapped_categories.each_with_index do |category, i|
         send "category#{i}", category
       end
     end
   end
 end
end

builder.to_xml

Die Ausgabe von builder.to_xml kann anschließend in eine Datei geschrieben werden und die XML-Datei für den GWToolset-Upload ist fertig.

Den Übertragungsprozess starten

Details zu den folgenden Schritten und Eingabefeldern erklärt dir ein Screencast.

Rufe das GWToolset auf. Zu finden ist es auch über https://commons.wikimedia.org/ → Spezialseiten → GWToolset
Trage die erforderlichen Eingaben für die Metadaten-Erkennung ein und gehe weiter auf → Übertragen.
Trage die erforderlichen Eingaben für das Metadaten-Mapping ein und gehe weiter auf → Stapel-Vorschau. Wichtig!: zur Nutzung von Kategorien, siehe bitte zunächst unten “Wie ordne und kategorisiere ich die Daten auf Commons?”
Überprüfe die Vorschau. Sofern sie dem entspricht wie die Dateien anschließend auf Commons hinterlegt werden sollen, kannst du auf Stapel verarbeiten klicken, um die Übertragung zu starten.

Sobald der Übertragungsauftrag mit dem GWToolset abgeschickt wurde, können das Browserfenster geschlossen oder der Computer ausgeschaltet werden. Die Übertragung läuft serverseitig im Hintergrund weiter. Die Dateien sollten dann nach und nach in der Liste der neuen Dateien auftauchen, sowie in der Kategorie/den Kategorien, die du beim Upload angegeben hast.

Wie stelle ich meine Projekte vor?

Um deine hochzuladende Sammlung vorzustellen und ggf. mit der ehrenamtlichen Community hinter den Wikimedia-Projekten in Kontakt zu treten, kannst eine Projektseite angelegt werden. Auf dieser Seite kannst du deine auf Commons bereit gestellten oder bereit zu stellenden Datenbestände und ggf. das Projekt oder die Kooperation präsentieren, in dessen Rahmen die Daten frei gegeben wurden. Bitte beachte dabei die Richtlinien was Commons nicht ist.

Seiten werden wie Galerien angelegt und können dann frei gestaltet werden. Eine Beschreibung dazu befindet sich hier.

Beispiele bestehender Projektseiten:

Wie ordne und kategorisiere ich die Daten auf Commons?

Die Kategoriestruktur ist die bevorzugte Methode, Dateien auf Commons zu organisieren und zu finden. Jede Datei sollte in dieser Struktur gefunden werden können. Um das zu ermöglichen, muss jede Datei direkt einer Kategorie zugeordnet werden oder in einer Galerieseite erscheinen, die ihrerseits kategorisiert ist. Jede Kategorie muss selbst kategorisiert sein, so dass sich eine hierarchische Struktur (ähnlich wie ein Stammbaum) ergibt.

Wie dies im Einzelnen geschieht, ist hier dargestellt.

Es ist sinnvoll die einzelnen Dateien neben darauf abgebildeten Gegenstand außerdem nach deiner Institution zu kategorisieren, so wie auch viele andere Kooperationspartner dies getan haben, siehe z.B.:

Dies kann auch über eine Vorlage geschehen die in die einzelnen Dateien eingebunden wird und neben der Kategorisierung weitere Angaben zur Institution erhält (siehe unten „Datenset-bzw. Projektvorlagen“).

Datenset-/bzw. Projektvorlagen verwenden

Wozu dient eine Datenset-Vorlage?

Eine Datenset-Vorlage (kein offizieller Begriff) kann in die Beschreibungsseiten der einzelnen Dateien eingebunden werden. Sie beinhaltet eine kurze Erläuterung zu deiner Intstitution und dem Datenset dem die jeweilige Datei angehört. Außerdem kann eine Projektvorlage die Datei kategorisieren, sodass darüber alle weiteren Dateien des Datensets oder deiner Institution zu finden sind.

Nähere Erläuterungen zu Templates und Mediawikis sind hier zu finden.

Wie erstelle ich eine Vorlage für mein Projekt bzw. meine Commons-Partnerschaft?

Beispielvorlagen für Commons-Kooperationspartnerschaften findest du auf dieser Seite. Solltest du Hilfe bei der Erstellung von Templates benötigen, kannst du dich an das WikiProject Templates wenden und dort eine neue Anfrage stellen.

Die Informationen, die in der eigentlichen Vorlage enthalten sind, werden aus weiteren Vorlagen importiert, die im einzelnen angelegt werden müssen. Diese sind:

Template:DEINE INSTITUTION-source

→ Hauptvorlage in der die Informationen der Untervorlagen abgebildet werden. Außerdem wird hier eine Kategorie definiert, der sämtliche Dateien die diese Vorlage nutzen zugeordnet werden.

Template:DEINE INSTITUTION-source/layout

→ definiert das Layout. Hier kann z.B. ein Logo o.ä. eingefügt und die Textplazierung angeordnet werden.

Template:DEINE INSTITUTION-source/lang

→ stellt den Beschreibungstext in den vorhandenen Sprachversionen zur Verfügung

Template:DEINE INSTITUTION-source/de

→ beinhaltet den Beschreibungstext auf deutsch

Template:DEINE INSTITUTION-source/en

→ beinhaltet den Beschreibungstext auf englisch

gerne können Templates für weitere Sprachen angelegt und im „Template:.../lang“ verlinkt werden.

Beispiel für die einzelnen Bestandteile der Vorlage für die Partnerschaft mit der HTW Berlin

dort ist per Klick auf Bearbeiten jeweils der Quellcode der einzelnen Vorlagen einseh- und kopierbar.

Wie binde ich die Vorlage in eine Datei ein?

Vorlagen werden mit folgendem Code in die Dateibeschreibungsseite, üblicherweise unter dem Absatz zur Lizenz, eingebunden:

{{VORLAGENNAME}}

An welcher Stelle dieser Code bei der Nutzung eines Upload-Tools eingefügt wird, ist je nach Tool unterschiedlich und muss der entsprechenden Beschreibung (siehe oben) entnommen werden.

Weitere Vorlagen

Neben der Projekt-Vorlage, die auf eine Kooperation mit Commons verweist, kannst du eine Vorlage für deine Institution erstellen, die in den einzelnen Dateibeschreibungen eingebunden wird und dort weitere Details wie Ort, Gründungsdatum und Webseite der Einrichtung darstellen kann.

Wo finde ich Unterstützung?

Über Programme und Projekte wie „Medienschatz“ oder „GLAM“ (Galleries, Libraries, Archives & Museums) unterstützt Wikimedia Deutschland Freiwillige und Institutionen bei der Freigabe und Übertragung von Datenbeständen und hilft dabei Aktive zusammenzubringen.

Solltest du Fragen dazu haben, kannst du uns kontaktieren unter

community@wikimedia.de (für ehrenamtlich Aktive)
glam@wikimedia.de (für Institutionen)

Bei Fragen zum GWToolset findest du Hilfe auf der entsprechenden Mailingliste.

Siehe auch

Other manuals

c:Commons:Guide to batch uploading, the traditional guide on the matter.

Thematisch ähnliche Patterns

Links

References