Help:Data import/de

From Meta, a Wikimedia project coordination wiki
Jump to: navigation, search

Diese Seite ist Teil des MediaWiki-Handbuchs. Beschrieben werden die Funktionen der MediaWiki-Software.

Bezüge zur Wikipedia sollten hier nicht auftauchen, sondern in de:Wikipedia:Hilfe ausgeführt werden.

SQL-Dumps der Wikimedia-Projekte gibt es unter http://download.wikimedia.org/ zum Download. Die Seite wird etwa im Wochenabstand aktualisiert.

Linux[edit]

Der wichtigste Bestandteil ist die mit dem Erstellungsdatum versehene Datei mit der cur-Tabelle. Sie enthält die jeweils aktuellen Versionen aller Artikel. Sie ist mit bzip2 komprimiert.

Unter Linux wird die Datei folgendermaßen in die Datenbank importiert:

bzip2 -dc 20040610_cur_table.sql.bz2 | mysql -u ''wikiadmin'' -p''adminpass'' ''wikidb''

Anstelle von wikiadmin, adminpass und wikidb setzt man den Namen, Passwort und die Datenbank ein, die bei der Installation der MediaWiki-Software angegeben wurden.

Nicht empfohlen: Die old-Tabelle[edit]

Die riesige old-Tabelle enthält die alten Versionen aller Artikel, die in der Wikipedia existieren. Von einer Installation muss auf Grund der Größe der Datei abgeraten werden, wenn man nicht zufälligerweise einen AMD64-Prozessor im 64-Bit-Modus (um Dateigrößen-Problemen aus dem Weg zu gehen) mit mindestens 2 GB RAM besitzt. Wenn man sich davon nicht abschrecken lässt, wird die Datei folgendermaßen importiert:

bzip2 -dc old_table.sql.bz2 | mysql -u ''wikiadmin'' -p''adminpass'' ''wikidb''

Erschwerend kommt noch hinzu, dass die Datei in naher Zukunft so groß werden wird, dass sie von unserem Webserver nicht mehr in einem Stück ausgeliefert werden kann. Man muss sie dann stückweise downloaden (xaa, xab, xac etc.) und mit dem Befehl cat zusammenfügen, was dann importiert werden kann:

cat xaa xab xac | bzip2 -dc | mysql -u ''wikiadmin'' -p''adminpass'' ''wikidb''

Linktabellen[edit]

Die Linktabellen halten fest, welcher Artikel auf welchen linkt usw. Zum reinen Lesen der Artikel benötigt man sie nicht, aber wenn man Funktionen wie "was zeigt hierher" oder die Wartungsseite benutzen möchte, braucht man sie. Man kann sie entweder fertig downloaden oder selbst erzeugen. Die Download-Version funktioniert allerdings nur mit der neuen Software-Version 1.3. Benutzer der alten Software 1.2.x müssen die Tabellen selber bauen. Auf einem 3 GHz-Prozessor dauert dies etwa 30 Minuten.

Der Download-Weg[edit]

Man benötigt die aktuellen Versionen der Dateien de_links_table.sql.gz und de_brokenlinks_table.sql.gz. Sie sind mit gzip komprimiert. Der Import funktioniert wie gehabt:

gzip -dc de_links_table.sql.gz | mysql -u ''wikiadmin'' -p''adminpass'' ''wikidb''
gzip -dc de_brokenlinks_table.sql.gz | mysql -u ''wikiadmin'' -p''adminpass'' ''wikidb''

Danach ist man fertig und hat aktuelle Linktabellen im Wiki.

Die Selbstbau-Methode[edit]

Hierzu benötigt man das Programm php auf der Textkonsole. Im maintenance-Verzeichnis des entpackten Wikipedia-Tarballs liegen verschiedene rebuild-Skripte. Die alte Software-Version 1.2.x hat ein "schnelles" Rebuildskript, das über

php rebuildlinks.php

gestartet wird. Die neue Software 1.3 hat im Moment nur ein langsames Skript, das aber den Vorteil bietet, dass das Wiki während der Arbeit erreichbar bleibt. Man startet es über

php refreshlinks.php

Optional: Textindex[edit]

Wenn man Volltextsuchen durchführen möchte, muss man einen Textindex erzeugen. Dies geschieht über

php rebuildtextindex.php

Optional: Recentchanges aktualisieren[edit]

Wenn man wissen möchte, bis zu welcher Uhrzeit die installierte cur-Tabelle reicht, kann man kurz

php rebuildrecentchanges.php

sagen, um die Seite "Letzte Änderungen" zu aktualisieren.

Optional: Artikelanzahl neu berechnen[edit]

Die Anzahl der im Wiki vorhandenen Artikel kann relativ schnell über das SQL-Skript recount.sql neu berechnet werden:

mysql -u ''wikiadmin'' -p''adminpass'' ''wikidb'' < recount.sql

Alternativ kann man sich auch eine völlig verfälschte Statistik über die Datei de_site_stats_table.sql.gz einspielen.

Hinweis: Änderung seit MW 1.5:

  • (bug 3734) Swapped out obsolete recount.sql with initStats.php

Optional: Kleinkram[edit]

Es gibt noch drei Tabellendateien auf dem Downloadserver, die in den meisten Fällen unwichtig sind, vielleicht aber trotzdem interessant sind: de_categorylinks_table.sql.gz, de_image_table.sql.gz und de_oldimage_table.sql.gz, die die Kategorielinks der neuen Software 1.3 enthalten bzw. den aktuellen und alten Inhalt der Bildseiten. Wenn man sie unbedingt braucht, kann man sie wie die Linktabellen importieren.

Windows[edit]

Nachdem die MediaWiki-Software installiert ist, muss nur noch der MySQL-Dump in die Wiki eingespielt werden. Dazu entpackt man die von http://download.wikimedia.org/ heruntergeladene Datei in das Verzeichnis X:\temp\. Unter Windows kann für das Entpacken beispielsweise das Open-Source-Programm 7-zip (http://www.7-zip.org) verwendet werden.

Anschließend wechselt man in der Eingabeaufforderung in das Verzeichnis X:\xampp\mysql\bin\ und startet MySQL mit mysql -u root -p und bestätigt dies mit zweimaligem Drücken der Eingabetaste. Nun öffnet man die Datenbank dewiki, indem man use dewiki eingibt und mit der Eingabetaste bestätigt.

Zum Einspielen der Daten muss man nun nur noch den Befehl source X:\temp\20040515_cur_table.sql eingeben, mit der Eingabetaste bestätigen und warten, bis alle Daten eingespielt sind und MySQL mit dem Befehl quit beenden.

Siehe auch[edit]

MediaWiki-Handbuch - deutsche Hilfe Seiten: Meta Help Meta Hilfe b: n: w:/w: q: wiktionary

Grundlagen: (Artikelnamen | Namensräume) | Einstellungen
Bearbeiten: Erste Schritte | Bearbeiten | Textgestaltung | Links | Bilder | Tabellen | Formeln | Vorlagen | Variablen | Inhaltsverzeichnis | Kategorien | Sonderzeichen | Interwiki

Diese Fußzeile bearbeiten
Sprachen: English  · Deutsch