Wikipedia-Dumps auf dem EeePC lesen

Samstag, 14. Februar 2009

Die Wikipedia auf der Guckkastenbühne des EeePC 701: Vorausgesetzt, man hat sich eine zusätzliche SD-Karte von 2 GB gegönnt und benutzt nicht das vorinstallierte Xandros-Linux, kommt man ohne größere Verrenkungen in den Genuß einer kompletten Wikipedia für unterwegs – offline, ohne lokalen Webserver pp. Geht nicht? Wenn man sich auf die Textversion beschränkt, ohne Bilder und Multimedia, ist das kein Problem. Die nachfolgende Kurzanleitung bezieht sich auf den EeePC 701 mit installiertem Ubuntu-eee 8.10 aka Easy Peasy 1.0 als Betriebssystem – also ein „Netbook“ mit Flashspeicher anstelle einer Festplatte. Diese EeePC-Version dürfte es im Ramsch für weit unter 200 Euro geben.

Auf der Wikimedia-Downloadseite finden sich diverse Dumps der Wikipedia-Datenbank, u.a. getrennt nach landesspezifischen Versionen: enwiki beinhaltet die englische Version, während dewiki die deutschsprachigen Seiten enthält usw. Der aktuellste abgeschlossene dewiki-Dump ist im Moment die Version vom 6.12.2008. Aus dem Serververzeichnis 20081206 benötigen wir nur den Text der Artikel in XML-Form, den die Datei pages-articles.xml.bz2 beinhaltet. Achtung: Die Dateigröße des komprimierten bz2-Archivs beträgt rund 1,3 Gigabyte.

Als Reader bietet sich der Wikipedia Dump Reader an, der die Daten der XML-Datei direkt aus dem bz2-Archiv lesen kann mit dem Vorteil, daß man die riesige Datei zur Indexierung und zum Auslesen nicht erst entpacken muß – was etwa die zehnfache Größe des Archivs ergäbe. Der Reader basiert auf PyQt4, aus den Ubuntu-Repositories muß also noch via Synaptic das python-qt4-Archiv installiert werden, was mit ein paar Abhängigkeiten eine Downloadgröße von noch einmal rund 32 MB ergibt.

Den Reader entpackt man im Homeverzeichnis in ein Unterverzeichnis nach Wahl und nimmt in der Datei dumpReader.py noch ein paar Änderungen vor: Da wir auf dem EeePC auf mathematische Formeldarstellungen via LaTeX-Rendering verzichten können, wird die Variable latexRendering = True auf False gesetzt.

Die Initialisierung unserer Offline-Wikipedia nehmen wir besser auf einem Desktoprechner vor, da beim ersten Aufruf des Dump Readers („python /home/username/reader/dumpReader.py“ – ohne Tüttelchen) ein Index der Textseiten erstellt wird. Der Index selbst ist zwar anschließend nur 27 MB groß, jedoch dauert dessen Erstellung eine ganze Weile (auf dem Desktoprechner muß folglich PyQt4 installiert sein).

Die pages-articles.xml.bz2 samt Index kopieren wir auf einen Stick und schieben alles in ein Unterverzeichnis der SD-Karte auf dem EeePC. Die Installation des Dump Readers sowie der python-qt4 erfolgt auch auf dem EeePC wie beschriebenen, und nachdem man dem Reader das bz2-Archiv gezeigt hat, kann’s losgehen – den Index haben wir ja mitkopiert, folglich muß dieser nicht mehr neu erstellt werden. Das Arbeiten mit der Offline-Wikipedia geht mit dem Dump Reader sehr flott, selbst Querverweise werden recht schnell angezeigt. Und der Screenshot:
Wikipedia
(Wikipedia deutsch komplett unter Easy Peasy 1.0. Zur vergrößerten Darstellung auf das Bild klicken, im neuen Fenster)

Neben der Wikipedia empfiehlt sich für den EeePC noch das Telefonbuch aus dem TVG-Verlag (i.e. das Verzeichnis der Telekom), dessen Linux-Version samt „Map & Route“-Karte recht zufriedenstellend läuft – wenn auch die Bildschirmhöhe des 701 mit 480px etwas zu klein für das Programm ist. Falls die Installation des Telefonbuchs auf dem EeePC via USB-Medium erfolgen soll, installiert man es besser vorher auf dem Desktoprechner und kopiert anschließend alle Verzeichnisse auf den EeePC – der TVG-Installer setzt zwingend ein DVD-Laufwerk voraus.

Artikel vom Samstag, 14. Februar 2009, 00:17 Uhr in der Kategorie EeePC. Sie können Kommentare zu diesen Eintrag durch den RSS-Feed verfolgen. Wenn Sie möchten, können Sie einen Kommentar hinterlassen oder einen Trackback von Ihrem Weblog senden.

«  –  »

Keine Kommentare »

No comments yet.

Leave a comment