Wikipedia-Dumps auf dem EeePC lesen

Samstag, 14. Februar 2009

Die Wikipedia auf der Guckkastenbühne des EeePC 701: Vorausgesetzt, man hat sich eine zusätzliche SD-Karte von 2 GB gegönnt und benutzt nicht das vorinstallierte Xandros-Linux, kommt man ohne größere Verrenkungen in den Genuß einer kompletten Wikipedia für unterwegs – offline, ohne lokalen Webserver pp. Geht nicht? Wenn man sich auf die Textversion beschränkt, ohne Bilder und Multimedia, ist das kein Problem. Die nachfolgende Kurzanleitung bezieht sich auf den EeePC 701 mit installiertem Ubuntu-eee 8.10 aka Easy Peasy 1.0 als Betriebssystem – also ein „Netbook“ mit Flashspeicher anstelle einer Festplatte. Diese EeePC-Version dürfte es im Ramsch für weit unter 200 Euro geben.

Auf der Wikimedia-Downloadseite finden sich diverse Dumps der Wikipedia-Datenbank, u.a. getrennt nach landesspezifischen Versionen: enwiki beinhaltet die englische Version, während dewiki die deutschsprachigen Seiten enthält usw. Der aktuellste abgeschlossene dewiki-Dump ist im Moment die Version vom 6.12.2008. Aus dem Serververzeichnis 20081206 benötigen wir nur den Text der Artikel in XML-Form, den die Datei pages-articles.xml.bz2 beinhaltet. Achtung: Die Dateigröße des komprimierten bz2-Archivs beträgt rund 1,3 Gigabyte.

Als Reader bietet sich der Wikipedia Dump Reader an, der die Daten der XML-Datei direkt aus dem bz2-Archiv lesen kann mit dem Vorteil, daß man die riesige Datei zur Indexierung und zum Auslesen nicht erst entpacken muß – was etwa die zehnfache Größe des Archivs ergäbe. Der Reader basiert auf PyQt4, aus den Ubuntu-Repositories muß also noch via Synaptic das python-qt4-Archiv installiert werden, was mit ein paar Abhängigkeiten eine Downloadgröße von noch einmal rund 32 MB ergibt.

Den Reader entpackt man im Homeverzeichnis in ein Unterverzeichnis nach Wahl und nimmt in der Datei dumpReader.py noch ein paar Änderungen vor: Da wir auf dem EeePC auf mathematische Formeldarstellungen via LaTeX-Rendering verzichten können, wird die Variable latexRendering = True auf False gesetzt.

Die Initialisierung unserer Offline-Wikipedia nehmen wir besser auf einem Desktoprechner vor, da beim ersten Aufruf des Dump Readers („python /home/username/reader/dumpReader.py“ – ohne Tüttelchen) ein Index der Textseiten erstellt wird. Der Index selbst ist zwar anschließend nur 27 MB groß, jedoch dauert dessen Erstellung eine ganze Weile (auf dem Desktoprechner muß folglich PyQt4 installiert sein).

Die pages-articles.xml.bz2 samt Index kopieren wir auf einen Stick und schieben alles in ein Unterverzeichnis der SD-Karte auf dem EeePC. Die Installation des Dump Readers sowie der python-qt4 erfolgt auch auf dem EeePC wie beschriebenen, und nachdem man dem Reader das bz2-Archiv gezeigt hat, kann’s losgehen – den Index haben wir ja mitkopiert, folglich muß dieser nicht mehr neu erstellt werden. Das Arbeiten mit der Offline-Wikipedia geht mit dem Dump Reader sehr flott, selbst Querverweise werden recht schnell angezeigt. Und der Screenshot:
Wikipedia
(Wikipedia deutsch komplett unter Easy Peasy 1.0. Zur vergrößerten Darstellung auf das Bild klicken, im neuen Fenster)

Neben der Wikipedia empfiehlt sich für den EeePC noch das Telefonbuch aus dem TVG-Verlag (i.e. das Verzeichnis der Telekom), dessen Linux-Version samt „Map & Route“-Karte recht zufriedenstellend läuft – wenn auch die Bildschirmhöhe des 701 mit 480px etwas zu klein für das Programm ist. Falls die Installation des Telefonbuchs auf dem EeePC via USB-Medium erfolgen soll, installiert man es besser vorher auf dem Desktoprechner und kopiert anschließend alle Verzeichnisse auf den EeePC – der TVG-Installer setzt zwingend ein DVD-Laufwerk voraus.

Easy Peasy for netbooks 1.0 aka Ubuntu-eee 8.10

Dienstag, 06. Januar 2009

EasyPeasyEasy Peasy 1.0, eine modifizierte Ubuntu 8.10 speziell für Netbooks wie die EeePCs von Asus, ist veröffentlicht worden. Die Easy Peasy 1.0 sollte eigentlich wie ihr Vorgänger Ubuntu-eee (8.10) heißen, allerdings hatte Canonical um eine neue Namensgebung gebeten. So haben wir statt eines Updates einen neuen „Brand“ namens Easy Peasy, der eigentlich eine Ubuntu-eee 8.10 ist.

Die Easy Peasy unterstützt (im Gegensatz zur älteren Ubuntu-eee 8.04.x) nicht nur gewisse Asus-Netbooks, sondern eine breitere Palette an mobilen Geräten – das war zumindest das Ziel. ;) Die Release Notes sind noch nicht online, im Moment ist nur das ISO über Sourceforge erhältlich. Ein spezielles UNetbootin zum Verschieben des ISOs auf ein USB-Medium ist zusammen mit ein paar nützlichen Skripten hier erhältlich.

Die Easy Peasy ist nicht zu verwechseln mit der eeeBuntu – ebenfalls sehr zu empfehlen, aber ein ganz anderes Projekt.

EasyPeasy

Easy Peasy 1.0 mit Netbook Remix (auf das Bild klicken zur Vergrößerung, 800×480, im neuen Fenster). Die CD ist zunächst nur english only, weitere Sprachpakete müssen nachinstalliert werden. Daneben erfreut uns die Distribution mit OpenOffice 3.0, Skype, Picasa, Songbird, XSane (Scanner), Java und diversen Spielen. Als Kernel kommt 2.6.27-8-eeepc zum Einsatz. Da die neue Namensgebung relativ kurzfristig erfolgte, ist das Design (Lemon – gelb und hellgrün) nicht gerade ausgefeilt, aber das sollte eh nur ein Nebenaspekt sein. Bugs und Probleme können im inzwischen recht munteren Forum besprochen werden.