Database Reference
In-Depth Information
HBase unterstützt die Verwendung von Bloomfiltern, um zu bestimmen, ob
eine bestimmte Spalte für einen gegebenen Zeilenschlüssel ( BLOOMFILTER=>
'ROWCOL' ) existiert oder einfach, ob ein gegebenen Zeilenschlüssel überhaupt
existiert ( BLOOMFILTER=>'ROW' ). Die Anzahl der Spalten innerhalb einer Spal-
tenfamilie und die Anzahl der Zeilen sind beide potentiell unbegrenzt. Bloom-
filter bieten eine schnelle Möglichkeit herauszufinden, ob Daten existieren,
bevor ein teures Lesen von der Festplatten nötig wird.
Und los!
Nun sind wir bereit, das Skript zu starten. Denken Sie daran, dass diese
Dateien riesig sind, d. h., das Herunterladen und Entpacken kommt nicht in
Frage. Was machen wir also?
Glücklicherweise können wir Dank der Magie der *nix-Pipes die XML-Datei
in einem Rutsch herunterladen, extrahieren und an das Skript übergeben.
Der Befehl sieht wie folgt aus:
curl <dump _ url> | bzcat | \
${HBASE _ HOME}/bin/hbase shell import _ from _ wikipedia.rb
Den <dump _ url> müssen Sie natürlich durch die URL des gewünschten Wiki-
Media Foundation-Dumps ersetzen. 2 Sie müssen [projekt]-latest-pages-
articles.xml.bz2 für die englische Wikipedia (~6GB) 3 oder das englische
Wictionary (~185MB) verwenden. 4 Diese Dateien enthalten die neuesten Sei-
ten des Main -Namensraums, d. h., die Seiten von Benutzern und Diskussio-
nen sind nicht dabei.
Tragen Sie die URL ein und führen Sie das Skript aus! Die Ausgabe sollte
(irgendwann) etwa so aussehen:
500 records inserted (Ashmore and Cartier Islands)
1000 records inserted (Annealing)
1500 records inserted (Ajanta Caves)
Das Skript wird zufrieden vor sich hin laufen, solange Sie es lassen oder
bis ein Fehler auftritt, wahrscheinlich werden Sie es aber nach einer Weile
abbrechen wollen. Wenn Sie so weit sind, das Skript zu beenden, drücken
Sie Ctrl + C . Im Moment wollen wir es aber noch laufen lassen, um einen
Blick hinter die Kulissen zu werfen und herauszufinden, wie HBase seine
horizontale Skalierbarkeit erreicht.
2. http://dumps.wikimedia.org
3. http://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2
4. http://dumps.wikimedia.org/enwiktionary/latest/enwiktionary-latest-pages-articles.
xml.bz2
 
Search WWH ::




Custom Search