Database Reference
In-Depth Information
links:to:"weird al" yankovic
timestamp=1300419602350, value=
links:to:20th century fox
timestamp=1300419602350, value=
links:to:3-d film
timestamp=1300419602350, value=
links:to:Aayla secura
timestamp=1300419602350, value=
...
In der wiki -Tabelle sind die Zeilen in Bezug auf die Spalten sehr gleichmä-
ßig. Jede Zeile besteht aus den Spalten text: , revision:author und revi-
sion:comment . Diese Regelmäßigkeit gibt es in der links -Tabelle nicht. Jede
Zeile kann eine oder hunderte Spalten enthalten. Und die Vielzahl der Spal-
tennamen ist so unterschiedlich wie die Spaltenschlüssel selbst (Titel von
Wikipedia-Artikeln). Aber das ist in Ordnung! HBase ist aus eben diesem
Grund ein sog. dünnbesetzter (sparse) Datenspeicher.
Um herauszufinden, wie viele Zeilen Ihre Tabelle enthält, können Sie den
count -Befehl verwenden.
hbase> count 'wiki', INTERVAL => 100000, CACHE => 10000
Current count: 100000, row: Alexander wilson (vauxhall)
Current count: 200000, row: Bachelor of liberal studies
Current count: 300000, row: Brian donlevy
...
Current count: 2000000, row: Thomas Hobbes
Current count: 2100000, row: Vardousia
Current count: 2200000, row: Wörrstadt (verbandsgemeinde)
2256081 row(s) in 173.8120 seconds
Aufgrund seiner verteilten Architektur kann HBase nicht direkt wissen, wie
viele Zeilen eine Tabelle enthält. Um das herauszufinden, muss es sie (über
einen Tabellen-Scan) zählen. Glücklicherweise eignet sich die regionenba-
sierte Speicherarchitektur von HBase zum schnellen verteilten Scanning.
Selbst wenn die fragliche Operation einen Tabellen-Scan verlangt, müssen
wir uns (im Gegensatz zu anderen Datenbanken) keine allzugroßen Sorgen
machen.
Was wir am zweiten Tag gelernt haben
Puh, das war ein anstrengender Tag! Wir haben gelernt, wie man ein Import-
Skript für HBase entwickelt, das Daten aus einem XML-Stream verarbeitet.
Dann haben wir diese Techniken genutzt, um Wikipedia-Dumps direkt in
unsere wiki -Tabelle zu importieren.
Wir haben mehr über die HBase-API erfahren, einschließlich einiger Cli-
ent-gesteuerter Performance-Hebel wie setAutoFlush() , flushCommits() und
setWriteToWAL() . Darüber hinaus haben wir einige architektonische Featu-
res von HBase diskutiert, etwa das Disaster-Recovery durch Write-Ahead-
Logs.
Search WWH ::




Custom Search