Information Technology Reference
In-Depth Information
wir uns zunutze, wenn wir ein Thema im Web recherchieren. Das dumme,
aber schnelle Lesen vernetzter Computer kombinieren wir mit dem lang-
samen, aber sinnerfassenden Lesen, das wir selbst beherrschen. Die
Maschine liest für uns Milliarden von Seiten und greift diejenigen heraus, in
denen bestimmte Textstücke gefunden werden. Das Ergebnis dieses Com-
puterlesens, einen winzigen Teil der maschinell gelesenen Seiten, sichten
und bewerten wir vermöge unserer menschlichen Lesefähigkeit. Wollen Sie
beispielsweise Näheres zum Leben Johann Wolfgang Goethes erfahren und
geben »Goethe« in die Suchmaschine Bing ein, dann beziehen sich die er-
sten zehn Ergebnisse auf sehr verschiedene Dinge: auf den Goethe-Eintrag
in Wikipedia, auf das Goethe-Institut, die Goethe-Universität, einen Goethe-
Film. Vier der Einträge 156 jedoch verweisen auf Seiten, die Informationen zu
Leben und Werk des deutschen Dichters enthalten. Dies kann man als
Mensch schnell aus den zwei Zeilen entnehmen, die zu jedem Link aus der
Seite eingeblendet werden. Indem wir Suchmaschinen nutzen, lesen wir also
schon heute hybrid - Mensch und Maschine im Verbund.
Das maschinelle Lesen von Web-Seiten geschieht nicht erst in dem Mo-
ment, in dem die Suche abgeschickt wird. Suchmaschinenbetreiber lassen
ständig im Web Programme nach neuen oder geänderten Seiten fahnden, in-
dem sie sich ausgehend von bereits bekannten Seiten von Link zu Link
hangeln. Die gefundenen Seiten werden analysiert und die vorgefundenen
Wörter in einer riesigen Tabelle abgelegt, dem sogenannten Index. Bei einer
Suchanfrage wird im Index nachgeschaut, welche Web-Seiten bei einem
Suchwort vermerkt sind, und aus diesen Trefern wird eine Antwortliste er-
stellt. Nach welchen Kriterien allerdings die gefundenen Seiten in der Liste
angeordnet werden, ist die eigentlich interessante Frage. Für die Such-
maschinenbetreiber sind diese Algorithmen ein Betriebsgeheimnis, da die
Qualität der Suchergebnisse das wichtigste Auswahlkriterium für den Ben-
utzer darstellt. Bei Google etwa werden neben einer zentralen Reihungs-
funktion, dem PageRank -Algorithmus, mehr als zweihundert weitere Kriteri-
en herangezogen. 157
Das Fachgebiet, das sich mit derartigen Fragestellungen befasst, nennt
sich Information Retrieval , 158 das Aufinden von Informationen in sehr
großen Textmengen. Der dabei vorgenommene Indizierungsvorgang ist so
etwas wie ein maschinelles Schnelllesen. In einem Teilgebiet davon, dem
Text Mining , 159 gibt man sich damit nicht zufrieden. Beim Abbau von Inform-
ationen in einem Text-Bergwerk, so könnte man diesen Begrif auf Deutsch
übersetzen, geht es nicht darum, einzelne Vorkommen eines Wortes
aufzuinden, sondern Eigenschaften dieses Wortes aus dem Zusammenhang
 
Search WWH ::




Custom Search