Neue Technologien des Lesens - Engelbarts Traum

Information Technology Reference

In-Depth Information

wir uns zunutze, wenn wir ein Thema im Web recherchieren. Das dumme,

aber schnelle Lesen vernetzter Computer kombinieren wir mit dem lang-

samen, aber sinnerfassenden Lesen, das wir selbst beherrschen. Die

Maschine liest für uns Milliarden von Seiten und greift diejenigen heraus, in

denen bestimmte Textstücke gefunden werden. Das Ergebnis dieses Com-

puterlesens, einen winzigen Teil der maschinell gelesenen Seiten, sichten

und bewerten wir vermöge unserer menschlichen Lesefähigkeit. Wollen Sie

beispielsweise Näheres zum Leben Johann Wolfgang Goethes erfahren und

geben »Goethe« in die Suchmaschine Bing ein, dann beziehen sich die er-

sten zehn Ergebnisse auf sehr verschiedene Dinge: auf den Goethe-Eintrag

in Wikipedia, auf das Goethe-Institut, die Goethe-Universität, einen Goethe-

Film. Vier der Einträge 156 jedoch verweisen auf Seiten, die Informationen zu

Leben und Werk des deutschen Dichters enthalten. Dies kann man als

Mensch schnell aus den zwei Zeilen entnehmen, die zu jedem Link aus der

Seite eingeblendet werden. Indem wir Suchmaschinen nutzen, lesen wir also

schon heute hybrid - Mensch und Maschine im Verbund.

Das maschinelle Lesen von Web-Seiten geschieht nicht erst in dem Mo-

ment, in dem die Suche abgeschickt wird. Suchmaschinenbetreiber lassen

ständig im Web Programme nach neuen oder geänderten Seiten fahnden, in-

dem sie sich ausgehend von bereits bekannten Seiten von Link zu Link

hangeln. Die gefundenen Seiten werden analysiert und die vorgefundenen

Wörter in einer riesigen Tabelle abgelegt, dem sogenannten Index. Bei einer

Suchanfrage wird im Index nachgeschaut, welche Web-Seiten bei einem

Suchwort vermerkt sind, und aus diesen Trefern wird eine Antwortliste er-

stellt. Nach welchen Kriterien allerdings die gefundenen Seiten in der Liste

angeordnet werden, ist die eigentlich interessante Frage. Für die Such-

maschinenbetreiber sind diese Algorithmen ein Betriebsgeheimnis, da die

Qualität der Suchergebnisse das wichtigste Auswahlkriterium für den Ben-

utzer darstellt. Bei Google etwa werden neben einer zentralen Reihungs-

funktion, dem PageRank -Algorithmus, mehr als zweihundert weitere Kriteri-

en herangezogen. 157

Das Fachgebiet, das sich mit derartigen Fragestellungen befasst, nennt

sich Information Retrieval , 158 das Aufinden von Informationen in sehr

großen Textmengen. Der dabei vorgenommene Indizierungsvorgang ist so

etwas wie ein maschinelles Schnelllesen. In einem Teilgebiet davon, dem

Text Mining , 159 gibt man sich damit nicht zufrieden. Beim Abbau von Inform-

ationen in einem Text-Bergwerk, so könnte man diesen Begrif auf Deutsch

übersetzen, geht es nicht darum, einzelne Vorkommen eines Wortes

aufzuinden, sondern Eigenschaften dieses Wortes aus dem Zusammenhang

Search WWH ::

Custom Search

Home