Information Technology Reference
In-Depth Information
seines Vorkommens zu ermitteln. Dazu werden statistische Mittel eingesetzt.
Wenn Sie beispielsweise etwas über die Verwendung des Wortes »wegen« im
Deutschen in Erfahrung bringen wollen, dann können Sie sich im digitalen
Textbestand auf den Web-Seiten des Instituts für deutsche Sprache in Man-
nheim eine lange Liste von Belegstellen ausgeben lassen. 160 Interessanter
ist es aber, wenn diese Belegliste so ausgewertet wird, dass man etwas über
die Häuigkeit bestimmter nachfolgender Wörter erfährt. Dabei sieht man
dann, dass zwar die Artikel »der« und »des« sehr häuig Folgewörter sind
(22,1 und 11,3 Prozent), das im Dativ stehende »dem« kommt allerdings
ebenfalls mit einer Häuigkeit von immerhin 0,4 Prozent im Textbestand als
Folgewort vor. 161 Eine solche Analyse arbeitet heraus, was man als Mensch
sonst allenfalls erahnt: In der Schriftsprache gilt »wegen« mit dem Dativ als
falsch, kann aber trotzdem gefunden werden. Grammatiker müssen nun
entscheiden, ob dieses Faktum eine Ausnahme von der Genitiv-Regel legiti-
miert oder nicht.
Eine solche Anwendung des Text Mining ist linguistisch geprägt.
Betrachtet man aber statistisch, welche Wörter typischerweise im näheren
Umfeld eines Suchworts erscheinen, beindet man sich sofort in einem Netz
von Bedeutungen. Gerhard Heyer von der Universität Leipzig betreibt seit
Jahren das Projekt Deutscher Wortschatz, bei dem täglich online verfügbare
Texte in deutscher Sprache in einer Datenbank abgelegt und statistisch aus-
gewertet werden. 162 Bei einer dieser Auswertungen wird untersucht, welche
anderen Wörter besonders häuig im gleichen Satz mit dem Suchwort er-
scheinen. Bei einem Suchwort »Goethe« erscheinen als Ergebnis unter an-
derem die Wörter »Johann Wolfgang« (das war zu erwarten), »Schiller«,
»Dichter«, »Weimar«, »Faust«, »Shakespeare«, »Dichterfürst«, »Farben-
lehre«, »Reichskammergericht«, »Leiden des jungen Werther« und »Lotte«.
Ohne dass also ein einzelner Mensch diese Informationen irgendwann be-
wusst zusammengetragen hätte, erbringt allein die statistische Auswertung
von Sätzen einige Kernbegrife für einen Lexikoneintrag zu Johann Wolfgang
Goethe. Derartiges Wissen ist in großen Textbeständen im Überluss enthal-
ten und kann durch die statistische Auswertung maschinellen Lesens zutage
gefördert werden. Heyer bezeichnet deshalb im Titel seines Buchs Texte
auch als einen »Wissensrohstof«.
In der Biomedizin setzt man beispielsweise Text Mining-Verfahren ein, um
in den Tausenden von Aufsätzen und Forschungsberichten, die dort Jahr für
Jahr publiziert werden, versteckte Zusammenhänge aufzudecken, etwa zwis-
chen Proteinen und Genen. Die Firma Google hat inzwischen die Potentiale
dieses Verfahrens erkannt und mit Calico eine eigene Firma gegründet, die
 
Search WWH ::




Custom Search