Information Technology Reference
In-Depth Information
schon heute auswirken und welche Entwicklungslinien erkennbar sind, se-
hen wir uns in diesem und den beiden folgenden Abschnitten an.
Was also ist hybrides Lesen, die Automatisierung des Umgangs mit Ges-
chriebenem? Hybrides Lesen kann man zunächst ganz naheliegend ver-
stehen als das Lesen des Computers. Der digitale Text, die Kodierung von In-
formationen durch Bitfolgen im Speicher des Computers, muss ja irgendwie
dort hineinkommen. Das geschieht per Tastatur. Wenn aber gedruckter Text
zu digitalisieren ist, kann dies auch optisch geschehen, mit einer Kamera als
dem Auge des Computers. Einen Text einfach mit einer Digitalkamera zu fo-
tograieren, hilft einem dabei allerdings nicht weiter. Das aufgenommene
Bild ist noch kein digitaler Text, es bleibt ein Bild, da es nicht aus kodierten
Schriftzeichen besteht, vielmehr aus Bildpunkten, die hinsichtlich Farbe,
Helligkeit und Sättigung beschrieben werden. Bilddateien sind ganz anders
aufgebaut als Textdateien. Um aus einem digitalen Bild, das einen Text zeigt,
ein digitalen Text zu machen, muss es von einem Computerprogramm erst
übersetzt werden. Dieser Vorgang wird als Texterkennung bezeichnet. Tex-
terkennung lässt sich mit dem Einscannen von Texten verbinden. Wenn man
ein Dokument beispielsweise ohne Texterkennung im PDF-Format einscannt
und es sich anschließend mit einem PDF-Anzeigeprogramm, etwa Acrobat,
anzeigen lässt, dann erscheint es als Bild - man kann darin nicht nach einem
bestimmten Wort suchen. Scannt man das Dokument aber in Verbindung mit
einer Texterkennung ein, sind die Textelemente des Dokuments in ihrer
Unicode-Kodierung erfasst, lassen sie sich suchen, kopieren und in einer
Textverarbeitung verändern. Die Firma Google benutzt für ihr Google Books -
Projekt diese Art der Digitalisierung: digitales Fotograieren von Buchseiten,
danach Texterkennung. Beides wird integriert gespeichert, so dass man bei
einer Textsuche auch das ursprünglich aufgenommene Bild der Seite erhält.
So unsichtbar und scheinbar mühelos die Texterkennung heute abläuft, so
langwierig war ihre Entwicklung. Das Problem besteht darin, in einer zwei-
dimensionalen Ansammlung von Bildpunkten wiederkehrende Muster zu
erkennen. Da Buchstaben je nach Schriftart und Druckqualität sehr unter-
schiedlich aussehen können - man denke nur an Schriftarten wie Gotisch
Fraktur oder Schreibschrift -, ließen im Problem der Mustererkennung ein-
ige Aspekte der Künstliche-Intelligenz-Forschung zusammen. Zunächst wur-
den für die automatische Texterkennung sogar spezielle Schriftarten ver-
wendet, die sich zum Teil noch heute in Textverarbeitungssystemen inden
lassen (in Word 2010 etwa OCR A Extended ). Mittlerweile ist das nicht mehr
nötig, nach wie vor beherrscht aber der Computer die Texterkennung noch
nicht mit der gleichen Verlässlichkeit wie der Mensch. Das liegt daran, dass
 
Search WWH ::




Custom Search