Databases Reference
In-Depth Information
nen Nutzer als „einfaches Maß für die Reputation eines Artikels“ zu nutzen und
bezieht diese auf Zitationen der Wikipedia in Presseorganen [Lih 2004]. Zwar ist
nicht klar, ob der in Lihs Artikel verwendete Begriff „Reputation“ identisch mit
der gleichnamigen Dimension der Informationsqualität ist, er wird sich wahr-
scheinlich auf eine Kombination von Dimensionen der Kategorie „Intrinsische
Datenqualität“ beziehen. Etwa zur gleichen Zeit wie Lihs Beitrag begann Wikipe-
dia mit der Entwicklung von Kriterien für hochwertige („exzellente“) Artikel. Stvi-
lia et al. führten eine Faktoranalyse auf einer Auswahl von exzellenten und zufälli-
gen Artikeln durch, um die Qualitätskriterien zu identifizieren, die das Qualitäts-
modell der „exzellenten Artikel“ erklären [Stvilia et al. 2005]. Die resultierenden
Dimensionen sind (in Klammern die entsprechenden Dimensionen der Datenquali-
tät): „Kompetenz/Reputation“ (Objektivität, Glaubwürdigkeit, Reputation und
präzise Darstellung), „Vollständigkeit“ (Vollständigkeit), „Komplexität“ (Ver-
ständlichkeit), „Informationsgehalt“ (Relevanz, Mehrwert, Vollständigkeit), „Kon-
sistenz“ (konsistente Darstellung, Genauigkeit), „Zeitnähe“ und „Volatilität“.
Eine ähnliche Untersuchung, die zusätzlich Bezüge zum Coh-Metrix-Ansatz in
[Dufty et al. 2004] hat, wurde von Blumenstock durchgeführt, der mehr als 100
Artikeleigenschaften auf vier verschiedenen Ebenen für einen Beispielsatz beste-
hend aus etwa 11.000 zufälligen bzw. exzellenten Artikeln extrahierte [Blumen-
stock 2008]: äußere Eigenschaften (wie Worte, Sätze, Silben etc.), strukturelle Ei-
genschaften (z. B. Links, Abbildungen, Kategorien etc.), Lesbarkeits-Metriken so-
wie Wortarten. Die Ergebnisse zeigen, dass allein die Wortzählung schon mit ho-
her Genauigkeit „exzellente Artikel“ zu klassifizieren vermag. Allerdings erscheint
es zweifelhaft, ob diese Ergebnisse in anderen Kontexten als Wikipedia angewandt
werden können.
Aufgrund der Regeln bei Wikipedia besteht die Tendenz Artikel in Richtung einer
moderaten Größe zu entwickeln: Längere Artikel sollen geteilt werden. Bei kürze-
ren Artikeln wird bereits bei ihrer Nominierung zu „guten Artikeln“ ihre man-
gelnde Länge vermerkt. Entsprechend der Klassifizierung bei Wikipedia ist ein
„guter Artikel“ die Vorstufe eines „exzellenten Artikels“ [Wikimedia Foundation
2009b, 2009c]. Kurze Texte in Wörterbuchart werden ins Wictionary verlegt.
Ein weiterer Ansatz, der in seiner Methode sogar noch spezifischer auf Wikipedia-
Strukturen setzt, ist die von Hammwöhner et al. durchgeführte Analyse. Sie stüt-
zen sich auf die Konsistenz der Verknüpfungen von Artikeln und Kategorien in
verschiedenen Sprachen (unter Ausnutzung der Sprachlinks, die in den verschie-
denen Sprachversionen von Wikipedia vorhanden sind) um Qualitätsaspekte zu
identifizieren [Hammwöhner et al. 2007].
Untersuchungen, die anhand von Nachrichtenartikeln durchgeführt wurden, ver-
weisen auf zwei Aspekte [Ng et al. 2006], [Tang et al. 2003]: Zum einen dominieren
bei der Wahrnehmung der Qualität eines Dokumentes individuelle Unterschiede
stark, andererseits bieten die durch eine Textanalyse erhaltenen Dokumenteigen-
schaften ausreichend Informationen für einen Klassifikator, um insbesondere Qua-
Search WWH ::




Custom Search