Hypertextsorten : Definition, Struktur, Klassifikation

Datum

2005

Autor:innen

Betreuer/Gutachter

Weitere Beteiligte

Herausgeber

Zeitschriftentitel

ISSN der Zeitschrift

Bandtitel

Verlag

Zusammenfassung

Suchmaschinen im WWW indexieren und durchsuchen Dokumente in großer Geschwindigkeit. Trotz der quantitativ beeindruckenden Ergebnisse lässt dieQualität der Treffer jedoch oft zu wünschen übrig. Die vorliegende Arbeitzielt darauf ab, die theoretischen und praktischen Grundlagen für strukturelle Verbesserungen der Funktionsweise von Suchmaschinen zu liefern. Der Schlüssel hierfür liegt in der maschinellen Identifikation von Hypertextsorten. Dieser Begriff bezeichnet den generellen Typ eines WWW-basierten Hypertextes im Sinne eines funktional-thematisch markierten Kommunikats. Hypertextsorten sind -- ebenso wie traditionelle Textsorten -- auf verschiedenen Ebenen von Konventionen gekennzeichnet, die rekurrent in zugehörigen Text- bzw. Hypertextexemplaren beobachtet werden können. Eine Komponente zur maschinellen Erkennung von Hypertextsorten könnte unter anderem im Rahmen einer Suchmaschine Verwendung finden. Ihren Anwendern stünde hierdurch eine weitere Ebene des Zugriffs auf Dokumente zur Verfügung, so dass nach Dokumenten recherchiert werden kann, die die angegebenen Stichwörter enthalten und darüber hinaus den vom Benutzer spezifizierten Hypertextsorten zugehörig sind, z.B. persönliche Homepage, Produktkatalog oder Kochrezept (Kap. 1).

Die Arbeit behandelt zunächst die für die Charakterisierung des Begriffs Hypertextsorte benötigten Grundlagen (Teil I), die sich auf die Textlinguistik (Kap. 2) und die linguistischen Spezifika des Konzepts Hypertext stützen (Kap. 3). Anschließend werden die Kerneigenschaften von Hypertextsorten dargestellt (Kap. 4). Teil II erläutert den Rahmenansatz und die Methodologie. In Kap. 5 wird ein Hypertextsortenmodell entwickelt, das sowohl für textlinguistische Analysen als auch für texttechnologische Anwendungen ausgelegt ist und zwischen den drei konzeptionellen Ebenen Hypertextsorte, Hypertextknotensorte und Hypertextsortenmodul differenziert. Kap. 6 stellt die Untersuchungsdomäne der universitären Webangebote vor, für die ein Korpus von etwa vier Millionen HTML-Dokumenten angefertigt wurde, die sich in einer Korpusdatenbank befinden und sowohl manuell -- über eine Web-Oberfläche -- als auch automatisch analysiert werden können (Kap. 7). Teil III umfasst fünf empirische Analysen als exemplarische Anwendungen des Hypertextsortenmodells. Die ersten drei Analysen betreffen die quantitative Auswertung persönlicher Homepages (Kap. 8) und Untersuchungen von Exemplaren der Hypertextsorten private Homepage eines Studierenden (Kap. 9) sowie persönliche Homepage eines Wissenschaftlers (Kap. 10). In Kap. 11 wird die Hypertextknotensorte Einstiegsseite eines universitären Webauftritts anhand von 35 Einstiegsseiten analysiert; es schließt sich eine Untersuchung der 692 Dokumente an, die mittels Hyperlinks referenziert werden. In der fünften Analyse werden 750 zufällig ausgewählte Dokumente ausgewertet (Kap. 12). Mit den beiden abschließenden Untersuchungen wird das Ziel der Sammlung und Identifizierung von Hypertextknotensorten und Hypertextsorten verfolgt. Die Analysen weisen eine Vielzahl von Konventionen nach und belegen die Existenz zahlreicher Hypertextsorten, die nicht nur dem universitären Bereich zuzurechnen sind. Teil IV geht auf die technologischeUmsetzung ein. Kap. 13 präsentiert die Hypertextsortenontologie, die auf der Web Ontology Language basiert und von einem Domänenmodell sowie einerOntologie wissenschaftlicher Themen und Fachgebiete flankiert wird. In diese Ontologie werden die Ergebnisse der empirischen Analysen integriert, wobei auch die Frage der Typologisierung aufgegriffen wird. Die maschinelleIdentifizierung von Hypertextsorten als Grundlage sprachtechnologischerAnwendungen ist Gegenstand von Kap. 14. Ausgehend von einer kritischenBetrachtung der vorliegenden Arbeiten zur automatischen Identifizierung vonWeb-Genres wird eine Architektur mit Komponenten entwickelt, die für diemaschinelle Erkennung von Hypertextsorten benötigt werden, um die im WWWexistenten realen Gegebenheiten der Kommunikation erfassen zu können. DieHypertextsortenontologie fungiert hierbei als Wissensbasis, die dieZusammenhänge zwischen Hypertextsorten, Hypertextknotensorten undHypertextsortenmodulen beinhaltet. Es wird die prototypische Implementierung eines Textparsers für arbiträre HTML-Dokumente vorgestellt, der innerhalb dieser Architektur einen zentralen Stellenwert einnimmt, um die Komponenten der Textoberfläche auf Hypertextsortenmodule abzubilden.

Beschreibung

Inhaltsverzeichnis

Anmerkungen

Erstpublikation in

Sammelband

URI der Erstpublikation

Forschungsdaten

Schriftenreihe

Erstpublikation in

Zitierform