Web Mining und Natural Language Processing als methodisches Komplement in der Wirtschaftsgeographie
Datum
Autor:innen
Betreuer/Gutachter
Weitere Beteiligte
Herausgeber
Zeitschriftentitel
ISSN der Zeitschrift
Bandtitel
Verlag
Zitierlink
Zusammenfassung
Für wirtschaftsgeographische Forschung spielen räumlich und inhaltlich granular aufgelöste Daten eine zentrale Rolle, um Treiber und Barrieren sozioökonomischer Entwicklungen von Regionen besser verstehen zu können. Vor dem Hintergrund der zunehmenden Digitalisierung hat sich das Internet zu einer enorm umfassenden Datenquelle für unterschiedlichste For-schungsdisziplinen entwickelt. Insbesondere die Fähigkeit moderner Algorithmik auch un-strukturierte Textdaten semantisch auswerten zu können, ermöglicht es, enorm umfassende und gleichzeitig sehr detaillierte Informationen aus Webdaten gewinnen zu können. In der Wirtschaftsgeographie hat eine Exploration dieser Verfahren bisher kaum stattgefunden, sodass es das übergeordnete Ziel dieser Disseration ist unstrukturierte Textdaten aus dem Internet für wirtschaftsgeographische Forschung nutzbar zu machen. Aufgrund des methodenexplorierenden Charakters der Arbeit führt diese zunächst in die Forschungsfelder Web Mining und Natural Language Processing ein, bevor die Methodiken anhand von Fallstudien konkret auf wirtschaftsgeographische Forschungsfragen projiziert werden. Die Fallstudien skizzieren verschiedene Zugänge zu Webdaten, demonstrieren unterschiedliche Verfahren zur quantitativen Textanalyse, behandeln Texte unterschiedlicher Sprachen und umfassen sowohl Quer- als auch Längsschnittanalysen. Dabei liegt der Fokus auf der Entwicklung und Adaptierung von Modellen, die speziell im Kontext raumbezogener Forschung eingesetzt werden können. Im Rahmen der ersten Fallstudie wurde das offene Webrepositorium Com-monCrawl genutzt, um eine flächendeckende, koordinatenscharfe Datenbank von Unterneh-mensdomains mittels Web Mining zu erstellen. Die geographische Analyse und der Vergleich mit amtlichen Statistiken zeigt, dass die extrahierten Daten in der Lage sind, die tatsächliche Unternehmenslandschaft in Deutschland zu repräsentieren. Fallstudie 2 nutzt diese Daten, um Unternehmen anhand ihrer Webseitentexte nach Technologienutzung zu klassifizieren. In der dritten Fallstudie wurde einschlägige wirtschaftsgeographische Literatur herangezogen, um abstrakte Themen in den Publikationen aufzudecken. Ferner konnten Entwicklungstrends und Zusammenhänge der Themen mittels Verfahren des Natural Language Processings quantifiziert werden. Abschließend diskutiert die Arbeit weitere Potentiale und Herausforderungen der explorierten Methodiken. Die Diskussion beinhaltet ferner eine Gegenüberstellung der untersuchten Methodiken mit tradierten Verfahren der empirischen Sozialforschung. Aus dieser Erörterung heraus wurde ebenfalls beleuchtet, wie sich Web Mining und Natural Language Processing insbesondere in wirtschaftsgeographische Forschungsdesigns integrieren lassen und welche Perspektiven eine Methodenintegration ermöglicht.